TWDragon - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро. Страница 9

Бывает, что страница расположена под углом, или тень на развороте расширяется, для таких случаев можно устанавливать косые резаки, просто, удерживая шифт, передвигаем резак за его кончик, это быстрее, чем в последствии в ручную чистить страницы.

g) Кстати, знаете ли Вы, чтобы все не делать заново, задание можно сохранить (пункт основного меню File-›Save Task);

e) Жмем большую кнопку Process. Тут появляется предупреждения, в здравом ли мы уме, что меняем разрешение, но нам уже все равно, мы все уже сделали. Все, теперь дело за компьютером.

На компьютере Pentium M 1400 MHz, этот процесс занимает порядка одной минуты на разворот (это для версии 5.6A, в предыдущих версиях в 1.5-2 раза медленнее).

Часа через 2-3, в указанной ранее папке, нас ждет результат, просматриваем его внимательно, иногда могут быть несколько неправильно выровненных страниц. Их переделываем отдельно.

Перед переделкой страницы, на вкладке Book, необходимо переключить Page width на Fixed, этим мы зададим тот же размер страницы, который был подсчитан кромсатором для Вашей книги.

Совершенно не обязательно кромсать всю книгу сразу, можно делать это по частям. Просто, в последующих порциях, необходимо выставить Book -›Page width-›Fixed размер предыдущей части. Для определения правильного размера в кромсаторе, обычно, достаточно взять 10^15 разворотов (страниц).

Особо дотошные, могут почистить остатки вручную, так называемая тонкая очистка. Лично я это не делаю, за исключением убирания библиотечных штампов и записей на полях. Как правило, и так все замечательно. Кстати, в сканкромсаторе есть мощные средства для очистки сканов, можете воспользоваться.

(Если у Вас 256 и менее мегабайт памяти, то возможен глюк, он характеризуется постоянным свопом диска при смене dpi, тогда просто снимите задачу, выгрузите лишнее из памяти, запустите процесс кромсания заново)

О картинках. Если в книге встречаются фотографии, то самым простым, но не оптимальным по качеству способом является использование опять таки кромсатора ©. Во время просмотра результатов предварительного кромсания, выделите мышкой иллюстрацию и в контекстном меню (по правой кнопке мыши) выберите метод Exlude and Mark as dither regione.

3. Кодирование

Кодировать в djvu можно двумя способами.

Первый, использовать или свободно распространяемую программу Solo 3.1 (в этой программе используется старый алгоритм кодирования) или Document Express Editor версий от 4 до 6. Это делается просто, запускаем программу, загружаем первую страницу (только одну!), добавляем к первой странице остальные, но не более 500 (обычно 200^300). Сохраняем с выбором профиля bitonal и с разрешением 600 dpi.

Второй, рекомендованный способ, это использовать Document Express Enterprise 5.1 (доступна облегченная версия этого пакета, объемом около 20 мегабайт). Вначале создаем профиль для кодирования (делается это не часто, можно один раз), для этого запускаем Document Express Enterprise Configuration Manager из этого же пакета, из списка выбираем профиль Bitonal(600), нажимаем на кнопку Advanced Settings…, в диалоговом окне Advanced Settings выбираем закладку Text и ставим Pages Per Dictionary равным 1000 (конечно, это небольшой экстремизм, можно ограничиться значением 100^200). Сохраняем этот профиль под новым именем. Увеличение размера страниц на словарь, приводит к заметному уменьшению размера файла, до 25%.

Запускаем Document Express Enterprise Workflow Manager, загружаем все страницы зараз, в поле Job Name пишем название книги, из списка Raster Profile выбираем, подготовленный ранее профиль, переключаемся на закладку Output и из списка Separate Document(s) by выбираем One document only. Ставим галочку (с самого левого края под Enable) и ждем конца кодирования, следим или пока эта галка исчезнет или по закладке Log.

4. Создание текстового слоя

После того, как все уже сделано, остановится на этом просто себя не уважать, не говоря уж об остальных.

Для добавления распознанного текстового слоя в djvu книгу потребуется две программы. Первая это FineReader 7.0 или 8.0 версии. Вторая программа, это небольшая утилита DjvuOCR 2.1 от болгарского камрада Gencho.

Загружаем все, обработанные в кромсаторе, тифы в FineReader, те из которых была сделана djvu книжка, и распознаем в пакетном режиме. После распознавания, ничего не правим, не вычитываем, просто сохраняем пакет на диск, желательно путь для того пакета надо выбирать попроще, у DjvuOCR могут быть проблемы, если в названии пакета и/или пути будут кириллические символы. С FineReader все. Ура, ура, ура, появилась новая версия этой утилиты 2.2, в которой сняты эти ограничения. Теперь можно редактировать текст после распознавания в ФР, соблюдая некоторые ограничения:

а) при редактировании сохранять некоторые символы оригинального текста (например интервалы), т.е. не переписывать большие блоки;

б) желательно сохранять количество строк в параграфе (т.е. не стирать знаки конца строки).

Кстати, для наших целей вполне подойдет триальная версия FineReader, которую можно свободно скачать с официального сайта разработчика.

Запускаем DjvuOCR, жмем на кнопку Manual made OCR manager

Далее, тоже все просто:

FineReader Project directory – выбираем каталог с проектом.

Output OCR text file – это любой, пустой текстовой файл, помещенный в каталог с проектом.

Ставим галочку на Burn DJVU file и выбираем djvu книжку.

Нажимаем Process.

Ждем несколько минут. И всё.

Добавление обложки

В добавлении обложки, если не преследовать сверхзадач, никаких особых хитростей нет. Сканируем обложку в цвете в 200 дпи, чистим ее по вкусу, слегка размываем ее и кодируем в djvu профилем Photo(300). Полученный файл добавляем в книгу, например с помощью Document Express Editor.

З.Ы. Поступают жалобы, что таким образом сделанная обложка имеет размер меньший, чем страницы книги, что выглядит не эстетично, поэтому делайте обложку, как Вам больше нравится, сохраняя размер в пределах разумного. Говорят, есть метода от Minor а по созданию сверх компактных обложек в 600 дпи, если не лень, поищите.

Оглавление

Знаете ли Вы, что в Вашу книгу можно вставить оглавление? А между прочим, благодаря уважаемому Shea, это поразительно просто! Для этого воспользуемся утилитой DjVu Hyperlinks Editor.

Добавляем книгу, указываем, на каких страницах находится оглавление (нумерация с учетом обложки), выставляем смещение 1 (для компенсации обложки) и жмем Создать!

Конечно, без глюков пока не обходится, проверьте на всякий случай результат, вопиющие случаи можно и поправить в ручную (см. вставку оглавления ручным случаем чуть ниже).

Аналогично, с помощью этой программы, можно создать предметный указатель (Тип работы).

Подробнее, обо всех возможностях программы, можно почитать в сопроводительном файле.

В 5 и 6 версии Document Express Editor это же можно сделать мышкой. Жмем на кнопку – прямоугольная гиперссылка, обводим пункт меню, выскакивает окно диалога – свойство гиперссылки, в котором выбираем линк на номер страницы и затем соответственно сам этот номер. Ну и так далее, пока рука не отсохнет. Только делаем это в самый последний момент, после добавления обложки, вкладок и пр., иначе ссылки сдвинутся.

7. Использованные программы и где их взять

IrfanView www.irfanview.com freeware

ScanKromsator http://www.djvu-soft.narod.ru/ freeware

Solo 3.1 http://www.djvu-soft.narod.ru/ freeware

Document Express Editor http://www.djvu-soft.narod.ru/?

Document Express Enterprise http://www.djvu-soft.narod.ru/?

ABBYY FineReader www.abbyy.com. trial

DjvuOCR 2.1 http://djvuocr.ucoz.ru/ freeware

DjVu Hyperlinks Editor http://www.djvu-soft.narod.ru/ freeware

Заключение

Несколько о ФайнРидере.

Если Вы собираетесь сделать научно-техническую книгу в формате djvu – не надо использовать ФР для сканирования и обработки сканов!

Примите это как данность, если Вы хотите получить качественный результат, несмотря на предлагаемые ФР удобства по типа всё-в-одном, попробуйте все же данную инструкцию.

Из основных недостатков:

– использование сжатия на основе jpeg, что, как минимум, приведет к раздуванию е-книги после кодирования;