TWDragon - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро. Страница 7

К сожалению, процесс ручного создания оглавления не отличается удобством. Каждый раз придется выбирать тип ссылки Page Number в списке Link То:, а потом выбирать из списка Page номер страницы. Когда оглавление готово, файл сохраняется, и DjVu-книга готова!

4.4 Финальная вычитка и подготовка версии для PDA

Итак, книга для просмотра на мониторе или еВоок подготовлена. Но, если только это не технический справочник, вам наверняка охота получить еще и маленький файл для загрузки на PDA или любимый сотовый телефончик. Получить его будет опять-таки довольно утомительно, но фактически совсем не сложно. Берем пакет с распознанной книгой, открываем его в FineReader и сохраняем в формате ТХТ. Потом — открываем полученный файл в MS Word и приступаем к финальной вычитке. Тут самой главной проблемой будут оставленнные программами дефисы на месте переносов. Их удаление будет весьма монотонной, но достаточно быстрой работой. Лучше всего открытый в Word файл перевести в режим отображения «Веб-документ». Теперь остается только, прокручивая текст, искать неверные переносы на правой стороне экрана, и исправлять их. Переносы в FineReader не изменяются в таких случаях:

• Если слово с переносом расположено в конце страницы (перенос идет на следующую страницу);

• Если слова с переносом нет в словаре FineReader (словарь длиной не отличается, так что подавляющее большинство имен и фамилий, вся историческая и научная терминология — в группе риска).

Когда текст вычитан, наступает время заголовков и рисунков. Каких-либо рекомендаций по выделению заголовков — давать нет смысла, ибо кому что нравится. С рисунками придется повозиться чуть дольше. Во-первых, те из рисунков, которые были обозначены как диффузные (Dithered) в ScanKromsator — придется обозначить еще раз, уже как простые рисунки (Picture Zone), и обработать страницы с ними отдельно. Тогда рисунки выделятся в отдельные файлы. Теперь, с помощью Word эти файлы можно будет добавить в вычитанную книгу. Место для рисунка можно выбирать произвольным образом, если только он не привязан к тексту — тогда придется отыскать нужное место. Когда рисунок добавлен, щелкаем по нему дважды, запуская диалог Формат рисунка. Сейчас задача — сжать рисунок, для того, чтобы изображение высокого разрешения не «забивало» экран и память на мобильном устройстве. После нажатия на кнопку Сжать… вызывается диалог сжатия изображения. Параметры в нем выставляются так, как показано на иллюстрации. После получения ответа из диалогов Word обрежет и сожмет рисунок алгоритмом JPEG с фактором качества 50 %. Для мобильных устройств этого вполне достаточно из-за маленьких (максимум 640 х 480 точек) экранов.

Сохранять полученный файл лучше всего в формат HTML. Как показала практика, с ним не возникает проблем у большинства «читательных» программ на мобильных телефонах и PDA. Отдельные энтузиасты могут попробовать преобразовать полученный текст в набирающий популярность XML-совместимый формат FB2, но описание этого процесса требует отдельного руководства, так как для редактирования FB2 еще не создано устоявшегося набора удобных в использовании визуальных программ-редакторов. Можно попробовать преобразовать файл HTML в формат FB2 с помощью консольной утилиты AnyToFB2.ехе, но работа с ней выходит за рамки данного руководства. Для того чтобы выходной HTML-файл был совместим с основным WEB-стандартом HTML (не содержал служебной информации Word, отформатированной по спецификации Microsoft, не совместимой со стандартным HTML), сохранять нужно, задав в списке «Тип файла» пункт «Веб-страница с фильтром». При выборе этого пункта Word сперва спросит, в своем ли мы уме, что не сохраняем его служебные данные, но потом выведет в указанную папку две вещи: собственно HTML-файл <имя книги>.html с текстом книги, и подпапку с именем \<имя книги>.files\ которая будет содержать сжатые рисунки и XML-таблицу совместимости Word.

Эти две вещи лучше всего сразу запаковать в ZIP-архив (большинство программ-читателей, вроде AlReader — сможет распаковать такие книги), чтобы ничего не потерять при переносе на мобильное устройство и не плодить в памяти отдельные папки под каждую книгу.

По завершении всех операций — вы получаете электронную книгу, практически неотличимую на вид (правда, на экране) от бумажной! Плюс версия для чтения на мобильнике.

Еще раз повторю: описать все эти операции гораздо труднее, чем выполнить их одну за другой.

Удачи в книгосканировании!

P.S. Примеры к этому руководству я получил, отсканировав и обработав книгу Лины Хааг «Горсть пыли». Если Вы хотите посмотреть, к чему приводит точное и неукоснительное исполнение правил, изложенных в руководстве — скачайте книгу по адресу http://torrents.ru/forum/viewtopic.php?t=2170096. Кроме того, эта книга сама по себе может быть весьма полезной, особенно любителям истории Второй мировой войны.

Контакты аффтара

Если Вы хотите найти аффтара в Сети, чтобы задать вопрос, предложить дополнение, кинуть ссылку на программу или просто сообщить любую полезную информацию, ищите его по таким адресам:

• http://torrents.ru/forum/profile.php?mode=viewprofile.ru=2964463 — основное представительство аффтара на трекере torrents.ru, здесь можно найти всю файловую базу для этого руководства, включая самые новые версии PDF- и DjVu-кодеров. Здесь же лежит в форумной ветке http://torrents.m/fomm/viewtopic.php?t=2160930 онлайн-версия руководства, доступная для обсуждения зарегистрированными пользователями. На форуме есть возможность отправки личных сообщений.

• Для особых случаев связи предназначен адрес электронной почты: [email protected] Писать на него можно только, если Вы не зарегистрированы на torrents.ru, а вопрос не терпит отлагательств (например, срочно требуются выложенные на файлообменник старые программы для обработки DjVu, которых нет на трекерах). Все вопросы, касающиеся содержания руководства, рекомендую обсуждать в указанной выше форумной ветке. Однако, если Вы все же твердо решили задать свой вопрос по e-mail, обязательно сделайте в теме письма пометку «Руководство по книгосканированию», иначе ваше письмо сильно рискует улететь в корзину со спамом.

• http://www.journals.ru/iournals.php?userid=35132 — блог аффтара на одном из популярных российских дневниковых ресурсов. Найти здесь что-то полезное — нереально, ибо блог создавался специально для отвода потока сознания. Если Вы зарегистрированы на Journals.ru — милости прошу. Если же нет — будьте готовы к тому, что флудерские и просто глупые комментарии будут безбожно вытираться и перечеркиваться, так что основное правило таково: если Вы — «Гость» — пишите только по делу.

• Программы на файлообменники я выкладываю по запросу, обычно в течение одного дня (за исключением летней отпускной поры, тогда могу и в течение недели не управиться). Сервисы iFolder.ru, RapidShare.com, ShareMania.ru. FineReader не просите выложить никогда(!), ибо университетская лицензия не велит. Запросы на Adobe Acrobat тоже крайне нежелательны — у меня и самого этот монстр глючит безбожно.