©    Entomology Info  2000-2007

©    2002-2007,    Александр Бенедиктов

Если нужно опубликовать статью в интернете - PDF и DjVu

Анонс с сайта-разработчика программы

Долгое время для графического отображения статей наиболее распространенным был формат PDF от Adode. Огромное количество библиотек всего мира перевели и переводят свои фонды именно в формат Adobe Acrobat. Однако, относительно недавно AT&T Labs Technology предложила свой способ кодирования изображения, ничем не уступающий, а во многом и превосходящий таковой от Adobe. В чем же преимущество этого формата DjVu ?

На сегодняшний день нам известны многие радиолюбительские сайты, а также несколько энтомологических ресурсов на которых именно в формате DjVu размещены статьи и схемы. В скором будущем, вероятно, следует ожидать более широкого распространения этого формата.

К сожалению, объявленный AT&T перекодировщик под Windows многостраничных документов PDF в DjVu формат к настоящему времени так и не появился.

Ссылки на сайты программ, а также некоторые версии самих программ можно найти в рубрике "СОФТ" на нашем сайте. Здесь же отметим, что на Entomology Info размещены статьи, сделанные по описанным алгоритмам, как в формате PDF, так и в формате DjVu. Второй формат применяется нами, если, по какой-либо причине, получить PDF-версию малого размера оказывается затруднительным (например, большое количество рисунков).




Далее речь пойдет о создании многостраничных  графических файлов, которые широко используются для публикации статей в интернете. Де-факто стандартом является формат PDF от Adobe. Однако попытки сканировать отдельный оттиск статьи в Adobe Acrobat приводят к тому, что размер PDF-файла оказывается весьма значительным: выбранная нами 4-страничная статья заняла более 1 Мб. А можно ли сделать PDF меньшего размера? Оказывается можно.

Алгоритм, опробованный нами, следующий. Сканируем статью в градациях серого с разрешением 300 dpi и сохраняем каждый ее лист в графическом файле TIFF. Этот шаг важен, поскольку возможно почистить полученные рисунки в графическом редакторе. Далее в ABBYY FineReader распознаем текст и сохраняем статью с "сохранением форматирования" в файл MS Word. В вордовском файле правим опечатки и ошибки и при помощи драйвера виртуального принтера pdfFactory Pro конвертируем статью в PDF-версию таковой. Нужно помнить, что размер PDF зависит от качества рисунков (разрешение, цветность) и количества различных типов шрифтов (FineReader часто заменяет один и тот же шрифт несколькими близкими по стилю). Все настройки, а также ключевые слова и пр., можно задавать самому.

Драйвер виртуального принтера pdfFactory Pro - создание многостраничных PDF-файлов прямо из MS Word. Пример 4-страничной статьи с двумя рисунками. При установках цвета
рисунков в MS Word "Авто" и сохранении PDF с разрешением 300 dpi без JPG-компрессии размер файла - 415 Кб; применение 80% JPG-компресси уменьшает размер до 369 Кб.
При установках цвета рисунков "Черно-белое" размер составляет всего 142 Кб.

Не забудьте еще на вкладке настроек виртуального принтера в меню "Fonts" вложить используемые вами шрифты, иначе на компьютерах, где те или иные шрифты не установлены, при чтении вашего файла могут возникнуть проблемы.   

Казалось бы, а почему нельзя, минуя распознавание текста, импортировать полученные TIFF'ы в файл MS Word и далее конвертировать все это в PDF через pdfFactory Pro? Ответ прост, в этом случае и рисунки и текст сохраняются в виде графики, что приводит к значительному увеличению размера файла. Так сохранение PDF с разрешением 300 dpi без JPG-компрессии и при установках цвета рисунков в MS Word "Авто" - 6,3 Мб, а при "Черно-белое" - 627 Кб. В тоже время 80% JPG-компрессия не дает ощутимого выигрыша в размере: 4,9 Мб и 627 Кб, соответственно.




Бесплатная программа DjVu Solo 3.1 - создание многостраничных файлов формата DjVu.
Та же статья с разрешением 300 dpi при различных степенях сжатия занимает:
"Фото" - 3,7 Мб, "Чистый" -  199 Кб, "Сканированное" - 184 Кб,
"Двутональный" - 126, 5 Кб.

Альтернативой формату PDF по праву можно считать таковой от AT&T Labs Technology - DjVu.

Основой для создания многостраничного документа нам снова послужат файлы TIFF, очищенные от пыли, сора, с убранными серыми полями, пятнами и прочими элементами, портящими внешний вид документа. Однако, на страницы можно добавить свой логотип или экслибрис. Изображение не будет разбиваться отдельно на "текст" и "рисунки", сохраняясь полностью в графическом формате.

Итак, воспользуемся бесплатной программой DjVu Solo 3.1, загрузив по очереди каждый TIFF и сохранив его в формате DjVu с необходимой степенью сжатия. Далее, к первой странице DjVu подгрузим все остальные (Правка -> Вставить страницы после) и сохраним многостраничный документ. Вот, собственно, и все.

DjVu по степени компрессии превосходит PDF в несколько раз, но при чрезмерном сжатии, естественно, страдает качество и рисунков и текста, поскольку все сохраняется в виде графики.

Относительно просмотровщиков многостраничных документов можно сказать следующее. Они бесплатны. Для PDF-формата есть как родные (Adobe Acrobat, в настоящее время Adobe Reader - максимум возможностей, но громоздкость и заторможенность на более или менее слабых машинах), так и альтернативные (например, Foxit PDF Reader) программы.

Для DjVu-файлов T&T Labs выпускает DjVu Web Browser Plug-in - модуль, который встраиваясь в Internet Explorer (Netscape, Opera) открывает DjVu-документ в окне браузера. Можно, конечно, смотреть файлы и в самой программе DjVu Solo.

Обновлено 25 февраля 2006 года

Интересной альтернативой драйверу виртуального принтера pdfFactory Pro можно считать таковой CutePDF Writer, который к тому же имеет бесплатную версию. Она отличается от Pro-версии отсутствием тонких настроек, по типу тех, что описаны нами для pdfFactory Pro, однако на работоспособность ее это никак не влияет. Надо отметить, что последняя версия работает в совокупности с Ghostscript (около 5 Мб.), который скачивается отдельно от самой программы на том же сайте.


Дополнено 6 мая 2007 года

Rambler's Top100