До недавнего времени для распространения по всемирнрй сети Интернет текстовой и графичечской информации использовался формат PDF от фирмы Adobe. С помощью данного формата пользователи могли (а почему собственно могли, ведь формат PDF не канул в Лету, он активно используется и сейчас, но разговор сейчас не об этом) распространять тексты и графику, описания конструкций, различные схемы и многое другое.

Другой путь распространения сосканированной графической и текстовой информации состоит в распространении архивов с набором изображений. Но практика использования архивов показывает, что отсканированные изображения плохо сжимаются, что ведет к избыточности и большому объему передаваемой и получаемой информации.

Выходом из данной ситуации – проблемы передачи изображений текстов и графики, полученных со сканера, послужил графический формат DjVu (произносится как «Дежавю»), который был создан фирмой AT&T. Этот формат предназначен для размещения на различных интернет-ресурсах отсканированных материалов: книг, журналов, схем, диаграмм и прочего.

djvureader

djvureader

Использование формата DjVu позволяет различными методами сжимать полученное со сканера изображение примерно в 8 раз по сравнению с JPG-форматом. При этом цветная страница, сохраненная в формате DjVu, имеет размер всего в несколько десятков килобайт. Черно-белые же изображения сжимаются еще лучше. Одна страница черно-белого изображения занимает объем уже не в десятки килобайт, а в единицы.

Для того, чтобы просматривать материалы в формате DjVu, пользователь должен установить на своем компьютере специальное программное обеспечение (я бы порекомендовал программу DjVuReader, о ней мы поговорим немного ниже.

При создании документов в формате DjVu используется несколько уникальных алгоритмов, разработанных компанией AT&T Labs: алгоритм, отделяющий текст от фона в отсканированном изображении, алгоритм сжатия фона, алгоритм сжатия черно-белых изображений, универсальный алгоритм сжатия, алгоритм распаковки «по запросу» и алгоритм «маскировки» изображений. Совокупность использования всех этих алгоритмов и обеспечивает в результате непревзойденную степень сжатия полученных сканов при приемлемом качестве просмотра готового файла в формате DjVu.

В формате DjVu создано несколько электронных библиотек различной научной документации. Еще больше книг, созданных с использованием данного формата, распространяется по Интернету с помощью файлообменных или торрент-сетей.

DjVu-формат оптимизирован создателями таким образом, что материалы можно просматривать еще до того, как они будут скачаны полностью на компьютер просматривающего их пользователя. Таким образом, пользователь может практически сразу принять решение, нужна ли ему открываемая им книга, или нет.

DjVu-файлы помимо изображений могут содержать и распознанный (OCR) текст, что позволяет осуществлять по содержимому полнотекстовый поиск. Кроме этого, в DjVu-файлах присутствует возможность создания интерактивных оглавлений и областей-ссылок, что очень удобно при навигации.

Никто не утверждает, что формат DjVu является конкурентом и заменой всем существующим на сегодняшний день форматам. Но если требуется сохранить черно-белые, полутоновые и иногда цветную информацию с максимальной степенью сжатия и при этом чтобы данная информация была удобочитаема, то в этом формату поистине нет равных.

Системы распознавания текстов отнюдь не панецея, ведь они зачастую распознают тексты с ошибками, не могут отличить «мусор» на странице от букв, текст от изображения и т.д. Иногда гораздо проще просто сосканировать изображение или целую их группу (например книгу), и сохранить все это в формате DjVu, чем тратить много времени на распознавание и вычитку текста. При этом качество полученной информации будет ненамного хуже оригинала, особенно если сканировать с разрешением е ниже 300 dpi.

Теперь немного поговорим о программах-просмотрщиках документов, созданных в этогм замечательном формате.

Одной из самых популярных является DjVuReader. Она предназначена для просмотра файлов DjVu под операционными системами Windows-95/98/2000/XP. Ее возможности:

  • просмотр файлов как в одно-, так и в двухстраничном режиме:
  • настройка яркости и контрастности изображения непосредственно из самой програмы;
  • поддерживает индексы страниц и содержание при их наличии в просматриваемом файле;
  • возможность копирование текста и изображений в буфер обмена;
  • возможность открытия всех просматриваемых файлов в одном-единственном во вкладках;
  • удобная навигация с использованием клавиатуры без использования мыши.

Так что мои рекомендации и формату, и программе для просмотра документов, созданных в этом формате.

Кстати, это тоже интересно:

  1. Gimp
  2. IfranView
  3. ABBYY FineReader
  4. OpenOffice.org бесплатный офис
  5. 7 zip