Программы для филологов. Программы просмотра, редактирования и конвертации в формат djvu

 

Сайт Зои Шановой
WinDJVIEW

Эпиграф:

Переход к DjVu с его четким текстом, по мнению экспертов, начнется с сайтов СМИ, копирующих свои бумажные издания. Освойте новинку сегодня, возможно, завтра она потребуется, чтобы прочитать "Компьютерру On-line".

www.cqham.ru


WinDJVIEW - это программа для просмотра DjVu файлов под Windows , в которой впервые реализован непрерывный режим просмотра. Версия для Windows имеет также расширенные возможности печати. Автор: Андрей Жежерун. Возможности версии для Windows: Поддерживаются Windows 98 и более поздние (Me, 2000 и XP), непрерывный и одностраничный режимы просмотра, Thumbnails , закладки (оглавление), гиперссылки, поиск по тексту и копирование, расширенные возможности печати, полноэкранный режим, скроллирование колёсиком мыши, экспорт страниц в bmp, поворот на 90/180/270 градусов, масштаб: по всей странице, по ширине страницы, 100% или пользовательский , настройка яркости, контраста и гаммы, режимы: Color/B&W/Foreground/Background, навигация и скроллинг с клавиатуры, если требуется, ассоциирует себя с файлами djvu.

Окно программы WinDJVIEW 0.4.3

(открыт многостраничный файл djvu)

Скачать программу-просмотровщик файлов DJVU

Для ознакомления с возможностями формата djvu Вы можете скачать продемонстрированный выше в скриншоте окна программы WinDjView многостраничный графический файл Horyni.djvu (306 kb).

Новые версии программы ищите на её сайте.


Внимание!

Для сканирования документов и изображений в формат djvu, а также конвертации файлов графических форматов (bmp, gif, jpg и т.д.) в формат djvu необходима программа DJVU SOLO 3.1, которую Вы можете скачать здесь (exe-файл 2Mb) или программу DJVU EDITOR PRO (русская версия), которую Вы можете скачать здесь. (zip-архив 2.4 Mb).

Облегчённую (lite) русскую версию программы Lizardtech Document Express Editor 5.0.0, которая также позволяет просматривать и создавать документы в формате DjVu Вы может скачать здесь (2,2 Mb. В SFX-архиве. После распаковки запустите файл DjVuPro.exe, находящийся по адресу C:\Program Files\Lizardtech Document Express Editor 5.0\bin\.)

Для просмотра ( и печати) многостраничных файлов удобнее использовать программу WINDJVIEW или плагин lizardtech,только для просмотра - DjVuReader


Программы создания и просмотра DjVu

 

Скачать программу

Скачать конвертер в формат DjVu DJVU SOLO 3.1 (exe, 2 Mb).

Русификатор для этой программы программы Вы можете скачать здесь (exe, zip 37 kb).

Скачать программу

Скачать конвертер в формат DjVu DJVU EDITOR 4.1 PRO русская версия (zip, 2.4 Mb)

Скачать программу

Скачать конвертер в формат DjVu Lizardtech Document Express Editor 5.0.0 Russian (exe, 2,2 Mb. После распаковки архива запустите файл DjVuPro.exe, находящийся по адресу C:\Program Files\Lizardtech Document Express Editor 5.0\bin\)

Скачать плагин

Скачать для браузера плагин-просмотровщик Djvu Lizardtech DjVu Browser Plugin 6.0.0. Russuan (815 Kb)

Смотрите также на сайте www.djvu-soft.narod.ru/


 


О формате DjVu вкратце

DjVu (произносится как "дэжа вю") это технология сжатия, файловый формат и универсальная платформа специально спроектированная для создания цифровых библиотек на основе печатного, сканированного или цифрового материала. Так например для сканированного документа, размер DjVu файла обычно в 3-10 раз меньше чем чёрно-белый TIFF или PDF и в 5-10 чем цветной JPEG.

www.rus-linux.net


О формате DjVu подробно

Рассказ о новом "тексто-графическом" формате я начну с воспоминаний о теплом летнем дне, когда выпускники художественного училища рисовали на асфальте "дембельский альбом". Больше всего меня поразила удивительно точная репродукция картины "Бурлаки на Волге". Изобразить такое цветными мелками - это отдельное искусство. Увы, я не сделал копии того рисунка и теперь только на словах могу объяснить, как велико влияние техники живописи на восприятие картины. Ну, например, нарисовать "Джоконду" акварелью - все равно что сыграть "Мурку" на арфе. Мы редко задумываемся над этим, когда дело касается репродукций виртуальных: BMP, JPG, TIFF... графические форматы если и интересуют неспециалистов, то только с точки зрения размеров файла.

С текстовой информацией ситуация совсем запущенна: прекрасно понимая разницу между словом рукописным и напечатанным, мы почти не публикуем в Сети первоисточников в их реальном формате [1]. Мировые музеи и библиотеки уже оцифровали все сколько-нибудь ценные рукописи, однако размеры полученных файлов не позволяют ознакомиться с ними через Internet.

Сжатие полноцветной информации о документе формата А4 до размера средней Web-странички (46 Кбайт согласно данным на 1999 г.) теоретически вполне возможно. Учитывая растущую общественную потребность в доступе к "подлинникам", кажется удивительным, что стандарт на графику такого назначения формируется только сегодня.

Претенденты на роль законодателей нового формата уже появились. Успехи фирмы AT&T в этом направлении может оценить каждый, установив plug-in для браузера (http://www.djvu.com/download.html.

Формат DjVu - первый шаг к "цветному факсу" - ориентирован на передачу, просмотр в сети и распечатку преимущественно текстовых документов, для которых важное значение имеет не только содержание, но и форма: цвет и фактура пергамента, оторванный уголок и следы от складывания вчетверо, клякса после подписи и круглое пятно от винной бутылки рядом с печатью. Архивы всего мира накопили огромное число исторических бумаг с неповторимым колоритом такого рода.

Существующие компактные форматы JPG, GIF, факс-стандарт CCITT и JBIG обеспечивают достаточное сжатие, однако узко специализированны либо на фотографиях, либо на черно-белой графике и тексте. Поэтому смешанные изображения в их исполнении выглядят нечитаемыми. Хороший тому пример - JPG-скриншоты на сайтах софтверных фирм: либо текст не разберешь, либо грузятся по полчаса. Разработчики DjVu, должно быть, учли безуспешный опыт создания "универсального солдата", их детище представляет собой бригаду из трех форматов "в одном флаконе". В основу разделения "обязанностей" внутри DjVu положены простые наблюдения и факты.

- Текст и другие контрастные рисунки удобочитаемы при сканировании с разрешением не менее 300 dpi.

- Напротив, легкое размытие фоновой графики даже улучшает восприятие текста. Поэтому фон без потерь для общего впечатления сохраняется с разрешением 100 dpi в отдельный слой "background".

(...)

- Основная проблема - отделить текст от фона, особенно если это цветной текст, и более того, разноцветный. К счастью, цвет текста в большинстве документов практически одинаков в рамках одного знака. Это позволяет сохранять цветовую информацию о тексте с разрешением всего 25 dpi (слой "foreground") .

Разделение изображения на текст и фон (формирование слоя-маски) основано на так называемой мультимасштабной кластеризации. Изображение разбивается на разноразмерные вложенные сетки, в каждой ячейке которых происходит распознавание текстовых и фоновых цветов по максимальным пикам на гистограмме. Отделив текст от фона в самой крупной сетке, алгоритм переходит к уточнению на основе данных из сеток меньшего размера. Разработчиками найдено эмпирическое соотношение: цвет, определенный как "текстовый" в наибольшей ячейке, смешивается с "текстовым" цветом в меньшей, вложенной ячейке в пропорции 20% к 80% . Результат смешения принимается за цвет текста для расчетов в еще более мелкой сетке по тому же принципу 20/80.

Очевидно, смешение одинаковых цветов даст тот же самый цвет. В этом случае вложенные ячейки игнорируются, и общий объем информации о слое-маске уменьшается на 10...30% по сравнению с разбиением одноразмерной сеткой наименьшего шага.

Мультимасштабная кластеризация не всегда дает ожидаемые результаты (рис. 1). При переводе некоторых документов (например, обложка "Компьютерры" #331, www.computerra.ru/2000/2) в формат DjVu даже человеку порой непонятно, что является значимой информацией, а что - фоном. Программные конвертеры (я пользовался DjVuerPro, http://www.feith.com/) предоставляют возможность выбора параметров границы фон-текст. Как правило, это фильтры размера, цвета и инверсии. Фильтр размера позволяет отнести к фону слишком большие буквы (аршинный заголовок и т. п.). Действие двух других фильтров не столь очевидно - их функция в чем-то схожа с системами OCR (оптического распознавания текста).

Мне представляется такая некомпьютерная аналогия формата DjVu, в виде набора инструментов художника-агитатора: баллончики с красками для быстрого и грубоватого "подмалева" фона (например, небо и радуга) - слой "background"; аккуратный трафарет для основного лозунга (или логотипа) - слой-маска "blaсk&white", и поролоновый валик для накатки трафарета - слой "foreground".

Используя эту аналогию, легко понять еще один принцип экономии битов в DjVu: если трафаретный текст занимает значительную площадь изображения, следует ли сначала вырисовывать фон в тех местах, которые позже будут все равно закрашены по трафарету? Даже для живого художника это вопрос эвристической логики, если учитывать не только расход красок, но и время выполнения работы.

В DjVu для сжатия фона, маски и цветовой информации о маске применяются различные алгоритмы. Фон сжимается вейвлет-алгоритмом IW44 (4х4 wavelets), слой-маска, не содержащая цветовой информации, упаковывается методом JB2, аналогичным применяемому в факсах. Цветовая информация о тексте так же кодируется IW44, но предварительно загрубляется до 25 dpi.

Формат IW44 очень близок к новому стандарту JPEG2000 ("КТ" #331, стр. 7), но, по заверениям разработчиков, менее требователен к системным ресурсам при декомпрессии изображения во время просмотра. Попробуйте открыть в любом графическом редакторе какой-нибудь стандартный JPG размером 2500х3500 точек, и вы оцените важность этого преимущества.

Слой-маска перед упаковкой JB2 претерпевает оптимизацию с целью освобождения от "случайных" штрихов и "шума сканера" на основе так называемого Soft pattern matching algorithm, описываемого непереводимым для меня бытовым английским в манере стихов В. Маяковского:

Segment image into marks
for each mark do
Find "acceptable match", if any
if there is a match
Code index of matching mark
Code bitmap using matching mark
Conditionally add new mark to library
else
Code bitmap directly
Add new mark to library
end if
Code mark location as offset
end for

В результате каждый пиксел маски кодируется менее чем одним (!) битом, но только в том случае, если алгоритм способен предсказать его цвет на основе 3...8 рядом лежащих точек с вероятностью более 50%. Это не так сложно - каждый из нас производит подобные расчеты в виндусовской игре "Сапер".

(...)

У нового формата много применений: онлайновые книжные магазины, картографическая информация и даже е-хиромантия, где отправленная по почте фотография ладони обрабатывается подобным образом.

Переход к DjVu с его четким текстом, по мнению экспертов, начнется с сайтов СМИ, копирующих свои бумажные издания. Освойте новинку сегодня, возможно, завтра она потребуется, чтобы прочитать "Компьютерру On-line".

АЛЕКСЕЙ КЛИМОВ. DjVu - все уже было . Дата публикации:08.02.2000 //www.cqham.ru/


Ещё о формате DjVu подробно

В Интернете все всерьёз заговорили о deja vu — явлении, при котором человеку кажется, что он где-то это уже видел. Он не может точно сказать, где и при каких обстоятельствах. Мозг просто сообщает, что похожие впечатления он уже испытывал. И при чем тут Итернет? Неужели пользователи видят фантомные сайты или им кажется, что они уже общались с каким-то из членов чата? На самом деле все намного прозаичнее: появилась новая технология сжатия графических файлов, называемая dejavu (дежавю). Объяснение названия просто: ее назначение — это сосканированные документы, к примеру, страницы из цветных журналов. Вы могли видеть статью на бумажном носителе, а чуть позже зайти в Интернет и увидеть ее электронный аналог. Причем, это будет не просто комбинация из текста и картинок на базе HTML, а самая настоящая графическая копия. Идея переноса документов из книг и журналов на просторы Сети не так уж нова. Но задумайтесь, сколько занимает отсканированный документ, сохраненный в формате TIFF (этот формат не искажает графические данные и передает их с достоверной точностью). В среднем файл с качеством порядка 300 dpi может занимать до 25–30 МВ. Я не стану спорить: такой файл можно поместить на свой сайт. Можно даже надеяться, что кто-то просидит всю ночь, чтобы посмотреть на первую страницу вашей книги, радостно узнав, в какой типографии она была отпечатана и когда сдана в печать. Если сканировать с меньшим качеством, т.е. примерно в 100 dpi, то теряется наглядность. Такой документ надо будет показывать только на старых компьютерах и при этом заявлять: «Видишь, какая плохая у тебя видеокарта!».
Так что TIFF отадает, как носитель информации он неэкономичен. Поэтому самым распространенным форматом сохранения растровых данных в Интернете стал JPEG. Этот формат позволяет достаточно прогрессивно сжимать данные. Сравните: 25 МВ у TIFF и 600 КВ JPEG. Такой размер более или менее подходит для транспортировки по Сети в условиях хорошего и стабильного коннекта. Единственная проблема: удерживание приемлемого качества изображения — система компрессии данных приводит к потере информации, которую считает «лишней». Мы видим ужасные искажения, резкие цветовые переходы размыты, о первоначальном качестве можно забыть.
И JPEG отпадаеткак формат для сохранения документации в Сети (мне кажется, я где-то уже читал похожие строки. А-а, это было про TIFF!). Многие пророчили большое будущее детищу Adobe под названием PDF. В настоящее время большинство компаний выкладывает документацию о своих продуктах именно в этом формате. Успеху способствует использование объектов ActiveX, позволяющих запускать Acrobat Reader прямо в окне Internet Explorer. К сожалению, PDF также излишне прожорлив: средний размер файла зачастую превышает 100 КВ.
Менее признанны, а значит, менее популярным является формат сжатия данных для факсимильных аппаратов. Он позволяет неплохо сжимать данные, хот