?

Log in

No account? Create an account

Previous Entry | Next Entry

Не дежавю

Встречаю множество книг, оцифрованных в формате DJVU. Не могу понять, чем так привлекает этот формат. Возможно, для каких-то применений он и хорош, но для книг не годится.

Если книга в PDF, я могу в ней с помощью Акробата расставить иерархические закладки, могу проиндексировать ее для быстрого поиска, могу собирать библиотеки и индексировать их. Windows «заглядывает» в PDF, когда индексирует файлы для текстового поиска. Много еще чего можно делать, но это самое главное, чего мне недостает. Казалось бы, велика беда, но ведь и этого-то нет в стандартной программе для просмотра файлов DJVU! Не говорю о том, насколько неудобна эта программа. Все надо делать мышью (можно, конечно, через Alt в меню ходить, но это тоже неудобно) Если книга без текстового слоя, все, что я могу с ней сделать — полистать. Могу еще через меню выбрать на какую страницу перейти, но этот формат даже нумерацию секций не поддерживает — так что я и по оглавлению не найду нужную страницу! Lose, lose!

Здесь все понятно: много я видал въезжающих на белом коне в занятые кем-то другим ниши, да выглядели они потом бледно. С Акробатом конкурировать сложновато, уж очень он продуман хорошо. Да и LizardTech, как понимаю, забросил это дело и переориентировался с цифровых документов на картографию.

Самое странное, что формат кажется «запертым». Он вроде бы «открытый», но ощущение такое, что не особенно он открытый. Несколько раз пытался найти программы для перекодировки этих файлов в, например, PDF — тщетно. Пытался даже напечатать на виртуальный принтер, но печатается растровый образ страницы. Экспорт — пожалуйста, но по одной странице, и только графика. Утилита для экспорта в PostScript тоже только графику экспортирует. Когда я почитал документацию, оказалось, что, хотя формат сам по себе открытый, кусочки его все-таки засекреченные: компрессия, например, текста. Где-то законные ограничения, где-то кода нет. Дело темное.

Не бывает ли на свете такой программы, чтобы перекодировать DJVU, содержащий текстовый слой, в PDF, не теряя при этом текст и его расположение на текстовом слое?

Comments

( 101 comments — Leave a comment )
Page 1 of 2
<<[1] [2] >>
randomisator
Oct. 15th, 2008 05:54 pm (UTC)
Плюс djvu - то, что он меньше места занимает. При сканировании выигрыш в объёме может оказаться десятикратным. Поэтому для книг его и используют, всё-таки 10 Мб и 100 Мб - рзница ощутимая.
fregimus
Oct. 15th, 2008 08:05 pm (UTC)
У меня нет проблем с местом, где я мог бы хранить столько книг, во сколько я за всю жизнь хотя бы просто загляну. Она не такая длинная, как это поначалу кажется…
vadim_i_z
Oct. 15th, 2008 05:55 pm (UTC)
Не все так страшно
Есть djvu с текстовым слоем. Это зависит от того, делался ли OCR при перекодировке - как и в pdf, кстати. Для таких файлов есть опция "экспортировать текст", коей я и пользовался неоднократно.
Файлу djvu легко присобачить многоуровневое оглавление, оно же иерархические закладки. Если хотите, скажу, как :-).
fregimus
Oct. 15th, 2008 08:03 pm (UTC)
Re: Не все так страшно
Спасибо, наверное, пока не хочу, хочу в PDF вместе с текстом, но, если не удастся то, чего я хочу, то тогда начну хотеть того, что Вы предлагаете. Тогда Вас расспрошу, хорошо?

А в какой программе эта опция — экспортировать текст? Выделить и копировать текст могу, а вот экспортировать — нет.
Re: Не все так страшно - vadim_i_z - Oct. 15th, 2008 08:23 pm (UTC) - Expand
Re: Не все так страшно - fregimus - Oct. 15th, 2008 10:52 pm (UTC) - Expand
Re: Не все так страшно - fregimus - Oct. 15th, 2008 10:54 pm (UTC) - Expand
Re: Не все так страшно - misologus - Oct. 15th, 2008 11:35 pm (UTC) - Expand
Re: Не все так страшно - vadim_i_z - Oct. 16th, 2008 06:26 am (UTC) - Expand
Re: Не все так страшно - vadim_i_z - Oct. 16th, 2008 03:29 pm (UTC) - Expand
Re: Не все так страшно - misologus - Oct. 16th, 2008 06:03 pm (UTC) - Expand
Re: Не все так страшно - vadim_i_z - Oct. 16th, 2008 06:06 pm (UTC) - Expand
inkogniton
Oct. 15th, 2008 06:03 pm (UTC)
о, если Вам чего дельного насоветуют, скажите мне тоже, а? тоже мучаюсь.....
runixonline
Oct. 15th, 2008 06:13 pm (UTC)
Трижды фигня :)
Извините - но Вы ТРИЖДЫ сказали фигню . DJVU имеет массу преимуществ перед PDF при работе с ИЗНАЧАЛЬНО БУМАЖНЫМИ ( отсканироваными ) документами

Немного матчасти
1. Все вышеперечесленые "вкусности" есть только в PDF , изначально созданом как компьютерный документ. А в мире масса PDF документов в кторых лежат только голые сканы. Там все это НЕ работает - есть только чудовищных размеров файлище с картинками

2. Да в DJVU создавался в первую очередь для хранения ОТСКАНИРОВАНЫХ ( изначально бумажных) документов. И здесь он бьет акробат вчистую - файлы намного меньше при том же качестве просмотра .Но OCR слой в него таже вставляется .. просто большинство DJVUiys[ rybu ltkf.n k.,bntkb b bv 'nbv ktym pfvjhfxbdfnmcz/

3. В DJVU точно также можно вставить OCR слой , и потом индексировать для быстрого поиска, вставлять закладки и т.д как сделать - см здесь и далее - по ссылкам

Единственное. чем не интерсовался - как винду заставить его индексировать.


Программа перекодировки есть. Fine Reader 9 называется .:) При наличии ОСR слоя распознает его прекрасно ( правда надо чуток над ним пошаманить - в официальной поставке нужных DLL нет, они есть толко в SDK .... но найти их труда не составит )
runixonline
Oct. 15th, 2008 06:17 pm (UTC)
Re: Трижды фигня :)
ПС Просто большинство DJVU - это неофициальные ( пиратские ) сканы книг - обычно пирату лень вылизывать текст
Интересное рассуждение - fregimus - Oct. 15th, 2008 07:41 pm (UTC) - Expand
Re: Трижды фигня :) - allambee - Oct. 15th, 2008 06:35 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 08:07 pm (UTC) - Expand
todofmm
Oct. 15th, 2008 06:23 pm (UTC)
Отсканированная книга в любом случае ценна.
И DJVU легче, кстати, что для неновых машин весьма полезно.
fregimus
Oct. 15th, 2008 07:59 pm (UTC)
Отсканированная книга в любом случае ценна.
…но неотсканированная обычно ценнее! :-)

А не новую машину мне где взять? Музей грабить, да? Нехорошо! :-)

Edited at 2008-10-15 07:59 pm (UTC)
(no subject) - todofmm - Oct. 15th, 2008 08:05 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 08:08 pm (UTC) - Expand
кстати - sciuro - Oct. 15th, 2008 09:37 pm (UTC) - Expand
Re: кстати - fregimus - Oct. 15th, 2008 10:38 pm (UTC) - Expand
ex_kosilova
Oct. 15th, 2008 06:48 pm (UTC)
первое что пришло в голову, но вам уже сказали - прогоните через файнридер и сохраните в ПДФ!
fregimus
Oct. 15th, 2008 07:58 pm (UTC)
Так там уже есть текст — и распознанный, и вычитанный. Если DJVU без текста — никаких проблем, конечно, нет.
rwalk
Oct. 15th, 2008 06:48 pm (UTC)
Сейчас специально сравнил - взял первый попавшийся djvu файл (Lecture Notes 70-x годов, 200 страниц машинописного текста с вписанными формулами) - занимает 1400К; после печати на виртуальном PDF принтере получается примерно по 100К на страницу. Разница в 10 с лишним раз. Насчет pdf и djvu - это ведь по-моему разные вещи (пусть специалисты поправят): djvu, насколько я понимаю, - это ведь изначально чисто графический формат (замена jpg), а оболочка Document Express, действительно, довольно кустарная (хотя рудиментарные средства для комментирования имеются).
Идеальным было бы, конечно, если бы он был в акробат зашит (а так в акробате как графика хранится? в jpg?).
fregimus
Oct. 15th, 2008 07:53 pm (UTC)
В PDF графика по-разному хранится — это довольно развесистый формат. Монохромное изображение — обычно CCITT G4. Если с потерями, как в DJVU, JBIG2. Цветные и полутоновые изображения могут быть JPEG, JPEG2K, последний поддерживает lossless compression. В версии формата 1.6 добавился метод ZIP (не знаю, имеет ли это отношение к одноименному архиватору), lossless, для любой цветности.
(no subject) - yaguanodont - Oct. 15th, 2008 08:31 pm (UTC) - Expand
(no subject) - rwalk - Oct. 15th, 2008 08:38 pm (UTC) - Expand
(no subject) - yaguanodont - Oct. 15th, 2008 11:05 pm (UTC) - Expand
(no subject) - fregimus - Oct. 16th, 2008 02:50 am (UTC) - Expand
(no subject) - rwalk - Oct. 16th, 2008 06:03 am (UTC) - Expand
(no subject) - fregimus - Oct. 16th, 2008 06:29 am (UTC) - Expand
miram
Oct. 15th, 2008 06:50 pm (UTC)
Гугл по запросу djvu2pdf выдает много разного; сам не пробовал.
fregimus
Oct. 15th, 2008 09:07 pm (UTC)
Спасибо. Как только ни искал, но вот такое слово еще не пробовал!
rednyrg721
Oct. 15th, 2008 06:51 pm (UTC)
Видел вот такое, сам не пробовал, правда: http://www.stdutility.com/stduviewer.html
Но конвертер вроде денег стоит, а вьюер бесплатный.
fregimus
Oct. 15th, 2008 09:06 pm (UTC)
Спасибо, попробую. За $30 можно запросто купить, если работает. Обязательно Вам скажу, что выйдет.
yurvor
Oct. 15th, 2008 07:22 pm (UTC)
Насколько я понимаю, DJVU хорош прежде всего тем, что книги в него легко переводятся. Это в действительности формат для хранения картинок, оптимизированный в предположении, что на картинках будет в основном текст. А сам текстовый слой вообще говоря опционален.

Тем самым порог ввода в обращение бумажных документов получается довольно низок. А уж распознаванием можно и потом заняться, если кто хочет.
fregimus
Oct. 15th, 2008 07:56 pm (UTC)
Спасибо. Не хочу. Более того, распознаванием уже кто-то позанимался, потому что текстовый layer уже есть. Теперь бы эту книгу только в такой вид перевести, чтобы с ней работать можно было. Вот последний шаг остался.
(no subject) - yurvor - Oct. 15th, 2008 07:58 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 08:09 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:01 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 08:11 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:15 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:18 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 09:04 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 09:12 pm (UTC) - Expand
taras_
Oct. 15th, 2008 07:30 pm (UTC)
djvu - графический формат с алгоритмом сжатия, оптимизированным под отсканированные тексты. Преимущество - быстрое изготовление электронных книг (ни распознавания, ни вычитки, ни форматирования, ни проблем с формулами в физ-мат книгах) при малом размере получаемых файлов.

http://djvu-inf.narod.ru
fregimus
Oct. 15th, 2008 07:55 pm (UTC)
Очень рад за Вас, что у Вас нет проблем. Спасибо, что поделились счастьем!
sciuro
Oct. 15th, 2008 07:34 pm (UTC)
Угу, угу. Плюс много.

У djvu типа все есть, но, как сказано выше, "надо немного пошаманить". Зато целых лишних три мегабайта освободится! Какое-то порожденье хомячиного рефлекса. Как скачать книгу и как хранить - очевидно, как с ней работать - редкого хомяка это беспокоит; редкий хомяк по природе своей шаман.

Надеюсь, что с нынешними ценами на носители (и ростом пропускной способностью каналов) основной аргумент в пользу этой штуки постепенно потеряет смысл.
yurvor
Oct. 15th, 2008 07:59 pm (UTC)
Основной аргумент состоит не в том, что он занимает меньше места, а в том, что переводить _бумажные_ носители в этот формат проще, чем во что либо ещё. И этот аргумент вряд ли потеряет смысл скоро...
(no subject) - sciuro - Oct. 15th, 2008 08:19 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:23 pm (UTC) - Expand
(no subject) - sciuro - Oct. 15th, 2008 08:35 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:40 pm (UTC) - Expand
(no subject) - sciuro - Oct. 15th, 2008 08:43 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:43 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 08:52 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:58 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 09:01 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 09:02 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 09:18 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 09:37 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 08:24 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:26 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 08:43 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 08:46 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 08:58 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 09:01 pm (UTC) - Expand
(no subject) - fregimus - Oct. 15th, 2008 09:32 pm (UTC) - Expand
(no subject) - yurvor - Oct. 15th, 2008 09:40 pm (UTC) - Expand
(no subject) - runixonline - Oct. 15th, 2008 08:08 pm (UTC) - Expand
(no subject) - sciuro - Oct. 15th, 2008 08:14 pm (UTC) - Expand
(no subject) - runixonline - Oct. 15th, 2008 08:26 pm (UTC) - Expand
(no subject) - sciuro - Oct. 15th, 2008 08:42 pm (UTC) - Expand
arno1251
Oct. 15th, 2008 08:04 pm (UTC)
Мне нравится дежавю тем, что он не замороченный. Сканы переводятся в этот формат на раз-два-три. Места занимает мало. Оглавление прикрутить - раз плюнуть. Совершенно спокойно скручивается в bundle и раскручивается в indirect.
Вот, например, этот сайт я изваял за неделю неспешной работы (начиная от сканирования и заканчивая публикацией)
http://blat1927.narod.ru/
Наверное, то, что Вы говорите о PDF, очень ценно, но я, честно, не знаю, для чего это мне всё надо. Закладку-то в офлайновом документе поставить можно, но как мне сослаться на конкретную страницу в сетевом документе? На листочки разбивать, как мы с fad_gel в проекте ЭССЯ сделали?
А DjVu имеет такую возможность врождённо.
fregimus
Oct. 15th, 2008 08:37 pm (UTC)
Думаю, у нас с Вами цели просто разные. Для сети хорошо, согласен совершенно. etymolog.ruslang.ru — тоже ведь Ваша работа? Очень удобно, когда есть поиск, и тут же ссылка на страницу. А вот загрузил я как раз только что словарь весь в djvu — в нем и текстовый слой есть, а вот пользоваться словарем нельзя, без индекса-то. Подумал, насколько в бумажном словаре поиск все-таки проще, чем в djvuшной книге (!!!). У нового Акробата есть preview, маленькое окошко, что автоматически вылезает, когда зацепите мышкой вертикальный scrollbar, но и это мало поможет, если в этом окошке будет не разглядеть индексных букв в колонтитуле. Тут только закладки бы спасли, да нет их, и не сделать их мне — 1000 с гаком страниц. Хорошо, что словарь мне не понравился… :-)

PDF тоже умеет приезжать по частям, но не знаю, как это так делают. Посмотрите, если интересно, www.mouser.com — электронный посылторг такой — там и каталог листается, и дерево закладок есть.

А насчет моего практического вопроса не знаете, что можно придумать? Вы ведь знаете все на свете и еще кое-что про обработку и хранение текстов. :-)
cogitatu ergo sunt - arno1251 - Oct. 15th, 2008 08:46 pm (UTC) - Expand
Re: cogitatu ergo sunt - fregimus - Oct. 15th, 2008 08:55 pm (UTC) - Expand
Re: cogitatu ergo sunt - arno1251 - Oct. 15th, 2008 09:23 pm (UTC) - Expand
Re: cogitatu ergo sunt - fregimus - Oct. 15th, 2008 09:42 pm (UTC) - Expand
Re: cogitatu ergo sunt - arno1251 - Oct. 16th, 2008 04:34 am (UTC) - Expand
Re: cogitatu ergo sunt - fregimus - Oct. 16th, 2008 05:40 pm (UTC) - Expand
sciuro
Oct. 15th, 2008 08:41 pm (UTC)
Еще есть побочный эффект - раз погнавшись за ужатием файла, не все знают, когда остановиться. В результате из приличного скана получаются легко переносимые на дискете :) но нечитаемые картинки в djvu. Djvu тут вроде как ни при чем, но когда на каком-нибудь обменнике кладут исходный pdf и пережатый djvu, очень часто, просмотрев оба, я вижу, что надо было скачивать pdf, а там уже перегонять его, если нужно.
janatem
Oct. 15th, 2008 09:09 pm (UTC)
Я не понимаю, о чем спор. Почему пилой нельзя рубить как топором?

Уже несколько комментаторов указало на то, что djvu служит лишь для хранения отсканированных текстов. (Т.е. это не более чем _графический_ формат, оптимизированный под текст.)

Предлагаю считать, что djvu -- это то же самое что bmp (или, точнее высококачественный jpeg). Разница только в размерах файлов.

А чтобы получить "нормальный" текст все равно надо заниматься распознаванием и т.д...
fregimus
Oct. 15th, 2008 09:21 pm (UTC)
Никакого спора нет. Есть (1) DJVU с текстовым слоем и (2) вопрос, как превратить его в PDF, не потеряв оный слой.
Page 1 of 2
<<[1] [2] >>
( 101 comments — Leave a comment )