Вход на сайт
Проблема: PDF to XML
123
NEW 24.04.04 23:28
Дано: Adobe Acrobat Prof. и PDF-файлы (две картинки и текст в таблице).
Задача: затолкать текст в XML.
Варианты решения:
1. Нахрапом (т.е. запомнить содержимое в Acrobate как XML) не удается, т.к. Acrobat брыкается, говорит: "Could not read page structure. <Bad PDF; error in processing fonts: unsupported Type2 font>[1]". Хотя при анализе данных находит все фонты (Arial).
2. Сбоку (запомнить содержимое в как техт, с последующими превращениями) удается, но выходит криво: столбцы меняются местами и дальнейшее превращение не возможно, т.к. зацепиться не за что.
3. Чесать репу и писать это обращение к добрым советчикам на germany.ru в надежде, что кто-нибудь имеет опыт в этой области и откликнется...
Может уже существует соответствующий JAVA-пакет, позволяющий копаться в PDF-файлах, о котором я еще понятия не имею?...
Задача: затолкать текст в XML.
Варианты решения:
1. Нахрапом (т.е. запомнить содержимое в Acrobate как XML) не удается, т.к. Acrobat брыкается, говорит: "Could not read page structure. <Bad PDF; error in processing fonts: unsupported Type2 font>[1]". Хотя при анализе данных находит все фонты (Arial).
2. Сбоку (запомнить содержимое в как техт, с последующими превращениями) удается, но выходит криво: столбцы меняются местами и дальнейшее превращение не возможно, т.к. зацепиться не за что.
3. Чесать репу и писать это обращение к добрым советчикам на germany.ru в надежде, что кто-нибудь имеет опыт в этой области и откликнется...
Может уже существует соответствующий JAVA-пакет, позволяющий копаться в PDF-файлах, о котором я еще понятия не имею?...
NEW 24.04.04 23:56
в ответ joldosch 24.04.04 23:28
NEW 25.04.04 00:31
в ответ quench 24.04.04 23:56
В ответ на:финереадером в ворд
Это что за ругательство такое?
Меня тоже интересует, как можно скопировать из PDF в Word.
Битте!
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."
"Im Jahr der Wirren gehe nichtstreng mit dem Bruder ins Gericht.""Der Stille Don" M.Sch.
NEW 25.04.04 00:37
в ответ Waldemar001 25.04.04 00:31
я делаю Fine Reader (7я версия у меня), он у меня не для этих целей,но он распознает pdf формат.
тут же можно сохранить в нескольких форматах, втом числе и Excele и Ворде.
Адобе Реадером тоже люди каким то макаром сохраняют в другом формате, я тут на форуме вопрос задал где этот вышеупомянутый пункт,но ответа не получил.
Разговор шел за 6 ю версию
http://bn.hotbox.ru/009558.html ®
тут же можно сохранить в нескольких форматах, втом числе и Excele и Ворде.
Адобе Реадером тоже люди каким то макаром сохраняют в другом формате, я тут на форуме вопрос задал где этот вышеупомянутый пункт,но ответа не получил.
Разговор шел за 6 ю версию
http://bn.hotbox.ru/009558.html ®
NEW 25.04.04 01:01
в ответ quench 25.04.04 00:37
Я имел ввиду не весь документ, а несколько строк из текста, хотя в принципе так даже лучше, сохранил в ворде, а потом уже любой формат html, txt
браво!
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."

"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."
"Im Jahr der Wirren gehe nichtstreng mit dem Bruder ins Gericht.""Der Stille Don" M.Sch.
NEW 25.04.04 11:42
в ответ NeverMind 25.04.04 00:56
я написал как я распознаю pdf ки, без нарушения форматирования.
А из акробата , и адобе, как ты првильно заметил, ни чего не получилось у меня(только не нужно на вресии продукта указывать, плюс если документ зашищен и в буфер не скопируешь ни чего), так как некоторые личности заявляя ,что это возможно, путей для реализации этой идеи не указывают.
http://bn.hotbox.ru/009558.html ®
А из акробата , и адобе, как ты првильно заметил, ни чего не получилось у меня(только не нужно на вресии продукта указывать, плюс если документ зашищен и в буфер не скопируешь ни чего), так как некоторые личности заявляя ,что это возможно, путей для реализации этой идеи не указывают.
http://bn.hotbox.ru/009558.html ®
NEW 25.04.04 11:43
в ответ Waldemar001 25.04.04 01:01
хоть одну строку хоть весь докуменат,перед распознованием выдели нужный тебе блок и распознай.
http://bn.hotbox.ru/009558.html ®
http://bn.hotbox.ru/009558.html ®
NEW 26.04.04 07:03
в ответ joldosch 24.04.04 23:28
Я как то конвертил но наоборот из XML в PDF через fop может он и назат могёт?
http://www.CTAPT.de
http://COOLSITES.CTAPT.de
http://www.CTAPT.de
http://COOLSITES.CTAPT.de