Login
Проблема: PDF to XML
123
NEW 24.04.04 23:28
Дано: Adobe Acrobat Prof. и PDF-файлы (две картинки и текст в таблице).
Задача: затолкать текст в XML.
Варианты решения:
1. Нахрапом (т.е. запомнить содержимое в Acrobate как XML) не удается, т.к. Acrobat брыкается, говорит: "Could not read page structure. <Bad PDF; error in processing fonts: unsupported Type2 font>[1]". Хотя при анализе данных находит все фонты (Arial).
2. Сбоку (запомнить содержимое в как техт, с последующими превращениями) удается, но выходит криво: столбцы меняются местами и дальнейшее превращение не возможно, т.к. зацепиться не за что.
3. Чесать репу и писать это обращение к добрым советчикам на germany.ru в надежде, что кто-нибудь имеет опыт в этой области и откликнется...
Может уже существует соответствующий JAVA-пакет, позволяющий копаться в PDF-файлах, о котором я еще понятия не имею?...
Задача: затолкать текст в XML.
Варианты решения:
1. Нахрапом (т.е. запомнить содержимое в Acrobate как XML) не удается, т.к. Acrobat брыкается, говорит: "Could not read page structure. <Bad PDF; error in processing fonts: unsupported Type2 font>[1]". Хотя при анализе данных находит все фонты (Arial).
2. Сбоку (запомнить содержимое в как техт, с последующими превращениями) удается, но выходит криво: столбцы меняются местами и дальнейшее превращение не возможно, т.к. зацепиться не за что.
3. Чесать репу и писать это обращение к добрым советчикам на germany.ru в надежде, что кто-нибудь имеет опыт в этой области и откликнется...
Может уже существует соответствующий JAVA-пакет, позволяющий копаться в PDF-файлах, о котором я еще понятия не имею?...
NEW 24.04.04 23:56
in Antwort joldosch 24.04.04 23:28
25.04.04 00:31
in Antwort quench 24.04.04 23:56
В ответ на:финереадером в ворд
Это что за ругательство такое?
Меня тоже интересует, как можно скопировать из PDF в Word.
Битте!
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."
"Im Jahr der Wirren gehe nichtstreng mit dem Bruder ins Gericht.""Der Stille Don" M.Sch.
NEW 25.04.04 00:37
in Antwort Waldemar001 25.04.04 00:31
я делаю Fine Reader (7я версия у меня), он у меня не для этих целей,но он распознает pdf формат.
тут же можно сохранить в нескольких форматах, втом числе и Excele и Ворде.
Адобе Реадером тоже люди каким то макаром сохраняют в другом формате, я тут на форуме вопрос задал где этот вышеупомянутый пункт,но ответа не получил.
Разговор шел за 6 ю версию
http://bn.hotbox.ru/009558.html ®
тут же можно сохранить в нескольких форматах, втом числе и Excele и Ворде.
Адобе Реадером тоже люди каким то макаром сохраняют в другом формате, я тут на форуме вопрос задал где этот вышеупомянутый пункт,но ответа не получил.
Разговор шел за 6 ю версию
http://bn.hotbox.ru/009558.html ®
NEW 25.04.04 00:56
in Antwort quench 25.04.04 00:37
А при чем тут Word если человекув XML надо сконвертировать?
There are 10 types of people in the world, those who understand binary and those who don't.
There are 10 types of people in the world, those who understand binary and those who don't.
NEW 25.04.04 01:01
in Antwort quench 25.04.04 00:37
Я имел ввиду не весь документ, а несколько строк из текста, хотя в принципе так даже лучше, сохранил в ворде, а потом уже любой формат html, txt
браво!
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."

"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."
"Im Jahr der Wirren gehe nichtstreng mit dem Bruder ins Gericht.""Der Stille Don" M.Sch.
NEW 25.04.04 01:28
in Antwort Waldemar001 25.04.04 01:01
А как ты будешь эти несколько строк в XML пихать?
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
NEW 25.04.04 01:50
in Antwort Tomasson 25.04.04 01:28
<html>
<Title>
Kopieren > Einfügen
<Title>
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."
<Title>
Kopieren > Einfügen
<Title>
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."
"Im Jahr der Wirren gehe nichtstreng mit dem Bruder ins Gericht.""Der Stille Don" M.Sch.
NEW 25.04.04 01:54
in Antwort Waldemar001 25.04.04 01:50
A где там XML во первых? а во вторых копировать вставить можно прямо из акробата, сачем в word конвертировать?
There are 10 types of people in the world, those who understand binary and those who don't.
There are 10 types of people in the world, those who understand binary and those who don't.
NEW 25.04.04 06:49
in Antwort Waldemar001 25.04.04 01:50
NEW 25.04.04 11:42
in Antwort NeverMind 25.04.04 00:56
я написал как я распознаю pdf ки, без нарушения форматирования.
А из акробата , и адобе, как ты првильно заметил, ни чего не получилось у меня(только не нужно на вресии продукта указывать, плюс если документ зашищен и в буфер не скопируешь ни чего), так как некоторые личности заявляя ,что это возможно, путей для реализации этой идеи не указывают.
http://bn.hotbox.ru/009558.html ®
А из акробата , и адобе, как ты првильно заметил, ни чего не получилось у меня(только не нужно на вресии продукта указывать, плюс если документ зашищен и в буфер не скопируешь ни чего), так как некоторые личности заявляя ,что это возможно, путей для реализации этой идеи не указывают.
http://bn.hotbox.ru/009558.html ®
NEW 25.04.04 11:43
in Antwort Waldemar001 25.04.04 01:01
хоть одну строку хоть весь докуменат,перед распознованием выдели нужный тебе блок и распознай.
http://bn.hotbox.ru/009558.html ®
http://bn.hotbox.ru/009558.html ®
NEW 25.04.04 17:08
in Antwort Cutter 25.04.04 10:50
Это Office 2003?
Если я запомню *.doc, как *.xml, то как он разобьет его на нужные мне компоненты? %-) Или просто весь текст в один тег загонит?
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
Если я запомню *.doc, как *.xml, то как он разобьет его на нужные мне компоненты? %-) Или просто весь текст в один тег загонит?
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
NEW 25.04.04 20:02
in Antwort joldosch 24.04.04 23:28
Большое спасибо всем за отзывы, мужуки. От некорректной постановки вопроса вы меня не совсем правильно поняли. Речь идет о пакетной обработке порядка 4-5 тыс. PDF-файлов. Из-за copy & paste нечего было бы весь этот сыр-бор затевать...
NEW 25.04.04 21:05
in Antwort Cutter 25.04.04 17:50
Вот как. Наверно, запоминается разметка Ворда и структура в *.xml файле соответствующая.
Возьмем на заметку:-)
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
Возьмем на заметку:-)
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
NEW 26.04.04 07:03
in Antwort joldosch 24.04.04 23:28
Я как то конвертил но наоборот из XML в PDF через fop может он и назат могёт?
http://www.CTAPT.de
http://COOLSITES.CTAPT.de
http://www.CTAPT.de
http://COOLSITES.CTAPT.de