русский
Germany.ruForen → Архив Досок→ Computer & Co

Проблема: PDF to XML

123  
  joldosch прохожий24.04.04 23:28
NEW 24.04.04 23:28 
Дано: Adobe Acrobat Prof. и PDF-файлы (две картинки и текст в таблице).
Задача: затолкать текст в XML.
Варианты решения:
1. Нахрапом (т.е. запомнить содержимое в Acrobate как XML) не удается, т.к. Acrobat брыкается, говорит: "Could not read page structure. <Bad PDF; error in processing fonts: unsupported Type2 font>[1]". Хотя при анализе данных находит все фонты (Arial).
2. Сбоку (запомнить содержимое в как техт, с последующими превращениями) удается, но выходит криво: столбцы меняются местами и дальнейшее превращение не возможно, т.к. зацепиться не за что.
3. Чесать репу и писать это обращение к добрым советчикам на germany.ru в надежде, что кто-нибудь имеет опыт в этой области и откликнется...
Может уже существует соответствующий JAVA-пакет, позволяющий копаться в PDF-файлах, о котором я еще понятия не имею?...

#1 
quench коренной житель24.04.04 23:56
NEW 24.04.04 23:56 
in Antwort joldosch 24.04.04 23:28
финереадером в ворд, а от туда как хочется
http://bn.hotbox.ru/009558.html ®
#2 
Waldemar001 коренной житель25.04.04 00:31
Waldemar001
25.04.04 00:31 
in Antwort quench 24.04.04 23:56
В ответ на:

финереадером в ворд


Это что за ругательство такое?
Меня тоже интересует, как можно скопировать из PDF в Word.
Битте!
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."

"Im Jahr der Wirren gehe nichtstreng mit dem Bruder ins Gericht.""Der Stille Don" M.Sch.
#3 
quench коренной житель25.04.04 00:37
NEW 25.04.04 00:37 
in Antwort Waldemar001 25.04.04 00:31
я делаю Fine Reader (7я версия у меня), он у меня не для этих целей,но он распознает pdf формат.
тут же можно сохранить в нескольких форматах, втом числе и Excele и Ворде.
Адобе Реадером тоже люди каким то макаром сохраняют в другом формате, я тут на форуме вопрос задал где этот вышеупомянутый пункт,но ответа не получил.
Разговор шел за 6 ю версию
http://bn.hotbox.ru/009558.html ®
#4 
NeverMind постоялец25.04.04 00:56
NeverMind
NEW 25.04.04 00:56 
in Antwort quench 25.04.04 00:37
А при чем тут Word если человекув XML надо сконвертировать?
There are 10 types of people in the world, those who understand binary and those who don't.
#5 
Waldemar001 коренной житель25.04.04 01:01
Waldemar001
NEW 25.04.04 01:01 
in Antwort quench 25.04.04 00:37
Я имел ввиду не весь документ, а несколько строк из текста, хотя в принципе так даже лучше, сохранил в ворде, а потом уже любой формат html, txt браво!
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."
"Im Jahr der Wirren gehe nichtstreng mit dem Bruder ins Gericht.""Der Stille Don" M.Sch.
#6 
Tomasson свой человек25.04.04 01:28
Tomasson
NEW 25.04.04 01:28 
in Antwort Waldemar001 25.04.04 01:01
А как ты будешь эти несколько строк в XML пихать?
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
#7 
Waldemar001 коренной житель25.04.04 01:50
Waldemar001
NEW 25.04.04 01:50 
in Antwort Tomasson 25.04.04 01:28
<html>
<Title>
Kopieren > Einfügen
<Title>
"Im Jahr der Wirren gehe nicht
streng mit dem Bruder ins Gericht."
"Im Jahr der Wirren gehe nichtstreng mit dem Bruder ins Gericht.""Der Stille Don" M.Sch.
#8 
NeverMind постоялец25.04.04 01:54
NeverMind
NEW 25.04.04 01:54 
in Antwort Waldemar001 25.04.04 01:50
A где там XML во первых? а во вторых копировать вставить можно прямо из акробата, сачем в word конвертировать?
There are 10 types of people in the world, those who understand binary and those who don't.
#9 
Tomasson свой человек25.04.04 06:49
Tomasson
NEW 25.04.04 06:49 
in Antwort Waldemar001 25.04.04 01:50
Это HTML.
С XML меня бы заинтересовало:-)
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
#10 
Cutter завсегдатай25.04.04 10:50
Cutter
NEW 25.04.04 10:50 
in Antwort Tomasson 25.04.04 06:49
quench коренной житель25.04.04 11:42
NEW 25.04.04 11:42 
in Antwort NeverMind 25.04.04 00:56
я написал как я распознаю pdf ки, без нарушения форматирования.
А из акробата , и адобе, как ты првильно заметил, ни чего не получилось у меня(только не нужно на вресии продукта указывать, плюс если документ зашищен и в буфер не скопируешь ни чего), так как некоторые личности заявляя ,что это возможно, путей для реализации этой идеи не указывают.
http://bn.hotbox.ru/009558.html ®
#12 
quench коренной житель25.04.04 11:43
NEW 25.04.04 11:43 
in Antwort Waldemar001 25.04.04 01:01
хоть одну строку хоть весь докуменат,перед распознованием выдели нужный тебе блок и распознай.
http://bn.hotbox.ru/009558.html ®
#13 
Tomasson свой человек25.04.04 17:08
Tomasson
NEW 25.04.04 17:08 
in Antwort Cutter 25.04.04 10:50
Это Office 2003?
Если я запомню *.doc, как *.xml, то как он разобьет его на нужные мне компоненты? %-) Или просто весь текст в один тег загонит?
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
#14 
Cutter завсегдатай25.04.04 17:50
Cutter
NEW 25.04.04 17:50 
in Antwort Tomasson 25.04.04 17:08
<<<<Да Office 2003
#15 
  joldosch прохожий25.04.04 20:02
NEW 25.04.04 20:02 
in Antwort joldosch 24.04.04 23:28
Большое спасибо всем за отзывы, мужуки. От некорректной постановки вопроса вы меня не совсем правильно поняли. Речь идет о пакетной обработке порядка 4-5 тыс. PDF-файлов. Из-за copy & paste нечего было бы весь этот сыр-бор затевать...
#16 
Tomasson свой человек25.04.04 21:05
Tomasson
NEW 25.04.04 21:05 
in Antwort Cutter 25.04.04 17:50
Вот как. Наверно, запоминается разметка Ворда и структура в *.xml файле соответствующая.
Возьмем на заметку:-)
Manche Hähne glauben, dass die Sonne ihretwegen aufgeht
#17 
Melnikov знакомое лицо26.04.04 07:03
Melnikov
NEW 26.04.04 07:03 
in Antwort joldosch 24.04.04 23:28
Я как то конвертил но наоборот из XML в PDF через fop может он и назат могёт?
http://www.CTAPT.de
http://COOLSITES.CTAPT.de
#18