Вход на сайт
Проблема: PDF to XML
123 просмотров
Перейти к просмотру всей ветки
joldosch прохожий
Дано: Adobe Acrobat Prof. и PDF-файлы (две картинки и текст в таблице).
Задача: затолкать текст в XML.
Варианты решения:
1. Нахрапом (т.е. запомнить содержимое в Acrobate как XML) не удается, т.к. Acrobat брыкается, говорит: "Could not read page structure. <Bad PDF; error in processing fonts: unsupported Type2 font>[1]". Хотя при анализе данных находит все фонты (Arial).
2. Сбоку (запомнить содержимое в как техт, с последующими превращениями) удается, но выходит криво: столбцы меняются местами и дальнейшее превращение не возможно, т.к. зацепиться не за что.
3. Чесать репу и писать это обращение к добрым советчикам на germany.ru в надежде, что кто-нибудь имеет опыт в этой области и откликнется...
Может уже существует соответствующий JAVA-пакет, позволяющий копаться в PDF-файлах, о котором я еще понятия не имею?...
Задача: затолкать текст в XML.
Варианты решения:
1. Нахрапом (т.е. запомнить содержимое в Acrobate как XML) не удается, т.к. Acrobat брыкается, говорит: "Could not read page structure. <Bad PDF; error in processing fonts: unsupported Type2 font>[1]". Хотя при анализе данных находит все фонты (Arial).
2. Сбоку (запомнить содержимое в как техт, с последующими превращениями) удается, но выходит криво: столбцы меняются местами и дальнейшее превращение не возможно, т.к. зацепиться не за что.
3. Чесать репу и писать это обращение к добрым советчикам на germany.ru в надежде, что кто-нибудь имеет опыт в этой области и откликнется...
Может уже существует соответствующий JAVA-пакет, позволяющий копаться в PDF-файлах, о котором я еще понятия не имею?...