На чем парсить большие объемы output из научных программ

Germany.ru → Форумы → Архив Досок→ Программирование

335 просмотров Перейти к просмотру всей ветки

25.04.18 03:10

Re: На чем парсить большие объемы output из научных программ

beatus Teddybär

в ответ ilghiz 24.04.18 15:24, Последний раз изменено 25.04.18 03:15 (beatus)

Может быть я что-то не понял, но формулировка задачи требует уточнения:
1. Идёт речь о потоке данных или об архиве данных?
Если данные идут потоком с разных систем по Сети, то стандартное решение состоит в добавлении интерфейсов-Schnittstellen. Это гораздо проще, чем иметь дело с распознаванием содержимого сгенерированных медиа файлов различных форматов. Если нужно распознавание, то задача неразрешима в обозначенных ТС сроках. ABBY имеет лучший распозанватель-OCR на рынке, но и он делает ошибки, т.к. любое распознавание основано на шаблонах. Чем специфичнее содержание документа, тем хуже будет результат. Самому писать подобную программу нет смысла, если речь не идёт о чём-то простом или не ставится задача создать свой OCR-продукт, т.к. создавать шаблоны или натаскивать ИИ весьма трудозатратно.
2. Что происходит с полученными данными?
Если речь идёт об архивации, задача сводится к простой конвертации форматов. Если требуются вычисления на основе данных, то подход с парсингом в принципе неверен, т.к. 100% корректного распознавания никто пока не добился, если речь не идёт о "табличных" форматах, как CSV.

Перейти на