[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Получение таблицы из PDF
alexgl2004
Есть файл PDF, в нем есть таблица. Как можно получить эти данные с четкой привязкой к ячейкам. Последовательность и все остальное не важно, самое главное, чтобы была четкое обозначение, что таблица содержит ячейки, в ячейках есть данные вот они, забирай.
Есть ли у кого возможные решения даже с "велосипедами", когда через api перевод в word, потом в excel, а там по ячейкам?
Есть ли коммерческие рабочие решения, кто-то может видел?

Если кто даст хотя бы направление, где можно зацепиться, и это реально поможет, я сюда выложу решение вопроса получения данных из ячеек, с привязкой к ним.

На проверенные и непроверенные варианты, сразу отвечу на сколько рабочие и сильно ли трудозатратно?

Пробовал разные классы с githib, но в основном это получение неформатированного текста, без каких либо стопов, переносов, просто получается сплошной текст.
FatCat
Насколько мне известно, pdf — это сжатый постскрипт. То есть, по сути, графика — рисунок. В лучшем случае векторный, в худшем — растровый.
Если при создании pdf использовался системный шрифт, что на самом деле неправильно, то внутри файла есть текст, который можно вытащить. Если, как по правилам, перед выводом постскрипта текст переведен в кривые, даже текста в файле нет.
И единственное рабочее решение — системы распознавания.

_____________
Бесплатному сыру в дырки не заглядывают...
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.