Récupérer la structure d'un PDF ou les données par objets

Grâce à Keisuke Miyako, c’est un jeu d’enfant de récupérer le texte contenu dans un PDF… https://github.com/miyako/4d-plugin-pdf-kit

Mais est-il possible d’en récupérer la structure. Les tables des références croisées contenues dans le PDF nous donnent le nombre d’objets.

Est-il possible de récupérer les données spécifiques pour chacun des objets ?

why would you want to get the structure of a PDF document?

I suspect it is going to be a pretty complicated structure.

maybe possible with poppler https://poppler.freedesktop.org

e.g.

https://github.com/miyako/4d-component-poppler

or maybe pdftk https://www.pdflabs.com/tools/pdftk-server/

https://github.com/miyako/4d-component-pdftk

PDF is the print-version of some structured content like an invoice.
Any content-structure is lost, besides where to place what in which shape. Have a look at the structure of 4D Summit-invoice
[]22865550;“Your comment here…”[/]
no chance to get any meaning out of that

Salut Xavier,
j’ai téléchargé et regardé rapidement ce http://www.pluggers.nl/product/pdf-plugin/plugin de Rob Lavaux>, j’ai l’impression que ça répond au moins partiellement. Voir la partie PCOS, par exemple.