Portable Document Format (PDF) est une norme ouverte pour l'échange électronique de documents maintenue par l'Organisation internationale de normalisation (ISO). Les questions peuvent porter sur la création, la lecture, la modification de PDF dans différentes langues.

Les spécifications ISOofficielles (ISO 32000-1, alias ' PDF-1.7 ') est important comme référence, mais il n'est pas exactement écrit pour les débutants PDF.

Les débutants peuvent commencer avec ces deux ressources faciles à lire:

Tags associés

pdf-form, pdf-generation, analysepdf, pdf-conversion, abcpdf, core-graphics, ghostscript, fpdf, itext, itextsharp, pdfbox, pdfium, pdflatex, pdfsharp, pdftk, postscript, pypdf, tcpdf, wkhtmltopdf, zend-pdf, pdfclown

Des questions

Les questions connexes sur Stack Overflow relèvent généralement des domaines suivants:

  • Comment convertir, produire ou encoder un PDF avec html, php, etc.?
  • Tout le reste.

Le premier domaine a été couvert en profondeur, et toute question que vous avez est probablement déjà répondu.

Extraction d'informations

L'extraction de texte à partir d'un PDF peut ne pas être possible sans recourir à la reconnaissance optique de caractères (OCR). Les lettres peuvent être encodées sous forme de glyphes de police, de dessins au trait, de graphiques vectoriels ou d'images tramées.

Les fichiers PDF contiennent généralement des instructions de dessin. Il n'y a pas de "tableau" dans la plupart des fichiers PDF. Il y a des lignes, des glyphes et des images raster (et des coupures, des espaces colorimétriques, etc.). Il est pratiquement impossible de déterminer ce qu'est ou n'est pas un tableau dans un fichier PDF arbitraire.

Notez qu'un glyphe n'est pas un caractère. Un glyphe a une apparence; tandis qu'un personnage a un sens. Chaque police d'un PDF peut ou non mapper ses glyphes en caractères.

Si possible, utilisez les données source pour extraire des informations, plutôt que de vous fier au PDF. Ce format de fichier est conçu pour la cohérence visuelle, et très peu de données normalisées utiles peuvent être extraites de son contenu.

Contenu

Un fichier PDF est souvent une combinaison de graphiques vectoriels, de texte et de graphiques bitmap. Les types de contenu de base dans un PDF sont les suivants:

  • texte stocké sous forme de flux de contenu (c'est-à-dire pas de texte)
  • graphiques vectoriels pour les illustrations et les dessins composés de formes et de lignes
  • graphiques raster pour les photographies et autres types d'images

Liens connexes

Pour plus d'informations sur ce format de fichier, voir: