Portable Document Format (PDF) - это открытый стандарт для электронного обмена документами, поддерживаемый Международной организацией по стандартизации (ISO). Вопросы могут быть о создании, чтении, редактировании PDF-файлов на разных языках.

Официальная спецификация ISO(ISO 32000-1, aka ' PDF-1.7 ') важен как справочник, но он не совсем написан для начинающих PDF.

Начинающие могут начать с этих двух легко читаемых ресурсов:

Связанные теги

pdf-form, pdf-generation, pdf-разбор, pdf-conversion, abcpdf, core-graphics, ghostscript, fpdf, itext, itextsharp, pdfbox, pdfium, pdflatex, pdfsharp, pdftk, postscript, pypdf, tcpdf, wkhtmltopdf, zend-pdf, pdfclown

Вопросов

Вопросы, связанные с переполнением стека, обычно относятся к следующим доменам:

  • Как конвертировать, создавать или кодировать PDF с помощью html, phpи т. Д.?
  • Все остальное.

Первый домен был подробно рассмотрен, и на любой ваш вопрос, скорее всего, уже дан ответ.

Извлечение информации

Извлечение текста из PDF может быть невозможно без использования функции оптического распознавания символов (OCR). Буквы могут быть закодированы как символы шрифта, штриховой рисунок, векторная графика или растровые изображения.

PDF-файлы обычно содержат инструкции для рисования. В большинстве PDF-файлов нет такого понятия, как «таблица». Существуют линии, глифы и растровые изображения (и обрезка, и цветовые пространства и т. Д.). Почти невозможно определить, что является или не является таблицей в произвольном файле PDF.

Обратите внимание, что глиф не символ. Глиф имеет вид; тогда как персонаж имеет значение. Каждый шрифт в PDF-файле может отображать или не отображать свои символы в символах.

Если это вообще возможно, используйте исходные данные для извлечения информации, а не полагайтесь на PDF. Этот формат файла предназначен для визуальной согласованности, и из его содержимого можно извлечь очень мало полезных нормализованных данных.

Содержание

Файл PDF часто представляет собой комбинацию векторной графики, текста и растровой графики. Основные типы содержимого в PDF:

  • текст хранится как потоки контента (т.е. не текст)
  • векторная графика для иллюстраций и дизайнов, состоящих из форм и линий
  • растровая графика для фотографий и других типов изображений

Ссылки по теме

Для получения дополнительной информации об этом формате файла см .: