Для конвертирования файлов Portable Document Format (PDF) в обычный текст используется утилита pdftotext. Она считывает pdf файл и создает txt. Если текстовый файл не указан, pdftotext конвертирует file.pdf в file.txt. Если вместо текстового файла указано -, текст передается в стандартный поток вывода.
keiz@ekz:~/test_pdf_text$ sudo aptitude search poppler-utils
i poppler-utils – PDF utilitites (based on libpoppler)
Версия пакета в репозитариях:
keiz@ekz:~/test_pdf_text$ sudo aptitude show poppler-utils
Пакет: poppler-utils
Состояние: установлен
Автоматически установлен: нет
Версия: 0.14.3-0ubuntu1.2
keiz@ekz:~/test_pdf_text$ sudo aptitude install poppler-utils
Я рассмотрю примеры использования данного пакета со следующем Pdf документом:
Информация о PDF документе:
keiz@ekz:~/test_pdf_text$ pdfinfo kiosaki_2.pdf
Title: Untitled-6
Author: Svetlana
Creator: PageMaker 7.0
Producer: Acrobat Distiller 5.0 (Windows)
CreationDate: Sun Dec 7 01:01:01 2003
ModDate: Sun Dec 7 01:01:01 2003
Tagged: no
Pages: 257
Encrypted: no
Page size: 420 x 595 pts
File size: 1207159 bytes
Optimized: yes
PDF version: 1.3
keiz@ekz:~/test_pdf_text$ file kiosaki_2.pdf
kiosaki_2.pdf: PDF document, version 1.3
-rw-r–r– 1 keiz keiz 1,2M 2012-07-01 16:59 kiosaki_2.pdf — его размер
Преобразуем pdf документ в текстовый файл:
keiz@ekz:~/test_pdf_text$ pdftotext kiosaki_2.pdf kiosaki.txt
keiz@ekz:~/test_pdf_text$ file kiosaki.txt
kiosaki.txt: UTF-8 Unicode text
-rw-r–r– 1 keiz keiz 809K 2012-07-01 17:31 kiosaki.txt — его размер
, как видим размер уменьшился — это очень полезное действие.
Сконвертируем последние 10 страниц нашего pdf документа:
keiz@ekz:~/test_pdf_text$ pdftotext -l 10 kiosaki_2.pdf kiosaki_10.txt
Сконвертируем первые 10 страниц нашего pdf документа:
keiz@ekz:~/test_pdf_text$ pdftotext -f 10 kiosaki_2.pdf kiosaki_f10.txt
Откроем полученный текстовый файл в текстовом редакторе — gedit
данные не читаемы. Исправим кодировку для правильного прочтения. В консоли наберем:
keiz@ekz:~/test_pdf_text$ pdftotext -enc Latin1 kiosaki_2.pdf – | iconv -f cp1251 -t utf8 > kiosaki.txt
Преобразование прошло успешно. Текст читаем. Результат достигнут.