Для конвертирования файлов Portable Document Format (PDF) в обычный текст используется утилита pdftotext. Она считывает pdf файл и создает txt. Если текстовый файл не указан, pdftotext конвертирует file.pdf в file.txt. Если вместо текстового файла указано -, текст передается в стандартный поток вывода.

keiz@ekz:~/test_pdf_text$ sudo aptitude search poppler-utils

i poppler-utils – PDF utilitites (based on libpoppler)

Версия пакета в репозитариях:

keiz@ekz:~/test_pdf_text$ sudo aptitude show poppler-utils

Пакет: poppler-utils

Состояние: установлен

Автоматически установлен: нет

Версия: 0.14.3-0ubuntu1.2

keiz@ekz:~/test_pdf_text$ sudo aptitude install poppler-utils

Я рассмотрю примеры использования данного пакета со следующем Pdf документом:

Информация о PDF документе:

keiz@ekz:~/test_pdf_text$ pdfinfo kiosaki_2.pdf

Title: Untitled-6

Author: Svetlana

Creator: PageMaker 7.0

Producer: Acrobat Distiller 5.0 (Windows)

CreationDate: Sun Dec 7 01:01:01 2003

ModDate: Sun Dec 7 01:01:01 2003

Tagged: no

Pages: 257

Encrypted: no

Page size: 420 x 595 pts

File size: 1207159 bytes

Optimized: yes

PDF version: 1.3

 

keiz@ekz:~/test_pdf_text$ file kiosaki_2.pdf

kiosaki_2.pdf: PDF document, version 1.3

-rw-r–r– 1 keiz keiz 1,2M 2012-07-01 16:59 kiosaki_2.pdf — его размер

 

Преобразуем pdf документ в текстовый файл:

keiz@ekz:~/test_pdf_text$ pdftotext kiosaki_2.pdf kiosaki.txt

keiz@ekz:~/test_pdf_text$ file kiosaki.txt

kiosaki.txt: UTF-8 Unicode text

-rw-r–r– 1 keiz keiz 809K 2012-07-01 17:31 kiosaki.txt — его размер

, как видим размер уменьшился — это очень полезное действие.

 

Сконвертируем последние 10 страниц нашего pdf документа:

keiz@ekz:~/test_pdf_text$ pdftotext -l 10 kiosaki_2.pdf kiosaki_10.txt

 

Сконвертируем первые 10 страниц нашего pdf документа:

keiz@ekz:~/test_pdf_text$ pdftotext -f 10 kiosaki_2.pdf kiosaki_f10.txt

Откроем полученный текстовый файл в текстовом редакторе — gedit

Преобразованный PDF документ в текстовый файл - не читаем.

 

данные не читаемы. Исправим кодировку для правильного прочтения. В консоли наберем:

keiz@ekz:~/test_pdf_text$ pdftotext -enc Latin1 kiosaki_2.pdf – | iconv -f cp1251 -t utf8 > kiosaki.txt

Преобразование прошло успешно. Текст читаем. Результат достигнут.

Исправленный тектовый файл в правильной кодировке.

 

От ekzorchik

Всем хорошего дня, меня зовут Александр. Я под ником - ekzorchik, являюсь автором всех написанных, разобранных заметок. Большинство вещей с которыми мне приходиться разбираться, как на работе, так и дома выложены на моем блоге в виде пошаговых инструкции. По сути блог - это шпаргалка онлайн. Каждая новая работа где мне случалось работать вносила новые знания и нюансы работы и соответственно я расписываю как сделать/решить ту или иную задачу. Это очень помогает. Когда сам разбираешь задачу, стараешься ее приподнести в виде структурированной заметки чтобы было все наглядно и просто, то процесс усвоения идет в гору. Также прошу на https://win.ekzorchik.ru https://lin.ekzorchik.ru https://net.ekzorchik.ru https://voip.ekzorchik.ru https;//home.ekzorchik.ru