Конвертируем PDF документы в текстовый файл (txt).

Posted by

Для конвертирования файлов Portable Document Format () в обычный текст используется утилита . Она считывает pdf файл и создает . Если текстовый файл не указан, pdftotext конвертирует file.pdf в file.txt. Если вместо текстового файла указано -, текст передается в стандартный поток вывода.

keiz@ekz:~/test_pdf_text$ sudo aptitude search poppler-utils

i poppler-utils — PDF utilitites (based on libpoppler)

Версия пакета в репозитариях:

keiz@ekz:~/test_pdf_text$ sudo aptitude show poppler-utils

Пакет: poppler-utils

Состояние: установлен

Автоматически установлен: нет

Версия: 0.14.3-0ubuntu1.2

keiz@ekz:~/test_pdf_text$ sudo aptitude install poppler-utils

Я рассмотрю примеры использования данного пакета со следующем Pdf документом:

Информация о PDF документе:

keiz@ekz:~/test_pdf_text$ pdfinfo kiosaki_2.pdf

Title: Untitled-6

Author: Svetlana

Creator: PageMaker 7.0

Producer: Acrobat Distiller 5.0 (Windows)

CreationDate: Sun Dec 7 01:01:01 2003

ModDate: Sun Dec 7 01:01:01 2003

Tagged: no

Pages: 257

Encrypted: no

Page size: 420 x 595 pts

File size: 1207159 bytes

Optimized: yes

PDF version: 1.3

 

keiz@ekz:~/test_pdf_text$ file kiosaki_2.pdf

kiosaki_2.pdf: PDF document, version 1.3

-rw-r—r— 1 keiz keiz 1,2M 2012-07-01 16:59 kiosaki_2.pdf — его размер

 

Преобразуем pdf документ в текстовый файл:

keiz@ekz:~/test_pdf_text$ pdftotext kiosaki_2.pdf kiosaki.txt

keiz@ekz:~/test_pdf_text$ file kiosaki.txt

kiosaki.txt: UTF-8 Unicode text

-rw-r—r— 1 keiz keiz 809K 2012-07-01 17:31 kiosaki.txt — его размер

, как видим размер уменьшился — это очень полезное действие.

 

Сконвертируем последние 10 страниц нашего pdf документа:

keiz@ekz:~/test_pdf_text$ pdftotext -l 10 kiosaki_2.pdf kiosaki_10.txt

 

Сконвертируем первые 10 страниц нашего pdf документа:

keiz@ekz:~/test_pdf_text$ pdftotext -f 10 kiosaki_2.pdf kiosaki_f10.txt

Откроем полученный текстовый файл в текстовом редакторе — gedit

Преобразованный PDF документ в текстовый файл - не читаем.

 

данные не читаемы. Исправим кодировку для правильного прочтения. В консоли наберем:

keiz@ekz:~/test_pdf_text$ pdftotext -enc Latin1 kiosaki_2.pdf — | iconv -f cp1251 -t utf8 > kiosaki.txt

Преобразование прошло успешно. Текст читаем. Результат достигнут.

Исправленный тектовый файл в правильной кодировке.

 

Leave a Reply

Ваш e-mail не будет опубликован. Обязательные поля помечены *

семнадцать − 3 =