Как научить Recoll читать файлы формата rtf

Posted by

Есть множество файлов в виде отчетов присылаемых сотрудником по ежедневной занятости на рабочем месте, я же в свою очередь дабы видеть в дальнейшем что было сделано, сохраняю их у себя, а после посредством программы (на рабочей системе Gnome) уже ищу необходимые данные. Я научил сотрудника писать подробный отчет за день все то что он делает, и кстати это очень сильно стимулирует его разбираться во всем чтобы то он ни делал. Потому как у него есть свой собственный самописный движок (ну есть у него навыки программирования, вот и написал свой велосипед под себя) по вспоминанию того, что и кому он настраивал/создавал/собственные выводы о произошедшем. Из его программы он делает выгрузку мне и после высылает в конце каждого дня.

Но обнаружил что моя любимая на сегодняшний момент программа, я просто пока не нашел ей достойную альтернативу индексирования файлов, но вот через поиск по ключевым словам ничего не отображает, дело в том что формируемый отчет сохраняет в формате rtf ( Rich Text Format)

Фраза поиска: “Рисование план-схемы “Кузовного”

Результаты поиска

Не найдено

Утилита Recoll не видит файлы rtf

 

Проверка на “недостающие пакеты” показала – что таких не обнаружено.

Информация по текущему документу формата rtf:

ekzorchik@system:~/Documents/tips_nemdom/tips_evgeniy> file 24.08.2015.rtf

24.08.2015.rtf: Rich Text Format data, version 1, ANSI

А в самом документе запрос присутствует:

Содержимое RTF документа успешно открывается/читается через LibreOffice

 

Чтобы поправить, произведу установку пакета abiword и сконвертирую документ rtf в обычный текстовый файл но без всякого формитирования.

ekzorchik@system:~/Documents/tips_firma/tips_<user_name> sudo zypper install abiword

ekzorchik@system:~/Documents/tips_firma/tips_<user_name> abiword --to=txt 24.08.2015.rtf

После будет получен txt файл:

ekzorchik@system:~/Documents/tips_firma/tips_<user_name> file 24.08.2015.txt

24.08.2015.txt: UTF-8 Unicode text, with very long lines

После запустив переиндексацию: ФайлОбновить индекс

и выполнив поиск по необходимой мне фразе: Рисование план-схемы “Кузовного”.

Сконвертировал RTF файл до TXT файла, теперь Recoll его видит/читает

 

Итог запрошенного по фразе успешно получен. Заметка работоспособна. Хоть я и не научил понимать Recoll файлы в формате RTF, но зато разобрал как их сконвертировать в обычный текстовый файл (расширение txt). Данный материал также справедлив и для моей домашней системы Ubuntu 12.04.5 Desktop amd64, софт ведь один и то же используется. К тому же столкновение с трудностями лишний раз доказывается, что все не так просто, как кажется. Теперь я знаю чуточку больше и это меня радует. На этом все, до встречи, с уважением автор блога — ekzorchik.

One comment

  1. Практичнее будет написать скрипт:
    nano script
    #!/bin/sh
    for rtf in *.rtf;
    do
    abiword --to=txt $rtf
    done
    chmod +x script

    и через cron толкать его раз в час к примеру из этого каталога.

Leave a Reply

Ваш e-mail не будет опубликован. Обязательные поля помечены *

1 × 5 =