Outils pour utilisateurs

Outils du site


software:applications:recoll

Recoll

Recoll permet d'indexer les documents pour des recherches rapides par mots clés dans les documents HTML, PDF, mail, archives etc.

tags

Pendant le processus d'indexation il est possible d'importer des tags générés par des programmes externes. Cela peut fortement ralentir le processus d'indexation, il recommandé de le limiter à des sous-parties du système de fichier. La directive metadatacmds permet de définir la méthode d'importation des tags.

[/some/area/of/the/fs]
      metadatacmds = ; tags = tmsu tags %f

Dans l'exemple ci-dessus l'importation est restreinte aux fichiers contenus sous /some/area/of/the/fs. La variables tags est affectée avec la valeur de retour de la commande tmsu tags %f

La variable tags est un alias du champs keywords et tmsu vient ici en compléter la valeur.

Indexation

C'est l’exécutable recollindex qui se charge de l'indexation. Il peut être lancé:

  • Manuellement par l'utilisateur
  • Périodiquement via un cron
  • En temps-réel: daemon scrutant les modifications sur le système de fichiers et indexant à la volée.

Configuration

Au premier lancement de la GUI, les fichiers de configuration sont créés dans le répertoire ~/.recoll/. Un wizard permet de définir les dossiers a indexer, le mode d'indexation Par défaut la configuration indexera tous les documents du home utilisateur. Les répertoires et les types de fichiers a indexer peuvent être définis. plus précisement.

Recoll s'appuie sur Xapian pour l'indexation les fichiers de la base de données sont enregistrés par défaut dans le répertoire ~/.recoll/xapiandb

Pour certains types de documents des programmes externes sont nécessaire afin d'exporter en texte plain le format original. C'est le cas des formats:

  • PDF, utiliser pdftotext du package poppler-utils
  • OpenOffice/LibreOffice unzip et xsltproc
$ sudo apt-get install recoll poppler-utils

Quelques variables

topdirs racine de l'arborescence a indexer

La recherche

En ligne de commande avec l'option -t:

$ recoll -t ext:pdf bacula 

Dans l'exemple ci-dessus, on recherche dans les documents PDF le terme bacula.

Les mots ne commençant pas par un majuscule seront développés avec leurs équivalents existants dans le dictionnaire aspell. Dans l'exemple ci-après la requête saisie est développée, la requête effective est affichée avant le résultat:

$ recoll -t ext:pdf bacula sauvegarde
Recoll query: ((XEpdf:(wqf=11) AND bacula:(wqf=11) AND (sauvegarde:(wqf=11) OR sauvegarder OR sauvegardes OR sauvegardant OR sauvegardent OR sauvegard)))
2 results
...

Si on souhaite faire une recherche incluant le mot exactement, il faut le commencer par une majuscule:

recoll -t ext:pdf bacula Sauvegarde
Recoll query: ((XEpdf:(wqf=11) AND bacula:(wqf=11) AND sauvegarde:(wqf=11)))
2 results
...

Références

software/applications/recoll.txt · Dernière modification : 2021/02/01 21:51 de 127.0.0.1