{{tag>app indexation recherche}}
====== Recoll ======
Recoll permet d'indexer les documents pour des recherches rapides par mots clés dans les documents HTML, PDF, mail, archives etc.
===== tags =====
Pendant le processus d'indexation il est possible d'importer des tags générés par des programmes externes. Cela peut fortement ralentir le processus d'indexation, il recommandé de le limiter à des sous-parties du système de fichier. La directive **metadatacmds** permet de définir la méthode d'importation des tags.
[/some/area/of/the/fs]
metadatacmds = ; tags = tmsu tags %f
Dans l'exemple ci-dessus l'importation est restreinte aux fichiers contenus sous **/some/area/of/the/fs**. La variables **tags** est affectée avec la valeur de retour de la commande ''tmsu tags %f''
La variable **tags** est un alias du champs **keywords** et tmsu vient ici en compléter la valeur.
===== Indexation =====
C'est l’exécutable recollindex qui se charge de l'indexation. Il peut être lancé:
* Manuellement par l'utilisateur
* Périodiquement via un cron
* En temps-réel: daemon scrutant les modifications sur le système de fichiers et indexant à la volée.
===== Configuration =====
Au premier lancement de la GUI, les fichiers de configuration sont créés dans le répertoire **~/.recoll/**. Un wizard permet de définir les dossiers a indexer, le mode d'indexation Par défaut la configuration indexera tous les documents du home utilisateur. Les répertoires et les types de fichiers a indexer peuvent être définis. plus précisement.
Recoll s'appuie sur **Xapian** pour l'indexation les fichiers de la base de données sont enregistrés par défaut dans le répertoire ~/.recoll/xapiandb
Pour certains types de documents des programmes externes sont nécessaire afin d'exporter en texte plain le format original. C'est le cas des formats:
* PDF, utiliser **pdftotext** du package poppler-utils
* OpenOffice/LibreOffice **unzip** et **xsltproc**
$ sudo apt-get install recoll poppler-utils
Quelques variables
^ topdirs | racine de l'arborescence a indexer |
===== La recherche =====
En ligne de commande avec l'option **-t**:
$ recoll -t ext:pdf bacula
Dans l'exemple ci-dessus, on recherche dans les documents PDF le terme bacula.
Les mots ne commençant pas par un majuscule seront développés avec leurs équivalents existants dans le dictionnaire aspell. Dans l'exemple ci-après la requête saisie est développée, la requête effective est affichée avant le résultat:
$ recoll -t ext:pdf bacula sauvegarde
Recoll query: ((XEpdf:(wqf=11) AND bacula:(wqf=11) AND (sauvegarde:(wqf=11) OR sauvegarder OR sauvegardes OR sauvegardant OR sauvegardent OR sauvegard)))
2 results
...
Si on souhaite faire une recherche incluant le mot exactement, il faut le commencer par une majuscule:
recoll -t ext:pdf bacula Sauvegarde
Recoll query: ((XEpdf:(wqf=11) AND bacula:(wqf=11) AND sauvegarde:(wqf=11)))
2 results
...
===== Références =====
* http://www.lesbonscomptes.com/recoll/usermanual/index.html#RCL.INTRODUCTION