{{tag>app indexation recherche}} ====== Recoll ====== Recoll permet d'indexer les documents pour des recherches rapides par mots clés dans les documents HTML, PDF, mail, archives etc. ===== tags ===== Pendant le processus d'indexation il est possible d'importer des tags générés par des programmes externes. Cela peut fortement ralentir le processus d'indexation, il recommandé de le limiter à des sous-parties du système de fichier. La directive **metadatacmds** permet de définir la méthode d'importation des tags. [/some/area/of/the/fs] metadatacmds = ; tags = tmsu tags %f Dans l'exemple ci-dessus l'importation est restreinte aux fichiers contenus sous **/some/area/of/the/fs**. La variables **tags** est affectée avec la valeur de retour de la commande ''tmsu tags %f'' La variable **tags** est un alias du champs **keywords** et tmsu vient ici en compléter la valeur. ===== Indexation ===== C'est l’exécutable recollindex qui se charge de l'indexation. Il peut être lancé: * Manuellement par l'utilisateur * Périodiquement via un cron * En temps-réel: daemon scrutant les modifications sur le système de fichiers et indexant à la volée. ===== Configuration ===== Au premier lancement de la GUI, les fichiers de configuration sont créés dans le répertoire **~/.recoll/**. Un wizard permet de définir les dossiers a indexer, le mode d'indexation Par défaut la configuration indexera tous les documents du home utilisateur. Les répertoires et les types de fichiers a indexer peuvent être définis. plus précisement. Recoll s'appuie sur **Xapian** pour l'indexation les fichiers de la base de données sont enregistrés par défaut dans le répertoire ~/.recoll/xapiandb Pour certains types de documents des programmes externes sont nécessaire afin d'exporter en texte plain le format original. C'est le cas des formats: * PDF, utiliser **pdftotext** du package poppler-utils * OpenOffice/LibreOffice **unzip** et **xsltproc** $ sudo apt-get install recoll poppler-utils Quelques variables ^ topdirs | racine de l'arborescence a indexer | ===== La recherche ===== En ligne de commande avec l'option **-t**: $ recoll -t ext:pdf bacula Dans l'exemple ci-dessus, on recherche dans les documents PDF le terme bacula. Les mots ne commençant pas par un majuscule seront développés avec leurs équivalents existants dans le dictionnaire aspell. Dans l'exemple ci-après la requête saisie est développée, la requête effective est affichée avant le résultat: $ recoll -t ext:pdf bacula sauvegarde Recoll query: ((XEpdf:(wqf=11) AND bacula:(wqf=11) AND (sauvegarde:(wqf=11) OR sauvegarder OR sauvegardes OR sauvegardant OR sauvegardent OR sauvegard))) 2 results ... Si on souhaite faire une recherche incluant le mot exactement, il faut le commencer par une majuscule: recoll -t ext:pdf bacula Sauvegarde Recoll query: ((XEpdf:(wqf=11) AND bacula:(wqf=11) AND sauvegarde:(wqf=11))) 2 results ... ===== Références ===== * http://www.lesbonscomptes.com/recoll/usermanual/index.html#RCL.INTRODUCTION