Recoll permet d'indexer les documents pour des recherches rapides par mots clés dans les documents HTML, PDF, mail, archives etc.
Pendant le processus d'indexation il est possible d'importer des tags générés par des programmes externes. Cela peut fortement ralentir le processus d'indexation, il recommandé de le limiter à des sous-parties du système de fichier. La directive metadatacmds permet de définir la méthode d'importation des tags.
[/some/area/of/the/fs] metadatacmds = ; tags = tmsu tags %f
Dans l'exemple ci-dessus l'importation est restreinte aux fichiers contenus sous /some/area/of/the/fs. La variables tags est affectée avec la valeur de retour de la commande tmsu tags %f
C'est l’exécutable recollindex qui se charge de l'indexation. Il peut être lancé:
Au premier lancement de la GUI, les fichiers de configuration sont créés dans le répertoire ~/.recoll/. Un wizard permet de définir les dossiers a indexer, le mode d'indexation Par défaut la configuration indexera tous les documents du home utilisateur. Les répertoires et les types de fichiers a indexer peuvent être définis. plus précisement.
Recoll s'appuie sur Xapian pour l'indexation les fichiers de la base de données sont enregistrés par défaut dans le répertoire ~/.recoll/xapiandb
Pour certains types de documents des programmes externes sont nécessaire afin d'exporter en texte plain le format original. C'est le cas des formats:
$ sudo apt-get install recoll poppler-utils
Quelques variables
topdirs | racine de l'arborescence a indexer |
---|
En ligne de commande avec l'option -t:
$ recoll -t ext:pdf bacula
Dans l'exemple ci-dessus, on recherche dans les documents PDF le terme bacula.
Les mots ne commençant pas par un majuscule seront développés avec leurs équivalents existants dans le dictionnaire aspell. Dans l'exemple ci-après la requête saisie est développée, la requête effective est affichée avant le résultat:
$ recoll -t ext:pdf bacula sauvegarde Recoll query: ((XEpdf:(wqf=11) AND bacula:(wqf=11) AND (sauvegarde:(wqf=11) OR sauvegarder OR sauvegardes OR sauvegardant OR sauvegardent OR sauvegard))) 2 results ...
Si on souhaite faire une recherche incluant le mot exactement, il faut le commencer par une majuscule:
recoll -t ext:pdf bacula Sauvegarde Recoll query: ((XEpdf:(wqf=11) AND bacula:(wqf=11) AND sauvegarde:(wqf=11))) 2 results ...