Je prépare un concept de recherche fédérée pour une audience et des contenus internes, donc non public.
Pour résumer, il s'énonce comme suit:
Un ensemble de services permettant de collecter des documents sur des référentiels sources et de les indexer dans le but de permettre à un utilisateur de les rechercher à partir d’un point unique. Ils permettent aussi de diriger des requêtes formulées par les utilisateurs sur d’autres engins de recherche pointant sur des dépôts documentaires non indexés dans l’index de la Recherche fédérée et d’en obtenir les résultats.
La nature ''Fédérée'' du projet consiste donc à pouvoir interroger d'autres engins de recherche que Elasticsearch à partir d'une même requête utilisateur. Cependant, je ne sais pas encore comment cette requête pourrait être ainsi distribuée.
J'ai déjà identifié Nutch pour la collecte et Tika pour l'extraction et l'analyse des textes des documents bureautiques et pages web. Je viens de voir que vous avez publié un FS crawler sur GitHub...Intéressant... Le contenu des serveurs de fichiers (file system) doivent aussi êtres collectés et analysés pour l'indexation dans Elasticsearch. Mais si je prends FS Crawler, il me manquera toujours un outil de collecte pour les pages de mon site web intranet, c'est pourquoi je ciblais peut-être Nutch car il collecte les FS et les sites web. Enfin, vous me direz votre suggestion ! DA'utre part, si je comprends bien l'outil Logstash,ce dernier est surtout conçue pour les logs et non pour collecte des pages web de mon intranet des fichiers sur des disques partagés
Elasticsearch est ciblé pour l'indexation et la recherche. Nous aurons besoin d'une application web en tant qu'interface utilisateur. Il faut donc prendre Kibana ou la bâtir (j'ai pensé à une SPA construite avec Angular2)
Est-ce que Kibana peut servir d'interface utilisateur pour formuler des requêtes de ce type ? Kibana me semble davantage un outil d'analytique alors que tout ce dont j'ai besoin c'est d'une liste de résultats que je peux filtrer avec facettes
Voici donc une série de critères essentiels pour nous et je cherche à savoir si Elasticsearch peut y répondre, si le produit a cette capacité:
- La solution permet de collecter les autorisations d'accès de chacun des documents
- La solution permet d'extraire les autorisations d'accès de chacun des documents
- La solution permet de transmettre une même requête simultanément sur plusieurs engins de recherche externes et d'en recevoir les résultats (par ex.: des systèmes de GED et des sites de partage de fichiers sur infonuagique)
- La solution permet d'uniformiser les syntaxes de requêtes en fonction des engins de recherche des référentiels sources
- La solution permet de retrouver des éléments comportant des mots apparentés à ceux inscrits dans la requête (ex.: matière résiduelle, compost, recyclage. collecte sélective)
- La solution permet de retrouver des éléments comportant des mots antonymes aux mots inscrits dans la requête
- La solution permet de filtrer les résultats de recherche en fonction des référentiels sources
- La solution doit être multiplateforme, c.-à-d. accessible à partir de multiples outils mobiles (téléphones intelligents, tablettes électroniques) et de postes de travail fixes
- La solution supporte la langue française dans ses paramètres régionaux (par ex.: les formats de date et de nombre)
Salutations,