Nouveau moteur de recherche pour Gallica

Source :  cblog.culture.fr


Un nouveau moteur de recherche pour Gallica, la bibliothèque numérique de la BnF ]

Gallica est une mine d’informations tant pour les chercheurs que pour le grand public. Gratuite et accessible à tous, elle offre 1,3 millions de documents numérisés. On y trouve aussi bien des livres, des journaux, des estampes, des cartes postales et des affiches que des partitions musicales, des documents sonores, des manuscrits ou des cartes. Gallica est consultée en moyenne quotidiennement par 25 000 visiteurs et a connu une progression de 85 % de son audience en 2010 passant de 4 à 7,5 millions de visites.


Pour faciliter l’accès à ces ressources et permettre d’en appréhender toute la richesse, la BnF va doter d’ici la fin de l’année sa bibliothèque numérique d’un nouvel outil de recherche interne : le moteur d’indexation et de recherche sémantique CloudView conçu par la société Exalead, filiale du groupe Dassault Systèmes qui équipe déjà de nombreux sites institutionnels français parmi lesquels l’INA, le CNRS, les Journaux Officiels et France 24. Choisi à la suite d’un appel d’offre européen, ce nouveau moteur à la pointe de l’innovation technologique augmentera la pertinence des résultats et offrira une navigation dans Gallica plus simple et plus confortable favorisant les liens entre différents documents.

Parmi les nouveautés proposées, on retiendra une aide à la saisie incluant un correcteur orthographique ainsi qu’une fonction de désambiguïsation permettant d’affiner une recherche en distinguant les termes pouvant prêter à confusion, notamment les homonymes. Par exemple, pour la requête ‘avocat’, un choix entre la profession et le fruit sera soumis. Des suggestions basées sur les requêtes des autres utilisateurs pourront également être proposées. Grâce à un paramétrage précis, le moteur donnera les formes approchantes des termes recherchés, une orthographe erronée aura donc peu d’incidence sur le résultat de la requête. Enfin, les différentes formes d’un même mot (selon l’accord en genre et en nombre, les variantes) seront prises en compte et intégrées aux résultats de la recherche.

Autre innovation attendue, la capacité du moteur à extraire de façon automatique différents concepts d’un document grâce à une analyse sémantique. Cette extraction de concepts permettra à l’utilisateur lorsqu’il effectue une requête ou lorsqu’il consulte un document de se voir proposer d’autres documents ou d’autres concepts dont le contenu sémantique ou logique est proche. Par exemple, en saisissant le mot ‘chat’ dans la barre de recherche, l’utilisateur verra apparaître les termes félins, félidés, mammifères, etc. Cette fonctionnalité permet de structurer la recherche (en passant du général au particulier et inversement) et offre la possibilité d’une navigation transverse dans Gallica. A noter que ces liens sémantiques établis par le moteur Exalead pourront être repris par les moteurs de recherches externes ce qui améliorera le référencement des pages de Gallica sur le web.

L’analyse automatique des documents par le moteur permettra en outre de repérer les noms propres, les noms de lieux géographiques ainsi que les noms d’organismes dans le texte ou dans les métadonnées. Ils seront exploités à l’aide des référentiels de la BnF. Ainsi, l’utilisateur qui souhaite se renseigner sur Saint Louis se verra automatiquement proposer des documents dans lesquels le souverain y est cité en tant que Louis IX. L’outil offre également la possibilité de retrouver facilement des citations grâce à l’analyse plein texte et invite à naviguer d’un document vers les documents auxquels il se réfère via un système de liens. Quant à la présentation des résultats de la requête, elle sera sensiblement améliorée puisque les documents seront classés en ensembles cohérents. Par exemple, plusieurs tomes d’un même ouvrage pourront être rassemblés. Est à l’étude également le regroupement des différentes éditions d’une même œuvre.

Toutes ces innovations s’ajoutent naturellement aux fonctionnalités déjà plébiscitées par les utilisateurs de Gallica comme le feuilletage plein-écran, le zoom, le téléchargement ou bien encore le lecteur exportable permettant d’implanter les documents sur les sites web, blogs et autres murs Facebook. Grâce au nouveau moteur, les collections de Gallica seront plus facilement accessibles, elles bénéficieront d’une meilleure visibilité sur le web et l’on peut s’attendre à ce que de plus en plus de curieux et de passionnés prennent plaisir à découvrir les trésors de Gallica et à les partager.

Arnaud Beaufort
Directeur des services et des réseaux à la Bibliothèque nationale de France

Posts les plus consultés de ce blog

Enregistrer sa voix en ligne : 7 services

Numericable affirme son désir d'acheter SFR