reCaptcha ou comment aider Google à numériser des millions d'ouvrages (à votre insu)

Source: Actualité du monde de l'information et des bibliothèques

En 2009, Google rachète reCaptcha, une start-up spécialisée dans les captchas, ces petites images utilisées sur de nombreux sites, qu'il faut déchiffrer et qui servent à distinguer les ordinateurs des humains. Plus de 100 000 sites ont implémenté le système, qui est utilisé quotidiennement par près de 30 millions d'utilisateurs, qui passent chacun une poignée de seconde à résoudre le captcha.
Des centaines d'heures perdues ? Pas pour Google, qui a décidé d'utiliser cette technologie pour poursuivre son travail de numérisation : dans chaque captcha proposé par le service, le premier mot est un mot « test », celui qui est utilisé pour savoir si oui ou non vous êtes un humain. Le second, c'est un mot contenu dans un livre numérisé, que Google n'est pas parvenu à déchiffrer.

Ce mot est soumis à de nombreux utilisateurs : au bout de plusieurs réponses identiques, le mot est « appris » par l'algorithme de Google, qui pourra mieux le reconnaître dans le futur et qui l'insère dans le texte numérisé.

En 2008, le magazine américain Science avait calculé que si on mettait à profit toutes les captchas utilisées sur Internet, on pourrait retranscrire... 160 livres par jour.

Lire la suite : Psitt, Google vous utilise à votre insu pour numériser des livres, Rue89 / Martin Untersinger, 18 octobre 2011.

reCaptcha

Pour aller plus loin :

Posts les plus consultés de ce blog

Numericable affirme son désir d'acheter SFR

Sélection de 69 sites incontournables