mardi 24 juillet 2012

Captcha

J'ai découvert il y a peu ce qu'il se cachait derrière ces mécanismes d'identification, les captchas.
Un moyen pour moi d'illustrer l'utilisation des ressources, et des principes de séparation. Et un exemple d'utilisation du crowdsourcing.


Lorsque l'on souhaite s'identifier sur un site, on tombe fréquemment sur ces "captchas". Au passage, le mot correspond à la prononciation de "capture" en anglais. Il en existe de toutes sortes, mais un de ces modèles est particulièrement intéressant.
Les captchas ont été créés pour déjouer les robots. Ainsi, lorsque l'on souhaite s'assurer que c'est réellement un humain qui essaye de s'inscrire sur un site, on passe par ce filtre.
Autrement dit, les ordinateurs savent faire beaucoup de choses, mais la reconnaissance de caractères est un domaine où l'homme surpasse la machine.
Prenons maintenant le problème à  l'envers, ou plutôt, examinons le processus sous un autre angle:
si je soumettais deux images de mots à un utilisateur: l'une des images représente un mot connu, et la seconde est un mot à découvrir. La première image me permet de savoir si j'ai affaire à un humain. La seconde image n'est pas décryptée et je compte sur l'humain (que j'ai identifié avec le premier mot) pour résoudre le problème.
Eh bien c'est la solution utilisée par "reCAPTCHA". Ainsi, lorsque l'on s'identifie, on en profite pour décrypter un mot. Les mots à reconnaître sont issus de numérisations opérées par Internet Archive sur des ouvrages anciens appartenant au domaine public. Google l'utilise aussi pour, par exemple, identifier des numéros de rue dans Street View.
reconnaissance de numéros dans la rue


La notion de ressource est ici pleinement utilisée. Une  ressource est quelque chose qui est présent et qu'il suffit d'utiliser intelligemment. Ainsi, dans ce cas, chaque personne qui s'identifie effectue une minuscule partie d'une tâche colossale, et, le nombre d'utilisateurs étant très grand, le travail fourni est énorme.

Enfin, la séparation dans l'espace, et la contradiction qui se cache derrière:
  • Il faut que le captcha soit décrypté pour identifier un humain, 
  • Il faut que le captcha soit crypté pour que l'humain puisse le traduire. 
Chaque captcha est composé de deux mots, dont l'un est a signification connue, et l'autre à signification inconnue. Il s'agit donc d'une séparation dans l'espace.


Aucun commentaire: