Avez-vous déjà coché la case et vous êtes-vous déjà demandé pourquoi un robot ne pouvait pas faire quelque chose d’aussi simple ?
Vous allez découvrir qu’il y a une différence entre la façon dont les humains déplacent la souris et la façon dont les robots le font.
Le système reCaptcha de Google utilise ce fait pour prédire si vous êtes un humain ou non, à l’aide d’un modèle prédictif entraîné avec des exemples de mouvements de souris effectués par des humains et des robots abusifs.
Lorsque vous passez votre souris sur le widget « Je ne suis pas un robot » en direction de la case à cocher pour cliquer, chaque petit mouvement est capturé et envoyé au modèle prédictif.
Le modèle prédictif analyse les mouvements de votre souris par rapport à l’échantillon de données et décide si vous êtes un humain ou un robot.
Il est intéressant de noter que Google a inventé une machine virtuelle entière – essentiellement un ordinateur simulé à l’intérieur d’un ordinateur – juste pour exécuter cette case à cocher.
Cette machine virtuelle utilise son propre langage, qu’elle crypte deux fois.
Ce n’est pas un simple cryptage. Normalement, lorsque vous protégez quelque chose par mot de passe, vous pouvez utiliser une clé pour le décoder. Le langage inventé par Google est décodé à l’aide d’une clé qui est modifiée par le processus de lecture de la langue, et la langue change également en cours de lecture.
Google combine cette clé avec l’adresse Web que vous visitez, vous ne pouvez donc pas utiliser un CAPTCHA d’un site Web pour en contourner un autre. Il combine en outre cela avec les « empreintes digitales » de votre navigateur, capturant des variations microscopiques dans votre ordinateur qu’un bot aurait du mal à reproduire (comme les règles CSS).
Tout cela fait qu’il est délibérément difficile de comprendre ce que Google effectue en arrière-plan. En fait, il faut écrire des outils spéciaux juste pour analyser ce qui se passe, et il s’avère que des gens ont fait exactement cela.
Ils ont découvert que Google enregistre et analyse :
– le fuseau horaire et l’heure de votre ordinateur
– votre adresse IP et votre emplacement approximatif
– la taille et la résolution de votre écran
– le navigateur que vous utilisez
– les plugins que vous utilisez
– le temps pris par l’affichage de la page
– le nombre de pressions de touches, de clics de souris et de tap/rouleaux de défilement qui ont été effectués
Et… d’autres choses que nous ne comprenons pas très bien.
Ils combinent ensuite toutes ces données avec leur connaissance de la personne qui utilise l’ordinateur. C’est vrai : Google observe le comportement de milliards de personnes réelles.
Il est impossible de savoir comment ils vérifient toutes ces informations, mais nous savons que pour battre le captcha, vous avez une quantité ridicule de comportements humains désordonnés à simuler qui sont presque inconnaissables. Sans parler du fait qu’ils changent sans cesse, et qu’on ne sait pas quand.
Et vous pensiez que vous validiez juste une petite boîte innocente, n’est-ce pas ?