Technologie

Memex : un moteur de recherche pour dévoiler le web profond

Il est estimé que seulement 5% du contenu web est indexé. Memex a été conçu pour explorer la partie inconnue du web, le web profond.

Certains estiment que les principaux moteurs de recherche, Google, Microsoft et Yahoo, ne donnent accès qu’à environ 5% du contenu du web. Qu’en est-il du reste, de toute cette partie inconnue que l’on nomme communément « deep web » (web profond) ?

Ce web profond est surtout constitué de pages non indexées par les moteurs de recherche classique, ou de pages protégées par des logiciels spécifiques, Tor par exemple. Ces pages sont le terrain de jeu de différentes organisations criminelles, mais aussi de Chris White, un ingénieur du DARPA, un laboratoire de recherche de l’armée américaine.

Le DARPA a mis au point Memex, contraction de « mémoire » et « index », un programme capable de mener des recherches thématiques dans des pages du web profond. Fonctionnant comme une surcouche d’un moteur de recherche classique, le logiciel récupère bien plus d’informations que Google ou Bing pour établir des liens.

Développé en tant qu’outil pour le département américain de Défense, Memex a déjà été testé pour surveiller les réseaux de prostitution lors du Super Bowl. Il a été capable de repérer de nombreuses pages cachées faisant la promotion de services sexuels, puis de récupérer des données permettant d’identifier le lieu de leur publication: géolocalisation d’un appareil, adresse IP, numéro de téléphone, adresse, etc., des données qui ont ensuite été compilées et recoupées pour être associées aux photos de femmes figurant sur ces pages. Au final, Memex pouvait repérer les mouvements de différentes prostituées et faciliter le travail de la police.

« Il s’agit d’un bel exemple de la manière dont le Big Data peut aider à protéger les personnes vulnérables », a salué le président Barack Obama dans le cadre de son rapport sur le Big Data.

Chris White précise que le but de Memex n’est pas de récupérer des informations qui n’ont pas pour but d’être publiques, typiquement une page Facebook privée, ou de désanonymiser des services anonymes. « La plupart des personnes qui utilisent Internet le font pour de bonnes raisons. Il existe aussi des parasites et nous voulons les empêcher d’utiliser Internet contre nous », souligne Dan Kaufman, du DARPA.

Pour le moment conçu pour aider les enquêtes de police, Memex pourrait peut-être un jour aider les recherches des particuliers. Il est tout de même peu probable que sa logique soit un jour adoptée par Google, Bing ou Yahoo qui privilégient avant tout les pages générant du trafic qui ont un fort potentiel de revenus publicitaires.

Si cet article a captivé votre intérêt, vous trouverez certainement les prochains tout aussi passionnants. Assurez-vous de ne rien manquer en vous abonnant à linformatique.org sur Google News. Suivez-nous aussi sur Facebook et Twitter.

Un commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page