Memex : un moteur de recherche pour dévoiler le web profond

Il est estimé que seulement 5% du contenu web est indexé. Memex a été conçu pour explorer la partie inconnue du web, le web profond.

Certains estiment que les principaux moteurs de recherche, Google, Microsoft et Yahoo, ne donnent accès qu’à environ 5% du contenu du web. Qu’en est-il du reste, de toute cette partie inconnue que l’on nomme communément « deep web » (web profond) ?

Ce web profond est surtout constitué de pages non indexées par les moteurs de recherche classique, ou de pages protégées par des logiciels spécifiques, Tor par exemple. Ces pages sont le terrain de jeu de différentes organisations criminelles, mais aussi de Chris White, un ingénieur du DARPA, un laboratoire de recherche de l’armée américaine.

Le DARPA a mis au point Memex, contraction de « mémoire » et « index », un programme capable de mener des recherches thématiques dans des pages du web profond. Fonctionnant comme une surcouche d’un moteur de recherche classique, le logiciel récupère bien plus d’informations que Google ou Bing pour établir des liens.

Développé en tant qu’outil pour le département américain de Défense, Memex a déjà été testé pour surveiller les réseaux de prostitution lors du Super Bowl. Il a été capable de repérer de nombreuses pages cachées faisant la promotion de services sexuels, puis de récupérer des données permettant d’identifier le lieu de leur publication: géolocalisation d’un appareil, adresse IP, numéro de téléphone, adresse, etc., des données qui ont ensuite été compilées et recoupées pour être associées aux photos de femmes figurant sur ces pages. Au final, Memex pouvait repérer les mouvements de différentes prostituées et faciliter le travail de la police.

« Il s’agit d’un bel exemple de la manière dont le Big Data peut aider à protéger les personnes vulnérables », a salué le président Barack Obama dans le cadre de son rapport sur le Big Data.

Chris White précise que le but de Memex n’est pas de récupérer des informations qui n’ont pas pour but d’être publiques, typiquement une page Facebook privée, ou de désanonymiser des services anonymes. « La plupart des personnes qui utilisent Internet le font pour de bonnes raisons. Il existe aussi des parasites et nous voulons les empêcher d’utiliser Internet contre nous », souligne Dan Kaufman, du DARPA.

Pour le moment conçu pour aider les enquêtes de police, Memex pourrait peut-être un jour aider les recherches des particuliers. Il est tout de même peu probable que sa logique soit un jour adoptée par Google, Bing ou Yahoo qui privilégient avant tout les pages générant du trafic qui ont un fort potentiel de revenus publicitaires.

Votes
[Total : 0 votes en moyenne : 0]
PARTAGER
Article précédentDes failles de sécurité pour presque 100% des voitures connectées
Article suivantiOS 8.4 : avec le service de streaming musical d’Apple

Une fille dans l’informatique était mal vue à l’époque de mes études. C’est pour cette raison que l’on m’a cantonné à des rôles secondaires lors des travaux de groupe, notamment celui de centralisateur des informations. Ce rôle central, au final crucial, m’a plu. C’est comme cela que je suis devenue chef de projet. Plus tard, cette attirance pour l’information m’a poussé à suivre des cours de journalisme.
Comme j’avais la propension de centraliser l’actualité technologique, un ami m’a dit un jour : «Emilie, tu peux le faire ». C’est comme cela que je me suis retrouvée embarquée dans l’aventure de linformatique.org. Vu mon boulot, ce sont surtout les nouvelles technologies qui m’intéressent le plus.

1 COMMENTAIRE

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here