1.1 Explorer et indexer

Imaginez le Web comme un réseau sous-terrain avec ses stations de métro.

Chaque station est un document unique (généralement une page web, mais parfois un fichier PDF, JPG ou un autre fichier). Les moteurs de recherche ont besoin d’un moyen pour «explorer» tout le réseau de la ville et pour trouver toutes les stations. Ils utilisent donc la meilleure voie disponible – les liens.

La structure des liens Web sert à lier ensemble toutes les pages dans le réseau existant (ou, du moins, toutes celles auxquelles les moteurs peuvent avoir accès). Grâce aux liens, les robots automatisés des moteurs de recherche, appelés « crawlers » ou « spiders » peuvent relier plusieurs milliards de documents entre eux.

Une fois que les moteurs ont trouvé ces pages, ils analysent le code et stockent des morceaux choisis au sein de disques durs à grosse capacité de stockage afin d’être rappelé en cas de besoin dans une requête. Pour accomplir la tâche monumentale de la gestion des milliards de pages qui peuvent être accessibles en une fraction de seconde, les moteurs de recherche ont construit des énormes centres de stockage de données dans les villes du monde entier.

Ces installations de stockage monstrueuses sont composées de milliers de machines capables de traiter une quantité incroyable d’informations. En fait, quand une personne effectue une recherche sur l’un des principaux moteurs de recherche, elle exige des résultats instantanément – même un délai de 3 ou 4 secondes peut causer l’insatisfaction. Les moteurs de recherches travaillent donc dur pour apporter rapidement des réponses.