Le Guide Ultime du Web Invisible

Les moteurs de recherche sont, en quelque sorte, le rythme cardiaque d’Internet; « Googler » est devenu une partie du discours quotidien et est même reconnu par Merriam-Webster comme un verbe grammaticalement correct. C’est une idée fausse courante, cependant, que la recherche sur Google d’un terme de recherche révélera tous les sites qui répondent à votre recherche. Les moteurs de recherche typiques comme Google, Yahoo ou Bing n’accèdent en fait qu’à une infime fraction — estimée à 0,03% — d’Internet. Les sites que les recherches traditionnelles produisent font partie de ce que l’on appelle le Web de surface, qui est composé de pages indexées que les robots d’exploration Web d’un moteur de recherche sont programmés pour récupérer.

» Jusqu’à 90% d’Internet n’est accessible que par le biais des sites Web deb. »

Où est le reste ? La grande majorité d’Internet se trouve dans le Web profond, parfois appelé le Web invisible. La taille réelle du Web profond est impossible à mesurer, mais de nombreux experts estiment qu’elle est environ 500 fois la taille du Web tel que nous le connaissons.

Alors, qu’est-ce que le Web profond, exactement? Les pages Web profondes fonctionnent comme n’importe quel autre site en ligne, mais elles sont construites de manière à ce que leur existence soit invisible pour les robots d’exploration. Alors que des nouvelles récentes, telles que le démantèlement du tristement célèbre site de trafic de drogue Silk Road et les manigances de la NSA d’Edward Snowden, ont mis en lumière l’existence du Web profond, elles sont encore largement mal comprises.

Les moteurs de recherche et le Web de surface

Comprendre comment les pages de surface sont indexées par les moteurs de recherche peut vous aider à comprendre ce qu’est le Web profond. Au début, la puissance de calcul et l’espace de stockage étaient si importants que les moteurs de recherche indexaient un nombre minimal de pages, ne stockant souvent qu’un contenu partiel. La méthodologie de recherche reflétait les intentions des utilisateurs; les premiers internautes recherchaient généralement des recherches, de sorte que les premiers moteurs de recherche indexaient les requêtes simples que les étudiants ou d’autres chercheurs étaient susceptibles de faire. Les résultats de recherche consistaient en du contenu réel qu’un moteur de recherche avait stocké.

Au fil du temps, les progrès technologiques ont permis aux moteurs de recherche de faire un travail plus approfondi d’indexation du contenu du site. Les robots d’exploration Web d’aujourd’hui, ou araignées, utilisent des algorithmes sophistiqués pour collecter des données de page à partir de pages hyperliées. Ces robots se frayent un chemin à travers toutes les données liées sur Internet, gagnant leur surnom d’araignée. Chaque site de surface est indexé par les métadonnées collectées par les robots d’exploration. Ces métadonnées, composées d’éléments tels que le titre de la page, l’emplacement de la page (URL) et les mots-clés répétés utilisés dans le texte, occupent beaucoup moins d’espace que le contenu de la page. Au lieu du vidage de contenu en cache des anciens, les moteurs de recherche actuels dirigent rapidement et efficacement les utilisateurs vers des sites Web pertinents pour leurs requêtes.

Pour avoir une idée de la façon dont les moteurs de recherche se sont améliorés au fil du temps, la ventilation interactive « Comment fonctionne la recherche » de Google détaille tous les facteurs en jeu dans chaque recherche Google. Dans la même veine, Moz.com la chronologie de l’algorithme du moteur de recherche de Google vous donnera une idée de la façon dont les efforts ont été sans arrêt pour affiner les recherches. L’impact de ces efforts sur le Web profond n’est pas exactement clair. Mais il est raisonnable de supposer que si les principaux moteurs de recherche continuent de s’améliorer, les utilisateurs ordinaires du Web seront moins susceptibles de rechercher des recherches arcanes sur le Web profond.

Comment le Web Profond est-il Invisible pour les Moteurs de recherche ?

Les moteurs de recherche comme Google sont extrêmement puissants et efficaces pour distiller du contenu Web actuel. Ce qui leur manque, cependant, c’est la capacité d’indexer la grande quantité de données qui n’est pas hyperliée, et donc immédiatement accessible à un robot d’exploration Web. Cela peut être intentionnel ou non; par exemple, le contenu derrière un paywall ou un article de blog écrit mais non encore publié réside techniquement dans le Web profond.

Voici quelques exemples d’autres contenus Web profonds ::

Données auxquelles il faut accéder par une interface de recherche
Résultats des requêtes de base de données
Informations sur abonnement uniquement et autres données protégées par mot de passe
Pages auxquelles aucune autre page n’est liée
Contenu techniquement limité, tel que celui nécessitant une technologie
Contenu textuel qui existe à l’extérieur de http classique:// ou https:// protocoles

Bien que l’échelle et la diversité du Web profond soient stupéfiantes, sa notoriété – et son attrait – vient du fait que les utilisateurs sont anonymes sur le Web profond, tout comme leurs activités. Pour cette raison, il a été un outil important pour les gouvernements; le laboratoire de recherche navale des États-Unis a lancé pour la première fois des outils de renseignement pour l’utilisation du Web profond en 2003.

Malheureusement, cet anonymat a créé un terreau fertile pour des éléments criminels qui profitent de l’occasion pour cacher des activités illicites. La pornographie illégale, les drogues, les armes et les passeports ne sont que quelques-uns des articles disponibles à l’achat sur le Web profond. Cependant, l’existence de sites comme ceux-ci ne signifie pas que le Web profond est intrinsèquement mauvais; l’anonymat a sa valeur, et de nombreux utilisateurs préfèrent simplement fonctionner dans un système intraçable en principe.

» L’anonymat a sa valeur, et de nombreux utilisateurs préfèrent simplement fonctionner dans un système intraçable en principe. »

Tout comme le contenu Web profond ne peut pas être tracé par les robots d’exploration Web, il n’est pas non plus accessible par des moyens conventionnels. Le même groupe de recherche navale chargé de développer des outils de collecte de renseignements a créé le projet Onion Router, maintenant connu sous son acronyme TOR. Le routage des oignons fait référence au processus de suppression des couches de cryptage des communications Internet, similaire à l’épluchage des couches d’un oignon. Les identités et les activités réseau des utilisateurs de TOR sont cachées par ce logiciel. TOR, et d’autres logiciels comme celui-ci, offre une connexion anonyme au Web profond. C’est, en effet, votre moteur de recherche Web profond.

Mais malgré sa réputation de ruelle, il existe de nombreuses raisons légitimes d’utiliser TOR. D’une part, TOR permet aux utilisateurs d’éviter « l’analyse du trafic » et les outils de surveillance utilisés par les sites commerciaux pour déterminer l’emplacement des internautes et le réseau via lequel ils se connectent. Ces entreprises peuvent ensuite utiliser ces informations pour ajuster les prix, ou même les produits et services qu’elles mettent à disposition.

Selon le site du projet Tor, le programme permet également aux gens de « Créer un site Web où les gens publient du matériel sans se soucier de la censure. »Bien que ce ne soit en aucun cas une bonne ou une mauvaise chose, la tension entre la censure et la liberté d’expression se fait sentir dans le monde entier. Le Web profond favorise ce débat en démontrant ce que les gens peuvent et vont faire pour surmonter la censure politique et sociale.

Raisons pour lesquelles une Page est invisible

Lorsqu’une requête de moteur de recherche ordinaire revient sans résultat, cela ne signifie pas nécessairement qu’il n’y a rien à trouver. Une page » invisible » n’est pas nécessairement inaccessible ; elle n’est tout simplement pas indexée par un moteur de recherche. Il y a plusieurs raisons pour lesquelles une page peut être invisible. Gardez à l’esprit que certaines pages ne sont que temporairement invisibles, éventuellement indexées à une date ultérieure.

Trop de paramètres

Les moteurs ont traditionnellement ignoré les pages Web dont les URL ont une longue chaîne de paramètres et des signes et des points d’interrogation égaux, au risque de dupliquer ce qui se trouve dans leur base de données – ou pire – l’araignée tournera en rond. Connu sous le nom de « Web superficiel », un certain nombre de solutions de contournement ont été développées pour vous aider à accéder à ce contenu.

Entrée contrôlée par un formulaire qui n’est pas protégée par un mot de passe

Dans ce cas, le contenu de la page ne s’affiche que lorsqu’un humain applique un ensemble d’actions, principalement en entrant des données dans un formulaire (informations de requête spécifiques, telles que les critères d’emploi pour un moteur de recherche d’emploi). Cela inclut généralement des bases de données qui génèrent des pages à la demande. Le contenu applicable comprend des données sur l’industrie du voyage (informations sur les vols, disponibilité des hôtels), des offres d’emploi, des bases de données de produits, des brevets, des informations gouvernementales accessibles au public, des définitions de dictionnaires, des lois, des données boursières, des annuaires téléphoniques et des annuaires professionnels.

Accès par mot de passe, abonnements ou non-abonnements.

Cela inclut les VPN (réseaux privés virtuels) et tout site Web sur lequel les pages nécessitent un nom d’utilisateur et un mot de passe. L’accès peut ou non se faire par abonnement payant. Le contenu applicable comprend les bases de données universitaires et d’entreprise, le contenu de journaux ou de revues et les abonnements à des bibliothèques universitaires.

Accès temporisé

Sur certains sites, comme les principales sources d’information telles que Le New York Times, le contenu gratuit devient inaccessible après un certain nombre de pages vues. Les moteurs de recherche conservent l’URL, mais la page génère un formulaire d’inscription et le contenu est déplacé vers une nouvelle URL qui nécessite un mot de passe.

Exclusion des robots

Les robots.le fichier txt, qui se trouve généralement dans le répertoire principal d’un site, indique aux robots de recherche quels fichiers et répertoires ne doivent pas être indexés. D’où le nom « fichier d’exclusion des robots. »Si ce fichier est configuré, il bloquera l’indexation de certaines pages, qui seront alors invisibles pour les chercheurs. Les plateformes de blogs offrent généralement cette fonctionnalité.

Pages cachées

Il n’y a tout simplement pas de séquence de clics sur un lien hypertexte qui pourrait vous amener vers une telle page. Les pages sont accessibles, mais uniquement aux personnes qui connaissent leur existence.

Mythes sur le web invisible

Les drogues, la pornographie et d’autres activités illégales sont l’aspect le plus parlé du Web profond pour une raison. Les histoires de personnes qui achètent de l’héroïne en ligne en utilisant des Bitcoins, une forme de monnaie électronique, ou qui vendent des armes à l’international font les gros titres.

Ce que les gens ne réalisent pas, c’est qu’Internet invisible a beaucoup à offrir en plus des activités illégales. Les stéréotypes et les histoires de boogeyman éloignent les gens du Web profond alors qu’il y a en fait de nombreuses raisons merveilleuses de lui rendre visite. Dans des pays comme la Chine, où les sites Web sont bloqués et où la confidentialité sur Internet est difficile à trouver, il existe une communauté croissante d’utilisateurs qui utilisent l’Internet profond pour partager des informations et parler librement. Les navigateurs comme TOR sont encore relativement inconnus en Chine, mais le nombre de personnes utilisant le service ne cesse de croître. Les citoyens de Turquie et d’autres pays politiquement tumultueux utilisent l’Internet profond pour se rassembler, planifier des manifestations et discuter des nouvelles locales en dehors de l’œil vigilant du gouvernement.

Pourquoi l’Américain moyen pourrait-il vouloir utiliser l’Internet profond? Malgré sa renommée d’activité illégale, l’Internet profond est tout simplement tout ce qui n’est pas accessible par une simple recherche Google. Jusqu’à 90% de l’Internet n’est accessible que par le biais des sites Web deb. L’utilisation de TOR lui-même n’est pas illégale, ni sur de nombreux sites Web profonds. La seule activité illégale est ce qui serait illégal dans le monde réel. Sur le web profond, vous pouvez trouver des livres rares et interdits, lire des nouvelles difficiles à trouver et même des fan-fictions. L’idée d’un far west d’Internet est à nouveau vivante en utilisant le web profond.

Comment Accéder et rechercher du Contenu invisible

Si un site est inaccessible par des moyens conventionnels, il existe encore des moyens d’accéder au contenu, sinon aux pages réelles. Outre des logiciels comme TOR, il existe un certain nombre d’entités qui permettent de visualiser du contenu Web profond, comme les universités et les installations de recherche.

Pour un contenu invisible qui ne peut ou ne devrait pas être visible, il existe encore plusieurs façons d’y accéder :

Adhésion

Rejoignez une association professionnelle ou de recherche qui donne accès à des documents, des recherches et des revues à comité de lecture.

VPN

Accéder à un réseau privé virtuel via un employeur

Demander l’autorisation

Demander l’accès; cela pourrait être aussi simple qu’une inscription gratuite.

Services d’abonnement

Payez pour un abonnement à un périodique ou à une autre ressource dont vous souhaitez soutenir le travail.

Trouver une ressource appropriée

Utilisez un annuaire Web invisible, un portail ou un moteur de recherche spécialisé tel que Google Book Search ou l’index Internet des bibliothécaires.

Utilisation du Web profond dans l’éducation

Alors, où en êtes-vous, en tant qu’éducateur? Le web profond peut être utilisé pour trouver des informations auxquelles vous ne pouviez pas accéder autrement via une simple recherche Google, et qui peuvent s’avérer extrêmement utiles à vos étudiants et collègues.

» Battre les stéréotypes et montrer l’utilisation des recherches profondes sur le Web est une perspective passionnante pour les étudiants – ils peuvent voir qu’Internet est tellement plus grand que les médias sociaux et les recherches Google ou Yahoo typiques qu’ils ont l’habitude d’utiliser pour des projets scolaires et des essais. »

Ce que les gens ne comprennent pas, c’est ce qui constitue exactement l’information du web profond. Les revues et les livres accessibles uniquement via un site Web de bibliothèque universitaire ne peuvent pas être trouvés via Google, ainsi que les sites qui ont désactivé la possibilité d’être recherchés via un moteur de recherche. Pour les élèves qui ont besoin de ce pare-feu, la possibilité de rechercher sur des sites Web profonds devient un outil utile pour l’école et au-delà.

Montrez aux élèves l’utilité de trouver des moteurs de recherche cachés et le type d’information qu’ils peuvent trouver. Battre les stéréotypes et montrer l’utilisation des recherches profondes sur le Web est une perspective passionnante pour les étudiants — ils peuvent voir qu’Internet est tellement plus grand que les médias sociaux et les recherches Google ou Yahoo typiques qu’ils ont l’habitude d’utiliser pour des projets scolaires et des essais. Votre bibliothèque locale peut être une source de tonnes d’informations non googleables, et grâce à votre bibliothèque, vous pourrez peut-être utiliser des sources telles que JSTOR et JURN. Pour en savoir plus sur l’utilisation des sources du Web profond, consultez le livre Aller au-delà de Google: Le Web invisible dans l’apprentissage et l’enseignement de Jane Devine et Francine Egger-Sider.

Outils de recherche Web invisibles

Voici un petit échantillon d’outils de recherche Web invisibles (répertoires, portails, moteurs) pour vous aider à trouver du contenu invisible. Pour en voir plus, veuillez consulter notre article de Recherche au-delà de Google.

Une Liste des Moteurs de Recherche Web profonds

Les Ressources de Purdue Owl pour Rechercher le Web Invisible

Art

Musique du Louvre

Livres en Ligne

La Page des Livres en Ligne

Données économiques et professionnelles

FreeLunch.com

Financement et investissement

Taux bancaire.com

Recherche générale

Catalogue des Publications gouvernementales américaines de GPO

Données gouvernementales

My Race