La Guía Definitiva para la Web Invisible

Los motores de búsqueda son, en cierto sentido, el latido del corazón de Internet; «Googlear» se ha convertido en parte del habla cotidiana e incluso es reconocido por Merriam-Webster como un verbo gramaticalmente correcto. Es un error común, sin embargo, que buscar en Google un término de búsqueda revelará todos los sitios que se dirigen a tu búsqueda. Los motores de búsqueda típicos como Google, Yahoo o Bing en realidad solo acceden a una pequeña fracción, estimada en un 0,03% — de Internet. Los sitios que producen las búsquedas tradicionales son parte de lo que se conoce como la Web de Superficie, que se compone de páginas indexadas que los rastreadores web de un motor de búsqueda están programados para recuperar.

«Hasta el 90 por ciento de Internet solo es accesible a través de los sitios web de deb.»

¿Y dónde está el resto? La gran mayoría de Internet se encuentra en la Web Profunda, a veces conocida como la Web Invisible. El tamaño real de la Web Profunda es imposible de medir, pero muchos expertos estiman que es aproximadamente 500 veces el tamaño de la web como la conocemos.

Entonces, ¿qué es la Web Profunda, exactamente? Las páginas web profundas funcionan como cualquier otro sitio en línea, pero están construidas para que su existencia sea invisible para los rastreadores. Si bien las noticias recientes, como el busto del infame sitio de tráfico de drogas Silk Road y las travesuras de la NSA de Edward Snowden, han puesto de relieve la existencia de la Deep Web, todavía se malinterpreta en gran medida.

Los motores de búsqueda y la Web de superficie

Comprender cómo los motores de búsqueda indexan las páginas de superficie puede ayudarlo a comprender de qué se trata la Web profunda. En los primeros días, la potencia de cálculo y el espacio de almacenamiento eran tan altos que los motores de búsqueda indexaban un número mínimo de páginas, a menudo almacenando solo contenido parcial. La metodología detrás de la búsqueda reflejaba las intenciones de los usuarios; los primeros usuarios de Internet generalmente buscaban investigación, por lo que los primeros motores de búsqueda indexaban consultas simples que los estudiantes u otros investigadores probablemente harían. Los resultados de búsqueda consistían en contenido real que un motor de búsqueda había almacenado.

Con el tiempo, el avance de la tecnología hizo rentable para los motores de búsqueda hacer un trabajo más completo de indexación de contenido del sitio. Los rastreadores web de hoy en día, o arañas, usan algoritmos sofisticados para recopilar datos de páginas de páginas con hipervínculos. Estos robots se abren camino a través de todos los datos vinculados en Internet, ganándose su apodo de araña. Cada sitio de surface está indexado por metadatos que recopilan los rastreadores. Estos metadatos, que consisten en elementos como el título de la página, la ubicación de la página (URL) y las palabras clave repetidas utilizadas en el texto, ocupan mucho menos espacio que el contenido real de la página. En lugar del volcado de contenido en caché de antaño, los motores de búsqueda actuales dirigen a los usuarios de manera rápida y eficiente a sitios web que son relevantes para sus consultas.

Para tener una idea de cómo los motores de búsqueda han mejorado con el tiempo, el desglose interactivo de Google «Cómo funciona la búsqueda» detalla todos los factores en juego en cada búsqueda de Google. En un sentido similar, Moz.com la línea de tiempo del algoritmo del motor de búsqueda de Google te dará una idea de lo incesantes que han sido los esfuerzos para refinar las búsquedas. Cómo estos esfuerzos impactan en la Web Profunda no está exactamente claro. Pero es razonable suponer que si los principales motores de búsqueda siguen mejorando, los usuarios comunes de la web tendrán menos probabilidades de buscar búsquedas profundas arcanas en la Web.

¿Cómo es invisible la Web Profunda para los Motores de Búsqueda?

Los motores de búsqueda como Google son extremadamente potentes y efectivos para destilar contenido web actualizado. Lo que les falta, sin embargo, es la capacidad de indexar la gran cantidad de datos que no están hipervinculados y, por lo tanto, son inmediatamente accesibles para un rastreador web. Esto puede o no ser intencional; por ejemplo, el contenido detrás de un muro de pago o una publicación de blog que está escrita pero aún no publicada, ambos residen técnicamente en la Web Profunda.

Algunos ejemplos de otros contenidos Web profundos incluyen:

Datos a los que debe accederse mediante una interfaz de búsqueda
Resultados de consultas de base de datos
Información de suscripción y otros datos protegidos por contraseña
Páginas que no están vinculadas a ninguna otra página
Contenido técnicamente limitado, como el que requiere tecnología
Contenido de texto que existe fuera de de http:// o https convencionales:// protocolos

Si bien la escala y la diversidad de la Web Profunda son asombrosas, su notoriedad y atractivo proviene del hecho de que los usuarios son anónimos en la Web Profunda, al igual que sus actividades. Debido a esto, ha sido una herramienta importante para los gobiernos; el laboratorio de investigación naval de los Estados Unidos lanzó por primera vez herramientas de inteligencia para uso de la Web Profunda en 2003.

Desafortunadamente, este anonimato ha creado un caldo de cultivo para elementos criminales que aprovechan la oportunidad para ocultar actividades ilícitas. Pornografía ilegal, drogas, armas y pasaportes son solo algunos de los artículos disponibles para su compra en la Web profunda. Sin embargo, la existencia de sitios como estos no significa que la Web Profunda sea inherentemente mala; el anonimato tiene su valor, y muchos usuarios simplemente prefieren operar dentro de un sistema imposible de rastrear por principio.

«El anonimato tiene su valor, y muchos usuarios simplemente prefieren operar dentro de un sistema imposible de rastrear por principio.»

Así como los rastreadores web no pueden rastrear el contenido de la Web profunda, tampoco se puede acceder a él a través de medios convencionales. El mismo grupo de investigación Naval para desarrollar herramientas de recopilación de inteligencia creó el Proyecto Onion Router, ahora conocido por sus siglas TOR. El enrutamiento de cebolla se refiere al proceso de eliminar capas de cifrado de las comunicaciones por Internet, similar a pelar las capas de una cebolla. Las identidades de los usuarios de TOR y las actividades de red están ocultas por este software. TOR, y otro software similar, ofrece una conexión anónima a la Web Profunda. Es, en efecto, su motor de búsqueda en la Web Profunda.

Pero a pesar de su reputación de callejón sin salida, hay muchas razones legítimas para usar TOR. Por un lado, TOR permite a los usuarios evitar el «análisis de tráfico» y las herramientas de monitoreo utilizadas por los sitios comerciales para determinar la ubicación de los usuarios web y la red a través de la cual se conectan. Estas empresas pueden usar esta información para ajustar los precios, o incluso qué productos y servicios ponen a disposición.

De acuerdo con el sitio del Proyecto Tor, el programa también permite a las personas » Crear un sitio web donde las personas publiquen material sin preocuparse por la censura.»Si bien esto no es de ninguna manera una cosa clara buena o mala, la tensión entre la censura y la libertad de expresión se siente en todo el mundo. La Deep Web fomenta ese debate al demostrar lo que la gente puede y hará para superar la censura política y social.

Razones por las que una página es invisible

Cuando una consulta ordinaria del motor de búsqueda regresa sin resultados, eso no significa necesariamente que no haya nada que encontrar. Una página «invisible» no es necesariamente inaccesible; simplemente no está indexada por un motor de búsqueda. Hay varias razones por las que una página puede ser invisible. Tenga en cuenta que algunas páginas son solo temporalmente invisibles, posiblemente programadas para ser indexadas en una fecha posterior.

Demasiados parámetros

Los motores tradicionalmente han ignorado cualquier página web cuyas URL tengan una larga cadena de parámetros e signos y signos de interrogación iguales, en la remota posibilidad de que dupliquen lo que hay en su base de datos, o peor aún, la araña de alguna manera dará vueltas en círculos. Conocida como la» Web superficial», se han desarrollado varias soluciones alternativas para ayudarlo a acceder a este contenido.

Entrada controlada por formulario que no está protegida por contraseña

En este caso, el contenido de la página solo se muestra cuando un humano aplica un conjunto de acciones, en su mayoría introduciendo datos en un formulario (información de consulta específica, como criterios de trabajo para un motor de búsqueda de empleo). Por lo general, esto incluye bases de datos que generan páginas a pedido. El contenido aplicable incluye datos de la industria de viajes (información de vuelos, disponibilidad de hoteles), listados de trabajo, bases de datos de productos, patentes, información gubernamental de acceso público, definiciones de diccionario, leyes, datos del mercado de valores, guías telefónicas y directorios profesionales.

Acceso con contraseña, suscripciones o no suscripciones.

Esto incluye VPN (redes privadas virtuales) y cualquier sitio web donde las páginas requieran un nombre de usuario y una contraseña. El acceso puede o no ser por suscripción de pago. El contenido aplicable incluye bases de datos académicas y corporativas, contenido de periódicos o revistas y suscripciones a bibliotecas académicas.

Acceso cronometrado

En algunos sitios, como las principales fuentes de noticias como The New York Times, el contenido gratuito se vuelve inaccesible después de un cierto número de páginas vistas. Los motores de búsqueda conservan la URL, pero la página genera un formulario de registro y el contenido se mueve a una nueva URL que requiere una contraseña.

Exclusión de robots

Los robots.el archivo txt, que generalmente vive en el directorio principal de un sitio, le dice a los robots de búsqueda qué archivos y directorios no deben indexarse. De ahí el nombre «archivo de exclusión de robots».»Si se configura este archivo, bloqueará que ciertas páginas se indexen, lo que será invisible para los buscadores. Las plataformas de blogs comúnmente ofrecen esta función.

Páginas ocultas

Simplemente no hay una secuencia de clics en hipervínculos que lo lleven a dicha página. Las páginas son accesibles, pero solo para personas que conocen su existencia.

Mitos sobre la web invisible

Las drogas, la pornografía y otras actividades ilegales son el aspecto más hablado de la Web Profunda por una razón. Las historias sobre personas que compran heroína en línea usando Bitcoins, una forma de moneda electrónica, o vendiendo armas a nivel internacional ocupan grandes titulares.

Lo que la gente no se da cuenta es que hay mucho que Internet invisible tiene para ofrecer además de la actividad ilegal. Los estereotipos y las historias de boogeyman mantienen a la gente alejada de la Web profunda cuando en realidad hay muchas razones maravillosas para visitarla. En países como China, donde los sitios web están bloqueados y la privacidad de Internet es difícil de conseguir, hay una comunidad creciente de usuarios que usan la Internet profunda para compartir información y hablar libremente. Navegadores como TOR son todavía relativamente desconocidos en China, pero el número de personas que utilizan el servicio está creciendo constantemente. Los ciudadanos de Turquía y otros países políticamente tumultuosos están utilizando la Internet profunda para reunirse, planificar protestas y discutir noticias locales fuera de la atenta mirada del gobierno.

¿Por qué podría el estadounidense promedio querer usar Internet profundo? A pesar de su fama de actividad ilegal, el internet profundo es simplemente cualquier cosa que no sea accesible mediante una simple búsqueda en Google. Hasta el 90 por ciento de Internet solo es accesible a través de los sitios web de deb. Usar TOR en sí no es ilegal, ni tampoco lo es usar muchos sitios web profundos. La única actividad ilegal es lo que sería ilegal en el mundo real. En la web profunda puedes encontrar libros raros y prohibidos, leer noticias difíciles de encontrar e incluso fanfiction. La idea de un salvaje oeste de Internet está viva de nuevo usando la web profunda.

Cómo Acceder y Buscar Contenido invisible

Si un sitio es inaccesible por medios convencionales, todavía hay formas de acceder al contenido, si no a las páginas reales. Aparte de software como TOR, hay una serie de entidades que hacen posible ver contenido Web profundo, como universidades e instalaciones de investigación.

Para el contenido invisible que no puede o no debe ser visible, todavía hay varias formas de obtener acceso:

Membresía

Únase a una asociación profesional o de investigación que proporcione acceso a registros, investigaciones y revistas revisadas por pares.

VPN

Acceda a una red privada virtual a través de un empleador

Solicite permiso

Solicite acceso; esto podría ser tan simple como un registro gratuito.

Servicios de suscripción

Pague una suscripción a una publicación periódica u otro recurso cuyo trabajo desee apoyar.

Encuentre un recurso adecuado

Utilice un directorio web invisible, un portal o un motor de búsqueda especializado, como la búsqueda de libros de Google o el Índice de Internet de Bibliotecarios.

Uso de la Web profunda en Educación

Entonces, ¿dónde entra usted, como educador? La web profunda se puede utilizar para encontrar información a la que no podría acceder de otra manera a través de una simple búsqueda en Google, y que puede resultar inmensurablemente útil para sus estudiantes y colegas.

«Vencer los estereotipos y mostrar el uso de búsquedas profundas en la web es una perspectiva emocionante para los estudiantes: pueden ver que Internet es mucho más grande que las redes sociales y las búsquedas típicas de Google o Yahoo que están acostumbrados a usar para proyectos escolares y ensayos.»

Lo que la gente no entiende es qué constituye exactamente la información de la web profunda. Las revistas y los libros a los que solo se puede acceder a través del sitio web de una biblioteca universitaria no se pueden encontrar a través de Google, así como los sitios que han desactivado la posibilidad de buscar a través de un motor de búsqueda. Para los estudiantes que necesitan ese cortafuegos, la capacidad de buscar en sitios web profundos se convierte en una herramienta útil para la escuela y más allá.

Muestre a los estudiantes el uso que se hace para encontrar motores de búsqueda ocultos y qué tipo de información se puede encontrar a través de ellos. Vencer los estereotipos y mostrar el uso de búsquedas profundas en la web es una perspectiva emocionante para los estudiantes: pueden ver que Internet es mucho más grande que las redes sociales y las búsquedas típicas de Google o Yahoo que están acostumbrados a usar para proyectos escolares y ensayos. Su biblioteca local puede ser una fuente de toneladas de información no Googleable, y a través de su biblioteca, puede utilizar fuentes como JSTOR y JURN. Para obtener más información sobre cómo usar fuentes web profundas, consulte el libro Going Beyond Google: The Invisible Web in Learning and Teaching de Jane Devine y Francine Egger-Sider.

Herramientas de búsqueda web invisibles

Aquí hay una pequeña muestra de herramientas de búsqueda web invisibles (directorios, portales, motores) para ayudarlo a encontrar contenido invisible. Para ver más como estos, consulta nuestro artículo de investigación Más allá de Google.

Una Lista de Motores de Búsqueda en la Web Profunda

Los Recursos de Purdue Owl para Buscar en la Web Invisible

Arte

Musie du Louvre

Libros en Línea

La Página de Libros en Línea

Datos económicos y Laborales

FreeLunch.com

Financiación e Inversión

Tasa bancaria.com

Investigación General

Catálogo de Publicaciones del Gobierno de los Estados Unidos de GPO

Datos del Gobierno

My Race