O melhor Guia para a Web Invisível

motores de Busca são, em um sentido, a pulsação da internet; “Googling” tornou-se uma parte da linguagem cotidiana e é reconhecida até mesmo por Merriam-Webster como gramaticalmente correta do verbo. É um equívoco comum, no entanto, que pesquisar no Google um termo de pesquisa revelará todos os sites que abordam sua pesquisa. Motores de busca típicos como Google, Yahoo ou Bing acessam apenas uma pequena fração-estimada em 0,03% — da internet. Os sites que as pesquisas tradicionais produzem fazem parte do que é conhecido como Surface Web, que é composto por páginas indexadas que os rastreadores da web de um mecanismo de pesquisa são programados para recuperar.

“até 90% da internet só é acessível através de sites da deb.”

então, onde está o resto? A grande maioria da Internet está na Deep Web, às vezes chamada de Web invisível. O tamanho real da Deep Web é impossível de medir, mas muitos especialistas estimam que é cerca de 500 vezes o tamanho da web como a conhecemos. Então, o que é a Deep Web, exatamente? As páginas da web profundas funcionam como qualquer outro site online, mas são construídas para que sua existência seja invisível para os rastreadores. Embora notícias recentes, como o busto do infame site de tráfico de drogas Silk Road e as travessuras da NSA de Edward Snowden, tenham destacado a existência da Deep Web, ela ainda é amplamente mal compreendida.

os motores de busca e o Surface Web

compreender como as páginas do surface são indexadas pelos motores de busca pode ajudá-lo a entender o que é a Deep Web. Nos primeiros dias, o poder de computação e o espaço de armazenamento eram tão premium que os mecanismos de pesquisa indexavam um número mínimo de páginas, muitas vezes armazenando apenas conteúdo parcial. A metodologia por trás da pesquisa refletia as intenções dos usuários; os primeiros usuários da Internet geralmente buscavam pesquisas, então os primeiros mecanismos de pesquisa indexavam consultas simples que estudantes ou outros pesquisadores provavelmente faziam. Os resultados da pesquisa consistiam em conteúdo real que um mecanismo de pesquisa havia armazenado.

com o tempo, o avanço da tecnologia tornou lucrativo para os mecanismos de pesquisa Fazer um trabalho mais completo de indexação de conteúdo do site. Os rastreadores da web de hoje, ou spiders, usam algoritmos sofisticados para coletar dados de página de páginas hiperlinadas. Esses robôs manobram seu caminho através de todos os dados vinculados na Internet, ganhando seu apelido de aranha. Cada site surface é indexado por metadados que os rastreadores coletam. Esses metadados, consistindo em elementos como título da página, localização da Página (URL) e palavras-chave repetidas usadas no texto, ocupam muito menos espaço do que o conteúdo real da página. Em vez do despejo de conteúdo em cache do antigo, os mecanismos de pesquisa de hoje direcionam rápida e eficientemente os usuários para sites relevantes para suas consultas.

para ter uma noção de como os mecanismos de pesquisa melhoraram com o tempo, a análise interativa do Google “como a pesquisa funciona” detalha todos os fatores em jogo em todas as pesquisas do Google. Na mesma linha, Moz.com a linha do tempo do algoritmo do mecanismo de pesquisa do Google lhe dará uma ideia de como os esforços têm sido ininterruptos para refinar as pesquisas. Como esses esforços afetam a Deep Web não é exatamente claro. Mas é razoável supor que, se os principais mecanismos de pesquisa continuarem melhorando, os usuários comuns da web terão menos probabilidade de procurar buscas profundas na web.

como a Deep Web é invisível para os mecanismos de pesquisa?

motores de busca como o Google são extremamente poderosos e eficazes na destilação up-to-the-moment conteúdo da web. O que lhes falta, no entanto, é a capacidade de indexar a grande quantidade de dados que não são hiperlinks e, portanto, imediatamente acessíveis a um rastreador da web. Isso pode ou não ser intencional; por exemplo, o conteúdo por trás de um paywall ou de uma postagem de blog escrita, mas ainda não publicada, residem tecnicamente na Deep Web.

alguns exemplos de outros conteúdos da Deep Web incluem:

Dados que precisam ser acessados por uma interface de busca
Resultados de consultas de banco de dados
Assinatura-somente de informações e outros arquivos protegidos por senha
Páginas que não estão vinculados a qualquer outra página
conteúdo limitado Tecnicamente, como que exigindo tecnologia
conteúdo de Texto que existe fora do convencional http:// ou https:// protocolos

embora a escala e a diversidade da Deep Web sejam surpreendentes, sua notoriedade – e apelo – vem do fato de que os usuários são anônimos na Deep Web, assim como suas atividades. Por causa disso, tem sido uma ferramenta importante para os governos; o Laboratório de pesquisa Naval dos EUA lançou pela primeira vez ferramentas de inteligência para uso em Deep Web em 2003.Infelizmente, esse anonimato criou um terreno fértil para elementos criminosos que aproveitam a oportunidade para esconder atividades ilícitas. Pornografia ilegal, drogas, armas e passaportes são apenas alguns dos itens disponíveis para compra na Deep Web. No entanto, a existência de sites como esses não significa que a Deep Web seja inerentemente maligna; o anonimato tem seu valor, e muitos usuários simplesmente preferem operar dentro de um sistema não rastreável em princípio.

“o anonimato tem seu valor, e muitos usuários simplesmente preferem operar dentro de um sistema não rastreável em princípio.”

assim como o conteúdo da Deep Web não pode ser rastreado por rastreadores da web, ele também não pode ser acessado por meios convencionais. O mesmo grupo de pesquisa Naval para desenvolver ferramentas de coleta de inteligência criou o projeto Onion Router, agora conhecido por sua sigla TOR. O roteamento de cebola refere-se ao processo de remoção de camadas de criptografia das comunicações da Internet, semelhante a descascar as camadas de uma cebola. As identidades e atividades de rede dos usuários do TOR são ocultadas por este software. TOR, e outros softwares como ele, oferece uma conexão anônima com a Deep Web. É, com efeito, o seu motor de busca Deep Web.

mas apesar de sua reputação back-alley há uma abundância de razões legítimas para usar TOR. Por um lado, o TOR permite que os usuários evitem a “análise de tráfego” e as ferramentas de monitoramento usadas pelos sites comerciais para determinar a localização dos usuários da web e a rede pela qual estão se conectando. Essas empresas podem usar essas informações para ajustar os preços ou até mesmo quais produtos e serviços disponibilizam.De acordo com o site do projeto Tor, o programa também permite que as pessoas ” criem um site onde as pessoas publiquem material sem se preocupar com a censura.”Embora isso não seja de forma alguma uma coisa boa ou ruim, a tensão entre censura e liberdade de expressão é sentida em todo o mundo. A Deep Web promove esse debate demonstrando o que as pessoas podem e farão para superar a censura política e social.

razões uma página é invisível

quando uma consulta de mecanismo de pesquisa comum volta sem resultados, isso não significa necessariamente que não há nada a ser encontrado. Uma página “invisível” não é necessariamente inacessível; simplesmente não é indexada por um mecanismo de pesquisa. Existem várias razões pelas quais uma página pode ser invisível. Lembre-se de que algumas páginas são apenas temporariamente invisíveis, possivelmente programadas para serem indexadas em uma data posterior.

muitos parâmetros

Motores tradicionalmente ignorados quaisquer páginas da Web cujas URLs ter uma longa seqüência de parâmetros e sinais de igual e pontos de interrogação, na chance de que eles vão duplicar o que está em seu banco de dados – ou pior – a aranha vai, de alguma forma, ir ao redor em círculos. Conhecida como” Shallow Web”, várias soluções alternativas foram desenvolvidas para ajudá-lo a acessar esse conteúdo.

entrada controlada por formulário que não é protegida por senha

neste caso, o conteúdo da página só é exibido quando um humano aplica um conjunto de ações, principalmente inserindo dados em um formulário (informações de consulta específicas, como critérios de trabalho para um mecanismo de pesquisa de emprego). Isso normalmente inclui bancos de dados que geram páginas sob demanda. O conteúdo aplicável inclui dados do setor de viagens (informações de voo, disponibilidade de hotéis), listas de empregos, bancos de dados de produtos, patentes, informações governamentais acessíveis ao público, definições de dicionário, leis, dados do mercado de ações, listas telefônicas e diretórios profissionais.

acesso Passworded, assinaturas ou não-assinaturas. Isso inclui VPN (redes privadas virtuais) e qualquer site onde as páginas exigem um nome de usuário e senha. O acesso pode ou não ser por assinatura paga. O conteúdo aplicável inclui bancos de dados acadêmicos e corporativos, conteúdo de jornais ou periódicos e assinaturas de bibliotecas acadêmicas. acesso cronometrado

em alguns sites, como as principais fontes de notícias, como o New York Times, o conteúdo gratuito fica inacessível após um certo número de visualizações de página. Os mecanismos de pesquisa retêm o URL, mas a página gera um formulário de inscrição e o conteúdo é movido para um novo URL que requer uma senha.

exclusão de robôs

os robôs.o arquivo txt, que geralmente vive no diretório principal de um site, informa aos robôs de pesquisa quais arquivos e diretórios não devem ser indexados. Daí o nome ” arquivo de exclusão de robôs.”Se este arquivo estiver configurado, ele impedirá que certas páginas sejam indexadas, o que será invisível para os pesquisadores. As plataformas de Blog geralmente oferecem esse recurso.

páginas ocultas

simplesmente não há sequência de cliques de hiperlink que possam levá-lo a essa página. As páginas são acessíveis, mas apenas para pessoas que sabem de sua existência.

mitos sobre a web invisível

drogas, pornografia e outras atividades ilegais são o aspecto mais falado da Deep Web por um motivo. Histórias sobre pessoas que compram heroína online usando Bitcoins, uma forma de moeda eletrônica ou vendendo armas internacionalmente fazem grandes manchetes. O que as pessoas não percebem é que há muito que a internet invisível tem a oferecer além da atividade ilegal. Estereótipos e histórias de bicho papão mantêm as pessoas longe da Deep Web quando, na verdade, há muitas razões maravilhosas para fazer uma visita. Em países como a China, onde os sites são bloqueados e a privacidade na internet é difícil de encontrar, há uma comunidade crescente de usuários que usam a Internet profunda para compartilhar informações e falar livremente. Navegadores como o TOR ainda são relativamente desconhecidos na China, mas o número de pessoas que usam o serviço está crescendo constantemente. Cidadãos da Turquia e de outros países politicamente tumultuados estão usando a Internet profunda para se reunir, planejar protestos e discutir notícias locais fora do olhar atento do governo.

Por Que o americano médio pode querer usar a Internet profunda? Apesar de sua fama de atividade ilegal, a Internet profunda é simplesmente qualquer coisa que não seja acessível por uma simples pesquisa no Google. Até 90% da internet só é acessível através de sites da deb. Usar o TOR em si não é ilegal, nem está acontecendo em muitos sites da deep web. A única atividade ilegal é o que seria ilegal no mundo real. Na deep web você pode encontrar livros raros e proibidos, ler notícias difíceis de encontrar e até fan fiction. A ideia de um velho oeste da internet está viva novamente usando a deep web.

como acessar e pesquisar conteúdo Invisível

se um site estiver inacessível por meios convencionais, ainda existem maneiras de acessar o conteúdo, se não as páginas reais. Além de softwares como o TOR, há várias entidades que permitem visualizar conteúdo da Deep Web, como universidades e instalações de pesquisa.

para conteúdo invisível que não pode ou não deve ser visível, ainda existem várias maneiras de obter acesso:

Associação

Junte-se a uma associação profissional ou de pesquisa que fornece acesso a registros, pesquisas e periódicos revisados por pares.

VPN

Acesse uma rede privada virtual por meio de um empregador

peça permissão

solicite acesso; isso pode ser tão simples quanto um registro gratuito.

Serviços de assinatura

pague por uma assinatura de um periódico ou outro recurso cujo trabalho você deseja suportar.

encontre um recurso adequado

Use um diretório da Web invisível, portal ou mecanismo de pesquisa especializado, como pesquisa de Livros do Google ou Índice de Internet do bibliotecário.

usando a Deep Web na educação

então, onde você, como educador, entra? A deep web pode ser usada para encontrar informações que você não poderia acessar por meio de uma simples pesquisa no Google, e que podem ser imensamente úteis para seus alunos e colegas.

“vencer estereótipos e mostrar o uso de pesquisas profundas na web é uma perspectiva empolgante para os alunos-eles podem ver que a internet é muito maior do que as mídias sociais e as pesquisas típicas do Google ou Yahoo que estão acostumadas a usar para projetos e ensaios escolares.”

o que as pessoas não entendem é o que exatamente constitui informações da deep web. Revistas e livros que só podem ser acessados por meio de um site de biblioteca universitária não podem ser encontrados no Google, bem como sites que desativaram a capacidade de serem pesquisados por meio de um mecanismo de pesquisa. Para os alunos que precisam desse firewalled, a capacidade de pesquisar em sites da deep web torna-se uma ferramenta útil para a escola e além.

mostre aos alunos o uso em encontrar mecanismos de pesquisa ocultos e que tipo de informação pode ser encontrada por meio deles. Vencer estereótipos e mostrar o uso de pesquisas profundas na web é uma perspectiva empolgante para os alunos — eles podem ver que a internet é muito maior do que as mídias sociais e as pesquisas típicas do Google ou Yahoo que estão acostumadas a usar para projetos e ensaios escolares. Sua biblioteca local pode ser uma fonte de toneladas de informações não pesquisáveis e, por meio de sua biblioteca, você pode utilizar fontes como JSTOR e JURN. Para saber mais sobre como usar fontes da deep web, confira O Livro indo além do Google: The Invisible Web in Learning and Teaching de Jane Devine e Francine Egger-sider.

Ferramentas de pesquisa da Web invisíveis

aqui está uma pequena amostra de ferramentas de pesquisa da web invisíveis (diretórios, portais, mecanismos) para ajudá-lo a encontrar conteúdo invisível. Para ver mais como estes, por favor, olhe para a nossa pesquisa além do artigo do Google.

Uma Lista de Profunda Motores de Busca da Web

Purdue da Coruja Recursos para Pesquisar a Web Invisível

Artigo

Musie du Louvre

Books Online

Livros On-line Página

Económicas e de Emprego de Dados

FreeLunch.com

Finanças e Investimento

Bankrate.com

pesquisa geral

catálogo de publicações do governo dos EUA do GPO

dados do Governo

My Race