La guida definitiva al Web invisibile | OEDB.org

I motori di ricerca sono, in un certo senso, il battito del cuore di Internet; “Googling” è diventato parte del linguaggio quotidiano ed è persino riconosciuto da Merriam-Webster come un verbo grammaticalmente corretto. È un malinteso comune, tuttavia, che Googling un termine di ricerca rivelerà ogni sito là fuori che affronta la tua ricerca. I motori di ricerca tipici come Google, Yahoo o Bing accedono effettivamente solo a una piccola frazione-stimata allo 0,03% – di Internet. I siti che le ricerche tradizionali producono fanno parte di ciò che è noto come Surface Web, che è composto da pagine indicizzate che i crawler Web di un motore di ricerca sono programmati per recuperare.

“Fino al 90 per cento di internet è accessibile solo attraverso siti web deb.”

Allora, dov’e ‘ il resto? La stragrande maggioranza di Internet si trova nel Deep Web, a volte indicato come il Web invisibile. La dimensione effettiva del Deep Web è impossibile da misurare, ma molti esperti stimano che sia circa 500 volte la dimensione del web come lo conosciamo.

Allora, qual è il Deep Web, esattamente? Le pagine Web profonde funzionano proprio come qualsiasi altro sito online, ma sono costruite in modo che la loro esistenza sia invisibile ai crawler. Mentre notizie recenti, come il busto del famigerato sito di traffico di droga Silk Road e gli imbrogli della NSA di Edward Snowden, hanno messo in luce l’esistenza del Deep Web, è ancora in gran parte frainteso.

I motori di ricerca e il Web di superficie

Capire come le pagine di superficie sono indicizzate dai motori di ricerca può aiutare a capire che cosa il Deep Web è tutto. Nei primi tempi, la potenza di calcolo e lo spazio di archiviazione erano così elevati che i motori di ricerca indicizzavano un numero minimo di pagine, spesso memorizzando solo contenuti parziali. La metodologia alla base della ricerca rifletteva le intenzioni degli utenti; i primi utenti di Internet generalmente cercavano la ricerca, quindi i primi motori di ricerca indicizzavano semplici query che studenti o altri ricercatori probabilmente avrebbero fatto. I risultati della ricerca consistevano in contenuti effettivi che un motore di ricerca aveva memorizzato.

Nel corso del tempo, l’avanzamento della tecnologia ha reso redditizio per i motori di ricerca fare un lavoro più approfondito di indicizzazione dei contenuti del sito. I web crawler di oggi, o spider, utilizzano sofisticati algoritmi per raccogliere i dati delle pagine da pagine con collegamento ipertestuale. Questi robot manovrano la loro strada attraverso tutti i dati collegati su Internet, guadagnandosi il loro soprannome spidery. Ogni sito surface è indicizzato dai metadati raccolti dai crawler. Questi metadati, costituiti da elementi come il titolo della pagina, la posizione della pagina (URL) e le parole chiave ripetute utilizzate nel testo, occupano molto meno spazio rispetto al contenuto effettivo della pagina. Invece del dump contenuto memorizzato nella cache del vecchio, motori di ricerca di oggi in modo rapido ed efficiente gli utenti diretti a siti web che sono rilevanti per le loro query.

Per avere un’idea di come i motori di ricerca sono migliorati nel tempo, la ripartizione interattiva di Google “Come funziona la ricerca” descrive in dettaglio tutti i fattori in gioco in ogni ricerca di Google. In una vena simile, Moz.com ‘ s timeline dell’algoritmo del motore di ricerca di Google vi darà un’idea di come senza sosta gli sforzi sono stati per affinare le ricerche. Come questi sforzi impatto sul Deep Web non è esattamente chiaro. Ma è ragionevole supporre che se i principali motori di ricerca continuano a migliorare, gli utenti web ordinari saranno meno propensi a cercare ricerche Web profonde arcane.

In che modo il Deep Web è invisibile ai motori di ricerca?

Motori di ricerca come Google sono estremamente potenti ed efficaci a distillare up-to-the-moment contenuti web. Ciò che manca, tuttavia, è la capacità di indicizzare la grande quantità di dati che non è hyperlink, e quindi immediatamente accessibile a un crawler web. Questo può o non può essere intenzionale; ad esempio, il contenuto dietro un paywall o un post sul blog che è scritto ma non ancora pubblicato entrambi tecnicamente risiedono nel Deep Web.

Alcuni esempi di altri contenuti Deep Web includono:

Dati a cui è necessario accedere da un’interfaccia di ricerca
Risultati di query di database
Informazioni solo in abbonamento e altri dati protetti da password
Pagine che non sono collegate da nessun’altra pagina
Contenuti tecnicamente limitati, come quelli che richiedono tecnologia
Contenuti di testo di http convenzionale:// o https:// protocolli

Mentre la scala e la diversità del Deep Web sono sconcertanti, è notorietà – e appello – deriva dal fatto che gli utenti sono anonimi sul Deep Web, e così sono le loro attività. Per questo motivo, è stato uno strumento importante per i governi; il Naval Research laboratory degli Stati Uniti ha lanciato per la prima volta strumenti di intelligence per l’uso del Deep Web nel 2003.

Sfortunatamente, questo anonimato ha creato un terreno fertile per elementi criminali che approfittano dell’opportunità di nascondere attività illecite. Pornografia illegale, droghe, armi e passaporti sono solo alcuni degli articoli disponibili per l’acquisto sul Deep Web. Tuttavia, l’esistenza di siti come questi non significa che il Deep Web sia intrinsecamente malvagio; l’anonimato ha il suo valore e molti utenti preferiscono semplicemente operare all’interno di un sistema irrintracciabile in linea di principio.

“L’anonimato ha il suo valore e molti utenti preferiscono semplicemente operare all’interno di un sistema irrintracciabile in linea di principio.”

Proprio come i contenuti Deep Web non possono essere tracciati dai web crawler, non è possibile accedervi anche tramite mezzi convenzionali. Lo stesso gruppo di ricerca navale per sviluppare strumenti di raccolta di intelligence ha creato il progetto Onion Router, ora noto con il suo acronimo TOR. Onion routing si riferisce al processo di rimozione dei livelli di crittografia dalle comunicazioni Internet, simile a peeling indietro gli strati di una cipolla. Le identità e le attività di rete degli utenti TOR sono nascoste da questo software. TOR, e altri software simili, offre una connessione anonima al Deep Web. È, in effetti, il tuo motore di ricerca Deep Web.

Ma nonostante la sua reputazione back-alley ci sono un sacco di motivi legittimi per utilizzare TOR. Per uno, TOR consente agli utenti di evitare “analisi del traffico” e gli strumenti di monitoraggio utilizzati dai siti commerciali per determinare la posizione degli utenti web e la rete che si connettono attraverso. Queste aziende possono quindi utilizzare queste informazioni per regolare i prezzi, o anche quali prodotti e servizi che mettono a disposizione.

Secondo il sito del progetto Tor, il programma consente anche alle persone di ” Creare un sito Web in cui le persone pubblicano materiale senza preoccuparsi della censura.”Anche se questa non è affatto una chiara cosa buona o cattiva, la tensione tra censura e libertà di parola è sentita in tutto il mondo. Il Deep Web promuove questo dibattito dimostrando ciò che le persone possono e faranno per superare la censura politica e sociale.

Motivi per cui una pagina è invisibile

Quando una normale query del motore di ricerca ritorna senza risultati, ciò non significa necessariamente che non ci sia nulla da trovare. Una pagina “invisibile” non è necessariamente inaccessibile; semplicemente non è indicizzata da un motore di ricerca. Ci sono diversi motivi per cui una pagina può essere invisibile. Tieni presente che alcune pagine sono solo temporaneamente invisibili, possibilmente previste per essere indicizzate in un secondo momento.

Troppi parametri

I motori hanno tradizionalmente ignorato qualsiasi pagina Web i cui URL hanno una lunga serie di parametri e segni uguali e punti interrogativi, nella remota possibilità che duplichino ciò che è nel loro database – o peggio – il ragno in qualche modo andrà in giro in tondo. Conosciuto come “Shallow Web”, sono state sviluppate una serie di soluzioni alternative per aiutarti ad accedere a questo contenuto.

Voce controllata dal modulo che non è protetta da password

In questo caso, il contenuto della pagina viene visualizzato solo quando un essere umano applica una serie di azioni, per lo più inserendo dati in un modulo (informazioni di query specifiche, come i criteri di lavoro per un motore di ricerca di lavoro). Questo in genere include database che generano pagine su richiesta. Il contenuto applicabile include i dati del settore dei viaggi (informazioni sul volo, disponibilità dell’hotel), annunci di lavoro, database di prodotti, brevetti, informazioni governative accessibili al pubblico, definizioni di dizionari, leggi, dati sul mercato azionario, rubriche telefoniche e directory professionali.

Accesso con password, abbonamenti o non abbonamenti.

Questo include VPN (virtual Private networks) e qualsiasi sito web in cui le pagine richiedono un nome utente e una password. L’accesso può essere o meno tramite abbonamento a pagamento. Il contenuto applicabile include database accademici e aziendali, contenuti di giornali o riviste e abbonamenti a biblioteche accademiche.

Accesso a tempo

Su alcuni siti, come le principali fonti di notizie come il New York Times, i contenuti gratuiti diventano inaccessibili dopo un certo numero di visualizzazioni di pagina. I motori di ricerca mantengono l’URL, ma la pagina genera un modulo di iscrizione e il contenuto viene spostato in un nuovo URL che richiede una password.

Esclusione robot

I robot.il file txt, che di solito vive nella directory principale di un sito, dice ai robot di ricerca quali file e directory non devono essere indicizzati. Da qui il nome ” robots exclusion file.”Se questo file è impostato, bloccherà l’indicizzazione di determinate pagine, che saranno quindi invisibili ai ricercatori. Piattaforme blog offrono comunemente questa funzione.

Pagine nascoste

Semplicemente non esiste una sequenza di clic sul collegamento ipertestuale che possa portarti a una pagina del genere. Le pagine sono accessibili, ma solo a persone che conoscono la loro esistenza.

Miti sul web invisibile

Droghe, pornografia e altre attività illegali sono l’aspetto più parlato del Deep Web per una ragione. Storie di persone che acquistano eroina online usando Bitcoin, una forma di valuta elettronica o vendono armi a livello internazionale fanno notizia.

Ciò che la gente non si rende conto è che c’è molto che Internet invisibile ha da offrire oltre alle attività illegali. Stereotipi e storie boogeyman tenere le persone lontano dal Web profondo quando ci sono in realtà molti dei motivi meravigliosi per pagare una visita. In paesi come la Cina, dove i siti Web sono bloccati e la privacy su Internet è difficile da trovare, c’è una crescente comunità di utenti che usano Internet profondo per condividere informazioni e parlare liberamente. Browser come TOR sono ancora relativamente sconosciuti in Cina, ma il numero di persone che utilizzano il servizio è in costante crescita. I cittadini in Turchia e in altri paesi politicamente tumultuosi stanno usando il deep Internet per riunirsi, pianificare proteste e discutere notizie locali al di fuori dell’occhio vigile del governo.

Perché l’americano medio potrebbe voler usare il deep internet? Nonostante la sua fama da attività illegali, il deep internet è semplicemente tutto ciò che non è accessibile da una semplice ricerca su Google. Fino al 90 per cento di internet è accessibile solo attraverso siti web deb. L’utilizzo di TOR stesso non è illegale, né sta succedendo su molti siti Web deep web. L’unica attività illegale è ciò che sarebbe illegale nel mondo reale. Sul deep web puoi trovare libri rari e vietati, leggere notizie difficili da trovare e persino fan fiction. L’idea di un selvaggio west di Internet è di nuovo vivo utilizzando il deep web.

Come accedere e cercare contenuti invisibili

Se un sito è inaccessibile con mezzi convenzionali, ci sono ancora modi per accedere al contenuto, se non alle pagine reali. Oltre a software come TOR, ci sono un certo numero di entità che rendono possibile visualizzare contenuti Deep Web, come università e strutture di ricerca.

Per i contenuti invisibili che non possono o non devono essere visibili, ci sono ancora diversi modi per ottenere l’accesso:

Appartenenza

Unisciti a un’associazione professionale o di ricerca che fornisce l’accesso a record, ricerche e riviste peer-reviewed.

VPN

Accedi a una rete privata virtuale tramite un datore di lavoro

Chiedi il permesso

Richiedi l’accesso; questo potrebbe essere semplice come una registrazione gratuita.

Servizi in abbonamento

Pagare per un abbonamento a un periodico o altra risorsa il cui lavoro si desidera sostenere.

Trova una risorsa adatta

Utilizza una directory Web invisibile, un portale o un motore di ricerca specializzato come Google Book Search o l’indice Internet del bibliotecario.

Utilizzo del Deep Web nell’educazione

Quindi dove entri, come educatore? Il deep web può essere utilizzato per trovare informazioni che altrimenti non si potrebbe accedere attraverso una semplice ricerca su Google, e che può rivelarsi incommensurabilmente utile per i vostri studenti e colleghi.

“Battere gli stereotipi e mostrare l’uso delle ricerche deep web è una prospettiva eccitante per gli studenti can possono vedere che Internet è molto più grande dei social media e delle tipiche ricerche di Google o Yahoo che sono abituati a usare per progetti scolastici e saggi.”

Ciò che la gente non capisce è ciò che costituisce esattamente informazioni deep web. Riviste e libri a cui è possibile accedere solo attraverso un sito Web della biblioteca universitaria non sono reperibili tramite Google, così come i siti che hanno disattivato la possibilità di essere cercati attraverso un motore di ricerca. Per gli studenti che hanno bisogno che firewalled, la possibilità di cercare su siti web deep web diventa uno strumento utile per la scuola e non solo.

Mostra agli studenti l’uso nella ricerca di motori di ricerca nascosti e che tipo di informazioni possono essere trovate attraverso di loro. Battere gli stereotipi e mostrare l’uso delle ricerche deep web è una prospettiva entusiasmante per gli studenti: possono vedere che Internet è molto più grande dei social media e delle tipiche ricerche di Google o Yahoo che sono abituati a utilizzare per progetti scolastici e saggi. La tua libreria locale può essere una fonte di tonnellate di informazioni non Googleable e, attraverso la tua libreria, potresti essere in grado di utilizzare fonti come JSTOR e JURN. Per ulteriori informazioni su come utilizzare le fonti web profonde, controlla il libro Going Beyond Google: The Invisible Web in Learning and Teaching di Jane Devine e Francine Francer-Sider.

Strumenti di ricerca Web invisibili

Ecco un piccolo campionamento di strumenti di ricerca web invisibili (directory, portali, motori) per aiutarti a trovare contenuti invisibili. Per vedere di più come questi, si prega di guardare la nostra ricerca Al di là di Google articolo.

Un elenco di motori di ricerca Deep Web

Le risorse di Purdue Owl per cercare il Web invisibile

Arte

Musie du Louvre

Libri online

La pagina dei libri online

Dati economici e occupazionali

FreeLunch.com

Finanza e investimenti

Bankrate.com

Ricerca generale

Catalogo GPO delle pubblicazioni del governo degli Stati Uniti

Dati governativi

My Race

The Ultimate Guide to the Invisible Web