De Ultieme Gids Voor het onzichtbare Web | OEDB.org

zoekmachines zijn, in zekere zin, de hartslag van het internet; “Googlen” is een onderdeel geworden van alledaagse spraak en wordt zelfs door Merriam-Webster herkend als een grammaticaal correct werkwoord. Het is een veel voorkomende misvatting, echter, dat Googlen een zoekterm zal onthullen elke site die er is dat uw zoekopdracht adressen. Typische zoekmachines zoals Google, Yahoo, of Bing eigenlijk toegang tot slechts een klein deel — geschat op 0,03% – van het internet. De sites die traditionele zoekopdrachten opbrengst zijn onderdeel van wat bekend staat als de oppervlakte Web, die bestaat uit geïndexeerde pagina ‘ s die web crawlers van een zoekmachine zijn geprogrammeerd om op te halen.

“maar liefst 90 procent van het internet is alleen toegankelijk via deb websites.”

waar is de rest? Het overgrote deel van het Internet ligt in het Deep Web, soms aangeduid als het onzichtbare Web. De werkelijke grootte van het diepe Web is onmogelijk te meten, maar veel deskundigen schatten dat het ongeveer 500 keer zo groot is als het web zoals wij het kennen.

Wat is het Deep Web precies? Deep webpagina ‘ s werken net als elke andere site online, maar ze zijn zo gebouwd dat hun bestaan is onzichtbaar voor crawlers. Terwijl recent nieuws, zoals de buste van de beruchte drugssite Silk Road en Edward Snowden ‘ s NSA shenanigans, het bestaan van het Deep Web hebben belicht, wordt het nog steeds grotendeels verkeerd begrepen.

zoekmachines en het Surface Web

begrijpen hoe surface-pagina ‘ s worden geïndexeerd door zoekmachines kan u helpen begrijpen waar het Deep Web over gaat. In de vroege dagen, rekenkracht en opslagruimte was op een dergelijke premie dat zoekmachines geïndexeerd een minimaal aantal pagina ‘ s, vaak opslaan van slechts gedeeltelijke inhoud. De methodologie achter het zoeken weerspiegelde de intenties van gebruikers; vroege internetgebruikers zochten over het algemeen onderzoek, dus de eerste zoekmachines indexeerden eenvoudige vragen die studenten of andere onderzoekers waarschijnlijk zouden maken. Zoekresultaten bestonden uit werkelijke inhoud die een zoekmachine had opgeslagen.In de loop van de tijd maakte de geavanceerde technologie het voor zoekmachines rendabel om de inhoud van de site grondiger te indexeren. De huidige webcrawlers, of spiders, gebruiken geavanceerde algoritmen om paginagegevens te verzamelen van hyperlinkpagina ‘ s. Deze robots manoeuvreren zich een weg door alle gelinkte data op het Internet, en verdienen hun spidery bijnaam. Elke surface site wordt geïndexeerd door metadata die crawlers verzamelen. Deze metadata, bestaande uit elementen zoals paginatitel, paginalocatie (URL) en herhaalde trefwoorden die in de tekst worden gebruikt, neemt veel minder ruimte in beslag dan de werkelijke pagina-inhoud. In plaats van de cache inhoud dump van oude, hedendaagse zoekmachines snel en efficiënt direct gebruikers naar websites die relevant zijn voor hun vragen zijn.

om een idee te krijgen van hoe de zoekmachines in de loop van de tijd zijn verbeterd, geeft Google ‘ s interactieve uitsplitsing “hoe Zoeken werkt” een overzicht van alle factoren die spelen in elke Google-zoekopdracht. In een soortgelijke geest, Moz.com ’s tijdlijn van Google’ s zoekmachine algoritme geeft u een idee van hoe non-stop de inspanningen zijn geweest om zoekopdrachten te verfijnen. Hoe deze inspanningen het Deep Web beïnvloeden is niet precies duidelijk. Maar het is redelijk om aan te nemen dat als grote zoekmachines blijven verbeteren, gewone webgebruikers zullen minder kans om te zoeken naar mysterieuze Deep Web zoekopdrachten.

Hoe is het Deep Web onzichtbaar voor zoekmachines?

zoekmachines zoals Google zijn zeer krachtig en effectief in het distilleren van up-to-the-moment webinhoud. Wat ze echter missen, is de mogelijkheid om de enorme hoeveelheid gegevens te indexeren die niet is hyperlinkt, en daarom onmiddellijk toegankelijk is voor een webcrawler. Dit kan al dan niet opzettelijk zijn; bijvoorbeeld, inhoud achter een paywall of een blog post die is geschreven maar nog niet gepubliceerd beide technisch bevinden zich in de Deep Web.

enkele voorbeelden van andere Deep Web content zijn::

gegevens die toegankelijk moeten zijn via een zoekinterface
resultaten van databasevragen
alleen abonnementsinformatie en andere met een wachtwoord beveiligde gegevens
pagina ‘ s waaraan geen andere pagina is gekoppeld
technisch beperkte inhoud, zoals die waarvoor technologie vereist is
tekstinhoud die buiten de conventionele http:// of https bestaat:// protocols

hoewel de schaal en diversiteit van het Deep Web verbluffend zijn, komt de bekendheid – en aantrekkingskracht – voort uit het feit dat gebruikers anoniem zijn op het Deep Web, en zo ook hun activiteiten. Hierdoor is het een belangrijk hulpmiddel voor overheden geweest; het Amerikaanse Naval research laboratory lanceerde voor het eerst intelligence tools voor Deep Web gebruik in 2003.

helaas heeft deze anonimiteit een broedplaats gecreëerd voor criminele elementen die gebruik maken van de mogelijkheid om illegale activiteiten te verbergen. Illegale pornografie, drugs, wapens en paspoorten zijn slechts een paar van de items die beschikbaar zijn voor aankoop op het Deep Web. Echter, het bestaan van sites als deze betekent niet dat het Deep Web is inherent kwaad; anonimiteit heeft zijn waarde, en veel gebruikers gewoon de voorkeur aan werken binnen een onvindbaar systeem uit Principe.

“anonimiteit heeft zijn waarde, en veel gebruikers gewoon de voorkeur aan werken binnen een onvindbaar systeem uit Principe.”

net zoals Deep Web content niet kan worden getraceerd door web crawlers, het kan ook niet worden benaderd via conventionele middelen. Dezelfde Naval research group om intelligence-verzamelen tools te ontwikkelen creëerde de Onion Router Project, nu bekend onder de afkorting TOR. Onion routing verwijst naar het proces van het verwijderen van encryptie lagen van internetcommunicatie, vergelijkbaar met peeling terug de lagen van een ui. Tor gebruikers’ identiteiten en netwerkactiviteiten worden verborgen door deze software. TOR, en andere software zoals het, biedt een anonieme verbinding met het Deep Web. Het is, in feite, uw Deep Web zoekmachine.

maar ondanks zijn reputatie in de achterbuurt zijn er tal van legitieme redenen om TOR te gebruiken. Voor een, TOR laat gebruikers vermijden “traffic analysis” en de monitoring tools die worden gebruikt door commerciële sites om de locatie van webgebruikers en het netwerk dat ze verbinden door middel van te bepalen. Deze bedrijven kunnen deze informatie vervolgens gebruiken om de prijzen aan te passen, of zelfs welke producten en diensten ze beschikbaar stellen.

volgens de Tor-projectsite stelt het programma mensen ook in staat ” een website op te zetten waar mensen materiaal publiceren zonder zich zorgen te maken over censuur.”Hoewel dit geenszins een duidelijke goede of slechte zaak is, wordt de spanning tussen censuur en vrijheid van meningsuiting over de hele wereld gevoeld. Het Deep Web bevordert dat debat door te laten zien wat mensen kunnen en zullen doen om politieke en sociale censuur te overwinnen.

redenen waarom een pagina onzichtbaar is

wanneer een gewone zoekmachine terugkomt zonder resultaten, betekent dat niet noodzakelijkerwijs dat er niets te vinden is. Een “onzichtbare” pagina is niet per se ontoegankelijk; het is gewoon niet geïndexeerd door een zoekmachine. Er zijn verschillende redenen waarom een pagina onzichtbaar kan zijn. Houd er rekening mee dat sommige pagina ‘ s slechts tijdelijk onzichtbaar zijn, mogelijk gepland om later geïndexeerd te worden.

te veel parameters

Engines hebben traditioneel alle webpagina ’s genegeerd waarvan de URL’ s een lange reeks parameters en gelijke tekens en vraagtekens hebben, met de kans dat ze dupliceren wat er in hun database staat – of erger – zal de spin op de een of andere manier in cirkels gaan. Bekend als de” ondiepe Web, ” een aantal workarounds zijn ontwikkeld om u te helpen toegang te krijgen tot deze inhoud.

Form-controlled entry that ‘ s not password-protected

in dit geval wordt pagina-inhoud alleen weergegeven wanneer een mens een reeks acties toepast, meestal het invoeren van gegevens in een formulier (specifieke query-informatie, zoals taakcriteria voor een zoekmachine). Dit omvat meestal databases die pagina ‘ s op aanvraag te genereren. Toepasselijke inhoud omvat gegevens uit de reisindustrie (vluchtinformatie, beschikbaarheid van hotels), vacatures, productdatabases, patenten, openbaar toegankelijke overheidsinformatie, woordenboekdefinities, wetten, beursgegevens, telefoonboeken en professionele directory ‘ s.

toegang met wachtwoorden, abonnementen of niet-abonnementen.

dit omvat VPN (virtual private networks) en elke website waar Pagina ‘ s een gebruikersnaam en wachtwoord vereisen. Toegang kan al dan niet via betaald abonnement. Toepasselijke inhoud omvat academische en zakelijke databases, krant of tijdschrift inhoud, en academische bibliotheek abonnementen.

getimede toegang

op sommige sites, zoals belangrijke nieuwsbronnen zoals de New York Times, wordt vrije inhoud ontoegankelijk na een bepaald aantal pageviews. Zoekmachines behouden de URL, maar de pagina genereert een aanmeldformulier en de inhoud wordt verplaatst naar een nieuwe URL die een wachtwoord vereist.

Robots uitsluiting

de robots.txt-bestand, dat meestal in de hoofdmap van een site leeft, vertelt zoekrobots welke bestanden en mappen niet geïndexeerd moeten worden. Vandaar de naam “robots exclusion file.”Als dit bestand is ingesteld, zal het blokkeren van bepaalde pagina’ s worden geïndexeerd, die dan onzichtbaar voor zoekers. Blogplatforms bieden deze functie vaak aan.

verborgen pagina ‘ s

er is gewoon geen reeks hyperlink klikken die u naar een dergelijke pagina zou kunnen brengen. De pagina ‘ s zijn toegankelijk, maar alleen voor mensen die weten van hun bestaan.

mythes over het onzichtbare web

Drugs, pornografie en andere illegale activiteiten zijn niet voor niets het meest besproken aspect van het Deep Web. Verhalen over mensen die online heroïne kopen met behulp van Bitcoins, een vorm van elektronische valuta, of internationaal wapens verkopen, maken grote krantenkoppen.

wat mensen zich niet realiseren is dat het onzichtbare internet veel te bieden heeft naast illegale activiteiten. Stereotypen en boogeyman verhalen houden mensen weg van het Deep Web wanneer er eigenlijk veel van de prachtige redenen om het een bezoek te brengen. In landen als China, waar websites worden geblokkeerd en internetprivacy moeilijk te verkrijgen is, is er een groeiende gemeenschap van gebruikers die het diepe internet gebruiken om informatie te delen en vrij te spreken. Browsers zoals TOR zijn nog steeds relatief onbekend in China, maar het aantal mensen dat gebruik maakt van de dienst groeit gestaag. Burgers in Turkije en andere politiek tumultueuze landen gebruiken Het deep internet om samen te komen, protesten te plannen en lokaal nieuws te bespreken buiten het waakzame oog van de regering.

waarom zou de gemiddelde Amerikaan het deep internet willen gebruiken? Ondanks zijn roem van illegale activiteiten, het diepe internet is gewoon alles wat niet toegankelijk is door een eenvoudige Google-zoekopdracht. Maar liefst 90 procent van het internet is alleen toegankelijk via deb websites. Het gebruik van TOR zelf is niet illegaal, noch gaat op veel deep web websites. De enige illegale activiteit is wat illegaal zou zijn in de echte wereld. Op het deep web kun je zeldzame en Verboden Boeken vinden, moeilijk te vinden nieuws lezen, en zelfs fanfictie. Het idee van een wild westen van het internet leeft weer met behulp van het deep web.

hoe toegang te krijgen tot en zoeken naar onzichtbare inhoud

als een site op conventionele wijze ontoegankelijk is, zijn er nog steeds manieren om toegang te krijgen tot de inhoud, zo niet de werkelijke pagina ‘ s. Afgezien van software zoals TOR, zijn er een aantal entiteiten die het mogelijk maken om Deep Web content te bekijken, zoals universiteiten en onderzoeksfaciliteiten.

voor onzichtbare inhoud die niet zichtbaar kan of mag zijn, zijn er nog steeds een aantal manieren om toegang te krijgen:

lidmaatschap

lid worden van een beroeps-of onderzoeksvereniging die toegang biedt tot records, onderzoek en peer-reviewed tijdschriften.

VPN

toegang tot een virtueel particulier netwerk via een werkgever

toestemming vragen

toegang aanvragen; dit kan zo eenvoudig zijn als een gratis registratie.

abonnementsdiensten

betaal voor een abonnement op een tijdschrift of andere bron waarvan u het werk wilt ondersteunen.

zoek een geschikte bron

gebruik een onzichtbare webmap, portal of gespecialiseerde zoekmachine zoals Google Book Search of Librarian ‘ s Internet Index.

gebruikmakend van het Deep Web in het onderwijs

dus wat doet u als opvoeder? Het deep web kan worden gebruikt om informatie te vinden die u anders niet zou kunnen openen via een eenvoudige Google-zoekopdracht, en die onmetelijk nuttig kan zijn voor uw studenten en collega ‘ s.

“stereotypen verslaan en het gebruik van deep web zoekopdrachten laten zien is een spannend vooruitzicht voor studenten — ze kunnen zien dat het internet zoveel groter is dan sociale media en de typische Google of Yahoo zoekopdrachten die ze gewend zijn te gebruiken voor schoolprojecten en essays.”

wat mensen niet begrijpen is wat precies deep web informatie vormt. Tijdschriften en boeken die alleen toegankelijk zijn via een website van de Universiteitsbibliotheek zijn niet vindbaar via Google, evenals sites die de mogelijkheid hebben uitgeschakeld om te worden doorzocht via een zoekmachine. Voor studenten die behoefte hebben aan dat firewall, de mogelijkheid om te zoeken op deep web websites wordt een nuttig hulpmiddel voor school en daarbuiten.

toon leerlingen het gebruik bij het vinden van verborgen zoekmachines, en wat voor soort informatie er via hen gevonden kan worden. Het verslaan van stereotypen en het tonen van het gebruik van deep web zoekopdrachten is een spannend vooruitzicht voor studenten — ze kunnen zien dat het internet is zo veel groter dan sociale media en de typische Google of Yahoo zoekopdrachten die ze gewend zijn om te gebruiken voor schoolprojecten en essays. Uw lokale bibliotheek kan een bron van tonnen niet-Googleable informatie, en via uw bibliotheek, kunt u in staat zijn om bronnen zoals JSTOR en JURN te gebruiken. Voor meer informatie over het gebruik van deep web sources, bekijk het boek Going Beyond Google: The Invisible Web in Learning and Teaching van Jane Devine en Francine Egger-Sider.

Invisible Web Search Tools

hier is een kleine steekproef van invisible Web search tools (directory ‘ s, portals, engines) om u te helpen onzichtbare inhoud te vinden. Om meer van deze te zien, kijk dan op ons onderzoek buiten Google artikel.

a List of Deep Web Search Engines

Purdue Owl ‘ s Resources to Search the Invisible Web

Art

Musie du Louvre

Books Online

The Online Books Page

Economic and Job Data

FreeLunch.com

financiering en Investeringen

Bankrate.com

algemeen onderzoek

GPO ‘ s Catalog of US Government Publications

overheidsgegevens

My Race

The Ultimate Guide to The Invisible Web