Den ultimata guiden till den osynliga webben

sökmotorer är på sätt och vis hjärtslag på internet; ”Googling” har blivit en del av vardagligt tal och erkänns till och med av Merriam-Webster som ett grammatiskt korrekt verb. Det är en vanlig missuppfattning, men att googla en sökterm kommer att avslöja varje webbplats där ute som adresserar din sökning. Typiska sökmotorer som Google, Yahoo eller Bing har faktiskt bara tillgång till en liten bråkdel — uppskattad till 0.03% — av internet. De webbplatser som traditionella sökningar avkastning är en del av vad som kallas Surface Web, som består av indexerade sidor som en sökmotor sökrobotar är programmerade att hämta.

”så mycket som 90 procent av internet är endast tillgängligt via deb-webbplatser.”

så var är resten? Den stora majoriteten av Internet ligger i den djupa webben, ibland kallad den osynliga webben. Den faktiska storleken på den djupa banan är omöjlig att mäta, men många experter uppskattar att den är cirka 500 gånger storleken på webben som vi känner den.

så vad är den djupa webben, exakt? Djupa webbsidor fungerar precis som alla andra webbplatser online, men de är konstruerade så att deras existens är osynlig för sökrobotar. Medan de senaste nyheterna, som bysten på den ökända narkotikahandelsplatsen Silk Road och Edward Snowdens NSA-shenanigans, har spotlighted Deep Webs existens, är det fortfarande i stor utsträckning missförstått.

sökmotorer och Surface Web

att förstå hur surface-sidor indexeras av sökmotorer kan hjälpa dig att förstå vad Deep Web handlar om. I början var datorkraft och lagringsutrymme till en sådan premie att sökmotorer indexerade ett minimalt antal sidor och ofta bara lagrade delvis innehåll. Metoden bakom sökning återspeglade användarnas avsikter; tidiga Internetanvändare sökte i allmänhet forskning, så de första sökmotorerna indexerade enkla frågor som studenter eller andra forskare sannolikt skulle göra. Sökresultaten bestod av faktiskt innehåll som en sökmotor hade lagrat.

med tiden gjorde avancerad teknik det lönsamt för sökmotorer att göra ett mer grundligt jobb med indexering av webbplatsinnehåll. Dagens sökrobotar, eller spindlar, använder sofistikerade algoritmer för att samla in siddata från hyperlänkade sidor. Dessa robotar manövrerar sig igenom alla länkade data på Internet och tjänar sitt spindelnamn. Varje surface-webbplats indexeras av metadata som sökrobotar samlar in. Denna metadata, som består av element som sidtitel, sidplats (URL) och upprepade nyckelord som används i text, tar upp mycket mindre utrymme än det faktiska sidinnehållet. I stället för den cachade innehållsdumpen av gamla, leder dagens sökmotorer snabbt och effektivt användare till webbplatser som är relevanta för deras frågor.

för att få en känsla av hur sökmotorer har förbättrats över tiden, Googles interaktiva uppdelning ”hur Sök fungerar” Detaljer alla faktorer som spelar i varje Google-sökning. På liknande sätt, Moz.com tidslinjen för Googles sökmotoralgoritm ger dig en uppfattning om hur nonstop ansträngningarna har varit att förfina sökningar. Hur dessa ansträngningar påverkar Deep Web är inte exakt klart. Men det är rimligt att anta att om stora sökmotorer fortsätta att förbättra, vanliga webbanvändare kommer att vara mindre benägna att söka svårbegripliga djupa webbsökningar.

hur är den djupa webben osynlig för sökmotorer?

sökmotorer som Google är extremt kraftfulla och effektiva för att destillera aktuellt webbinnehåll. Vad de saknar är dock möjligheten att indexera den stora mängden data som inte är hyperlänkad och därför omedelbart tillgänglig för en webbsökare. Detta kan eller inte kan vara avsiktligt; till exempel innehåll bakom en betalvägg eller ett blogginlägg som är skrivet men ännu inte publicerat både tekniskt bor i Deep Web.

några exempel på annat djupt webbinnehåll inkluderar:

Data som behöver nås av ett sökgränssnitt
resultat av databasfrågor
endast prenumerationsinformation och annan lösenordsskyddad data
sidor som inte är länkade till någon annan sida
Tekniskt begränsat innehåll, till exempel det som kräver teknik
textinnehåll som finns utanför av konventionell http:// eller https:// protokoll

medan omfattningen och mångfalden på Deep Web är svindlande, är det ökändhet – och överklagande – kommer från det faktum att användarna är anonyma på Deep Web, och det är också deras aktiviteter. På grund av detta har det varit ett viktigt verktyg för regeringar; US Naval research laboratory lanserade först intelligensverktyg för djup webbanvändning 2003.

tyvärr har denna anonymitet skapat en grogrund för kriminella element som utnyttjar möjligheten att dölja olaglig verksamhet. Olaglig pornografi, droger, vapen och pass är bara några av de artiklar som finns att köpa på Deep Web. Förekomsten av webbplatser som dessa betyder dock inte att den djupa webben i sig är ond; anonymitet har sitt värde, och många användare föredrar helt enkelt att fungera inom ett ospårbart system i princip.

”anonymitet har sitt värde, och många användare föredrar helt enkelt att fungera inom ett ospårbart system i princip.”

precis som djupt webbinnehåll inte kan spåras av webbsökare, kan det inte också nås via konventionella medel. Samma Marinforskningsgrupp för att utveckla intelligensinsamlingsverktyg skapade Onion Router Project, nu känt av dess akronym TOR. Lök routing hänvisar till processen att ta bort krypteringslager från Internetkommunikation, liknar peeling tillbaka lagren av en lök. Tor användarnas identiteter och nätverksaktiviteter döljs av denna programvara. TOR, och annan programvara som den, erbjuder en anonym anslutning till Deep Web. Det är i själva verket din djupa webbsökmotor.

men trots sitt bakgata rykte finns det gott om legitima skäl att använda TOR. För det första låter Tor användare undvika ”trafikanalys” och övervakningsverktygen som används av kommersiella webbplatser för att bestämma webbanvändarnas plats och nätverket de ansluter via. Dessa företag kan sedan använda denna information för att justera prissättningen, eller till och med vilka produkter och tjänster de gör tillgängliga.

enligt tor-projektets webbplats tillåter programmet också människor att ” skapa en webbplats där människor publicerar material utan att oroa sig för censur.”Även om detta inte alls är en tydlig bra eller dålig sak, känns spänningen mellan censur och yttrandefrihet över hela världen. Den djupa webben främjar den debatten genom att visa vad människor kan och kommer att göra för att övervinna politisk och social censur.

anledningar till att en sida är osynlig

när en vanlig sökmotorfråga kommer tillbaka utan resultat betyder det inte nödvändigtvis att det inte finns något att hitta. En” osynlig ” sida är inte nödvändigtvis otillgänglig; den indexeras helt enkelt inte av en sökmotor. Det finns flera anledningar till varför en sida kan vara osynlig. Tänk på att vissa sidor endast är tillfälligt osynliga, eventuellt planerade att indexeras vid ett senare tillfälle.

för många parametrar

motorer har traditionellt ignorerat alla webbsidor vars webbadresser har en lång rad parametrar och lika tecken och frågetecken, på chansen att de kommer att duplicera vad som finns i deras databas – eller värre – spindeln kommer på något sätt att gå runt i cirklar. Känd som” Shallow Web ” har ett antal lösningar utvecklats för att hjälpa dig att komma åt detta innehåll.

Formulärstyrd post som inte är lösenordsskyddad

i det här fallet visas sidinnehåll bara när en människa tillämpar en uppsättning åtgärder, mestadels matar in data i ett formulär (specifik frågeinformation, till exempel jobbkriterier för en jobbsökmotor). Detta inkluderar vanligtvis databaser som genererar sidor på begäran. Tillämpligt innehåll inkluderar resebranschdata (flyginformation, hotelltillgänglighet), platsannonser, produktdatabaser, patent, offentligt tillgänglig regeringsinformation, ordboksdefinitioner, lagar, aktiemarknadsdata, telefonböcker och professionella kataloger.

Lösenordstillträde, prenumerationer eller icke-Prenumerationer.

detta inkluderar VPN (virtuella privata nätverk) och alla webbplatser där sidor kräver användarnamn och lösenord. Åtkomst kan eller inte ske genom betald prenumeration. Tillämpligt innehåll inkluderar akademiska och företagsdatabaser, tidnings-eller tidskriftsinnehåll och akademiska biblioteksabonnemang.

tidsinställd åtkomst

på vissa webbplatser, som stora nyhetskällor som New York Times, blir gratis innehåll otillgängligt efter ett visst antal sidvisningar. Sökmotorer behåller webbadressen, men sidan genererar ett registreringsformulär och innehållet flyttas till en ny webbadress som kräver ett lösenord.

robotar uteslutning

robotarna.txt-fil, som vanligtvis bor i huvudkatalogen på en webbplats, berättar sökrobotar vilka filer och kataloger inte ska indexeras. Därav namnet ” robots exclusion file.”Om den här filen är inställd kommer den att blockera vissa sidor från att indexeras, vilket då blir osynligt för sökare. Bloggplattformar erbjuder vanligtvis den här funktionen.

dolda sidor

det finns helt enkelt ingen sekvens av hyperlänkklick som kan ta dig till en sådan sida. Sidorna är tillgängliga, men bara för personer som känner till deras existens.

myter om den osynliga webben

droger, pornografi och andra olagliga aktiviteter är den mest omtalade aspekten av den djupa webben av en anledning. Berättelser om människor som köper heroin online med Bitcoins, en form av elektronisk valuta eller säljer vapen internationellt gör stora rubriker.

vad folk inte inser är att det finns mycket det osynliga internet har att erbjuda förutom olaglig aktivitet. Stereotyper och Boogeyman-berättelser håller människor borta från den djupa webben när det faktiskt finns många underbara skäl att besöka det. I länder som Kina, där webbplatser är blockerade och Internet integritet är svårt att få tag på, det finns en växande gemenskap av användare som använder den djupa internet för att dela information och tala fritt. Webbläsare som TOR är fortfarande relativt okända i Kina, men antalet personer som använder tjänsten växer stadigt. Medborgare i Turkiet och andra politiskt tumultiga länder använder det djupa internet för att samlas, planera protester och diskutera lokala nyheter utanför regeringens vakande öga.

Varför kan den genomsnittliga amerikanen vilja använda det djupa internet? Trots sin berömmelse från olaglig verksamhet är deep internet helt enkelt allt som inte är tillgängligt med en enkel Google-sökning. Så mycket som 90 procent av internet är endast tillgängligt via deb-webbplatser. Att använda TOR själv är inte olagligt, och det går inte heller på många djupa webbplatser. Den enda olagliga aktiviteten är vad som skulle vara olagligt ute i den verkliga världen. På den djupa webben kan du hitta sällsynta och förbjudna böcker, läsa svåra att hitta nyheter och till och med fanfiction. Tanken om en vild väst av internet lever igen med hjälp av deep web.

hur man kommer åt och söker efter osynligt innehåll

om en webbplats är otillgänglig på konventionellt sätt finns det fortfarande sätt att komma åt innehållet, om inte de faktiska sidorna. Bortsett från programvara som TOR finns det ett antal enheter som gör det möjligt att se djupt webbinnehåll, som universitet och forskningsanläggningar.

för osynligt innehåll som inte kan eller bör vara synligt finns det fortfarande ett antal sätt att få åtkomst:

medlemskap

gå med i en professionell eller forskningsförening som ger tillgång till register, forskning och peer-reviewed tidskrifter.

VPN

få tillgång till ett virtuellt privat nätverk via en arbetsgivare

be om tillstånd

begär åtkomst; detta kan vara så enkelt som en gratis registrering.

prenumerationstjänster

betala för en prenumeration på en tidskrift eller annan resurs vars arbete du vill stödja.

hitta en lämplig resurs

använd en osynlig webbkatalog, portal eller specialiserad sökmotor som Google Book Search eller Librarian ’ s Internet Index.

använda den djupa webben i utbildning

så var kommer du som lärare in? Deep web kan användas för att hitta information som du annars inte kunde komma åt via en enkel Google-sökning, och som kan visa sig oerhört användbart för dina elever och kollegor.

”att slå stereotyper och visa användningen av djupa webbsökningar är en spännande möjlighet för studenter-de kan se att internet är så mycket större än sociala medier och de typiska Google-eller Yahoo-sökningar som de är vana vid att använda för skolprojekt och uppsatser.”

vad folk inte förstår är vad som exakt utgör djup webbinformation. Tidskrifter och böcker som bara kan nås via en universitetsbibliotekswebbplats kan inte hittas via Google, liksom webbplatser som har stängt av möjligheten att söka via en sökmotor. För studenter som behöver den brandväggen blir möjligheten att söka på djupa webbwebbplatser ett användbart verktyg för skolan och därefter.

visa eleverna användningen för att hitta dolda sökmotorer och vilken typ av information som kan hittas genom dem. Att slå stereotyper och visa användningen av djupa webbsökningar är en spännande möjlighet för studenter — de kan se att internet är så mycket större än sociala medier och de typiska Google-eller Yahoo-sökningarna som de är vana vid att använda för skolprojekt och uppsatser. Ditt lokala bibliotek kan vara en källa till massor av Un-Googleable information, och genom ditt bibliotek, du kanske kan använda källor som JSTOR och JURN. För mer om hur man använder djupa webbkällor, kolla in boken går utöver Google: Den osynliga webben i lärande och undervisning av Jane Devine och Francine Egger-Sider.

osynliga Webbsökningsverktyg

här är ett litet urval av osynliga webbsökningsverktyg (kataloger, portaler, motorer) som hjälper dig att hitta osynligt innehåll. För att se mer som dessa, titta på vår Research Beyond Google-artikel.

en lista över djupa webbsökmotorer

Purdue Owls resurser för att söka på den osynliga webben

konst

Musie du Louvre

böcker Online

sidan Online böcker

ekonomiska och jobbdata

FreeLunch.com

finansiera och investera

Bankrate.com

allmän forskning

GPO: s katalog över amerikanska statliga publikationer

regeringsdata

My Race