the Ultimate Guide to the Invisible Web

hakukoneet ovat tavallaan Internetin sydämenlyönti; ”Googlaamisesta” on tullut osa jokapäiväistä puhetta, ja Merriam-Webster tunnistaa sen jopa kieliopillisesti oikeaksi verbiksi. Se on yleinen harhaluulo, kuitenkin, että googlaamalla hakutermi paljastaa jokaisen sivuston siellä, joka käsittelee haku. Tyypillinen hakukoneet kuten Google, Yahoo, tai Bing todella käyttää vain murto — osa — arviolta 0.03% – Internetin. Perinteisten hakujen tuottamat sivustot ovat osa niin sanottua Surface Webiä, joka koostuu indeksoiduista sivuista, joita hakukoneen web-telaketjut on ohjelmoitu hakemaan.

”jopa 90 prosenttia Internetistä on saatavilla vain deb-verkkosivujen kautta.”

missä loput ovat? Valtaosa Internetistä sijaitsee syvässä verkossa, jota joskus kutsutaan näkymättömäksi verkoksi. Syvän verkon todellista kokoa on mahdotonta mitata, mutta monet asiantuntijat arvioivat sen olevan noin 500 kertaa niin suuri kuin me sen tunnemme.

joten mikä on syvä verkko, tarkalleen? Deep Web-sivut toimivat aivan kuten mikä tahansa muu sivusto verkossa, mutta ne on rakennettu niin, että niiden olemassaolo on näkymätön crawlers. Vaikka viimeaikaiset uutiset, kuten pahamaineisen huumekauppasivusto Silk Roadin pidätys ja Edward Snowdenin NSA-huijaukset, ovat valottaneet syvän verkon olemassaoloa, se on edelleen suurelta osin väärinymmärretty.

hakukoneet ja Surface Web

sen ymmärtäminen, miten hakukoneet indeksoivat surface-sivut, voi auttaa ymmärtämään, mistä syvässä verkossa on kyse. Alkuaikoina laskentateho ja tallennustila olivat niin huippuluokkaa, että hakukoneet indeksoivat minimaalisen määrän sivuja ja varastoivat usein vain osittaista sisältöä. Hakumenetelmät heijastivat käyttäjien aikeita; varhaiset Internetin käyttäjät hakeutuivat yleensä tutkimukseen, joten ensimmäiset hakukoneet indeksoivat yksinkertaisia kyselyjä, joita opiskelijat tai muut tutkijat todennäköisesti tekisivät. Hakutulokset koostuivat hakukoneen tallentamasta todellisesta sisällöstä.

ajan myötä kehittyvä tekniikka teki hakukoneille kannattavaksi tehdä perusteellisempaa työtä sivuston sisällön indeksoinnissa. Nykypäivän verkkohämähäkit eli hämähäkit käyttävät hienostuneita algoritmeja kerätäkseen sivuainetietoja hyperlinkeiltä sivuilta. Nämä robotit liikkuvat Internetin linkitettyjen tietojen läpi ja ansaitsevat hämähäkkimäisen lempinimensä. Jokainen pinta sivusto on indeksoitu metadata, että indeksoijat kerätä. Tämä metatieto, joka koostuu elementeistä, kuten sivun otsikosta, sivun sijainnista (URL) ja toistetuista avainsanoista, joita käytetään tekstissä, vie paljon vähemmän tilaa kuin varsinainen sivun sisältö. Vanhan välimuistin sisällön dumpin sijaan nykyiset hakukoneet ohjaavat käyttäjiä nopeasti ja tehokkaasti sivustoille, joilla on merkitystä heidän kyselyihinsä.

saadakseen käsityksen siitä, miten hakukoneet ovat ajan myötä parantuneet, Googlen interaktiivinen erittely ”How Search Works” kertoo yksityiskohtaisesti kaikki tekijät, jotka vaikuttavat jokaisessa Google-haussa. Samaan tapaan, Moz.com n aikajana Googlen hakukone algoritmi antaa sinulle käsityksen siitä, miten nonstop pyrkimyksiä on ollut tarkentaa hakuja. Miten nämä toimet vaikuttavat syvään verkkoon ei ole aivan selvää. Mutta on kohtuullista olettaa, että jos suuret hakukoneet pitää parantaa, tavalliset web-käyttäjät ovat vähemmän todennäköisesti etsimään arcane syvä Web-hakuja.

miten syvä verkko on hakukoneille näkymätön?

hakukoneet kuten Google ovat erittäin tehokkaita ja tehokkaita tislaamaan ajantasaista verkkosisältöä. Heiltä puuttuu kuitenkin kyky indeksoida valtava määrä dataa, joka ei ole hyperlinkki, ja siksi välittömästi saatavilla web crawler. Tämä voi olla tarkoituksellista tai ei; esimerkiksi sisältö takana paywall tai blogikirjoitus, joka on kirjoitettu, mutta ei vielä julkaistu molemmat teknisesti sijaitsevat Deep Web.

joitakin esimerkkejä muusta syvästä verkkosisällöstä ovat:

  • tiedot, joihin on päästävä hakuliittymän kautta
  • tietokantakyselyiden tulokset
  • Tilausaineisto-vain tiedot ja muut Salasanasuojatut tiedot
  • sivut, joita ei ole linkitetty millään muulla sivulla
  • teknisesti rajoitettu sisältö, kuten teknologiaa vaativa
  • tekstisisältö, joka on olemassa muualla perinteisen http:// tai https:// protokollat

vaikka Deep Webin laajuus ja moninaisuus ovat huikeita, sen maine – ja vetovoima – johtuu siitä, että käyttäjät ovat anonyymejä Deep Webissä, ja niin ovat myös heidän toimintansa. Tämän vuoksi se on ollut tärkeä työkalu hallituksille; U. S. Naval research laboratory lanseerasi ensimmäisen kerran Tiedustelutyökalut syvään verkkokäyttöön vuonna 2003.

valitettavasti tämä anonymiteetti on luonut kasvualustan rikollisille aineksille, jotka käyttävät hyväkseen mahdollisuutta salata laitonta toimintaa. Laiton pornografia, huumeet, aseet ja passit ovat vain muutamia niistä tuotteista, joita voi ostaa verkosta. Tällaisten sivustojen olemassaolo ei kuitenkaan tarkoita, että Deep Web on luonnostaan paha; anonymiteetillä on arvonsa, ja monet käyttäjät yksinkertaisesti haluavat toimia jäljittämättömässä järjestelmässä periaatteessa.

”Anonymiteetillä on arvonsa, ja monet käyttäjät yksinkertaisesti haluavat toimia periaatteessa jäljittämättömässä järjestelmässä.”

aivan kuten syvää verkkosisältöä ei voida jäljittää web-telaketjuilla, sitä ei voida käyttää myös tavanomaisin keinoin. Sama tiedustelutyökaluja kehittävä merivoimien tutkimusryhmä loi Onion Router-projektin, joka tunnetaan nykyisin lyhenteellä TOR. Sipulireititys tarkoittaa prosessia, jossa salauskerrokset poistetaan Internet-viestinnästä, samaan tapaan kuin sipulin kerrokset kuoritaan takaisin. Tor-käyttäjien henkilöllisyys ja verkon toiminta on piilotettu tämän ohjelmiston avulla. TOR ja muut sen kaltaiset ohjelmistot tarjoavat anonyymin yhteyden Deep Webiin. Se on itse asiassa Syvähakukoneesi.

mutta takakujan maineesta huolimatta Tor-verkon käytölle on runsaasti perusteltuja syitä. Ensinnäkin TOR-verkon avulla käyttäjät voivat välttää ”liikenneanalyysiä” ja kaupallisten sivustojen käyttämiä seurantatyökaluja web-käyttäjien sijainnin ja verkon, jonka kautta he ovat yhteydessä. Nämä yritykset voivat sitten käyttää näitä tietoja hinnoittelun tai jopa mitä tuotteita ja palveluja ne tarjoavat.

Tor Project-sivuston mukaan ohjelma mahdollistaa myös sen, että ihmiset ” perustavat verkkosivuston, jossa ihmiset julkaisevat materiaalia sensuurista välittämättä.”Vaikka tämä ei suinkaan ole selvä hyvä tai huono asia, sensuurin ja sananvapauden välinen jännite tuntuu kaikkialla maailmassa. Deep Web edistää tätä keskustelua osoittamalla, mitä ihmiset voivat ja tekevät voittaakseen poliittisen ja sosiaalisen sensuurin.

miksi sivu on näkymätön

kun tavallinen hakukonekysely tulee takaisin tuloksettomana, se ei välttämättä tarkoita, ettei mitään löydy. ”Näkymätön” sivu ei välttämättä ole saavuttamattomissa; sitä ei yksinkertaisesti ole indeksoitu hakukoneella. On useita syitä, miksi sivu voi olla näkymätön. Muista, että jotkin sivut ovat vain tilapäisesti näkymättömiä, mahdollisesti aikataulutettu indeksoitaviksi myöhemmin.

liian monet parametrit

moottorit ovat perinteisesti jättäneet huomiotta kaikki verkkosivut, joiden URL – osoitteissa on pitkä rivi parametreja ja yhtäläisiä merkkejä ja kysymysmerkkejä, siltä varalta, että ne kopioivat tietokantansa sisällön – tai pahempaa-hämähäkki jotenkin kiertää ympyrää. Tunnetaan ”Shallow Web,” useita kiertoteitä on kehitetty auttamaan sinua käyttämään tätä sisältöä.

Lomakeohjattu merkintä, joka ei ole salasanasuojattu

tässä tapauksessa sivun sisältö tulee näkyviin vain, kun ihminen soveltaa toimenpidekokonaisuutta, useimmiten syöttäen tietoja lomakkeeseen (erityiset kyselytiedot, kuten työnhakukoneen työpaikkakriteerit). Tämä sisältää tyypillisesti tietokantoja, jotka tuottavat sivuja pyynnöstä. Soveltuva sisältö sisältää matkailualan tiedot (lento info, hotelli saatavuus), työpaikkaluettelot, tuotetietokannat, patentit, julkisesti saatavilla hallituksen tiedot, sanakirja määritelmät, lait, pörssitiedot, puhelinluettelot, ja ammatillinen hakemistoja.

Passworded access, subscriptions, or non-subscriptions.

Tämä sisältää VPN: n (virtual private networks) ja kaikki verkkosivut, joissa sivut vaativat käyttäjätunnuksen ja salasanan. Pääsy voi olla tai ei ole maksullisen tilauksen. Soveltuva sisältö sisältää akateemiset ja yritysten tietokannat, sanomalehti-tai aikakauslehtisisällöt sekä akateemisen kirjaston tilaukset.

Timed access

joillakin sivustoilla, kuten suurissa uutislähteissä, kuten New York Timesissa, ilmainen sisältö muuttuu saavuttamattomaksi tietyn sivukatselumäärän jälkeen. Hakukoneet säilyttävät URL-osoitteen, mutta sivu luo rekisteröitymislomakkeen ja sisältö siirretään uuteen URL-osoitteeseen, joka vaatii salasanan.

robotit pois lukien

robotit.txt-tiedosto, joka yleensä asuu sivuston päähakemistossa, kertoo hakuroboteille, mitä tiedostoja ja hakemistoja ei pitäisi indeksoida. Siksi nimi ” robots exclusion tiedosto.”Jos tämä tiedosto on perustettu, se estää tiettyjen sivujen indeksoinnin, joka on sitten näkymätöntä Searchersille. Blogialustat tarjoavat tätä ominaisuutta yleisesti.

piilotetut sivut

ei yksinkertaisesti ole olemassa hyperlinkin klikkausten sarjaa, joka veisi sinut tällaiselle sivulle. Sivut ovat saatavilla, mutta vain ihmisille, jotka tietävät niiden olemassaolosta.

myytit näkymättömästä verkosta

huumeet, pornografia ja muu laiton toiminta ovat syystä syvän verkon puhutuin puoli. Tarinat ihmisistä, jotka ostavat heroiinia verkossa Bitcoineilla, eräänlaisella elektronisella valuutalla, tai myyvät aseita kansainvälisesti, nousevat isoihin otsikoihin.

ihmiset eivät tajua, että näkymätön internet tarjoaa paljon muutakin kuin laitonta toimintaa. Stereotypiat ja mörkötarinat pitävät ihmiset loitolla syvästä verkosta, kun siihen on oikeasti monta ihanaa syytä. Kiinan kaltaisissa maissa, joissa sivustot on estetty ja internetin yksityisyyttä on vaikea saada, on kasvava käyttäjien yhteisö, joka käyttää syvää Internetiä jakamaan tietoa ja puhumaan vapaasti. Tor-verkon kaltaiset selaimet ovat Kiinassa vielä suhteellisen tuntemattomia, mutta palvelua käyttävien määrä kasvaa tasaisesti. Turkin ja muiden poliittisesti kuohuvien maiden kansalaiset käyttävät syvää Internetiä kokoontuakseen yhteen, suunnitellakseen protesteja ja keskustellakseen paikallisuutisista hallituksen valvovan silmän ulkopuolella.

miksi keskiverto amerikkalainen haluaisi käyttää syvää Internetiä? Laittomasta toiminnasta saamastaan maineesta huolimatta deep internet on yksinkertaisesti mitä tahansa, johon ei pääse yksinkertaisella Google-haulla. Jopa 90 prosenttia Internetistä on saatavilla vain deb-verkkosivujen kautta. Tor-verkon käyttö itsessään ei ole laitonta, eikä se ole menossa monille syville verkkosivustoille. Ainoa Laiton Toiminta on se, mikä olisi laitonta todellisessa maailmassa. Syvästä verkosta voi löytää harvinaisia ja kiellettyjä kirjoja, lukea vaikeasti löydettäviä uutisia ja jopa fanifiktiota. Ajatus Internetin villistä lännestä elää jälleen deep Webin avulla.

miten näkymättömään sisältöön pääsee käsiksi ja etsiä

jos sivusto on tavanomaisin keinoin saavuttamattomissa, on vielä keinoja päästä käsiksi sisältöön, ellei jopa varsinaisiin sivuihin. Torin kaltaisten ohjelmistojen lisäksi on olemassa useita tahoja, jotka mahdollistavat syvän verkkosisällön katselun, kuten yliopistot ja tutkimuslaitokset.

näkymättömälle sisällölle, joka ei voi tai saa olla näkyvissä, on vielä useita tapoja päästä käsiksi:

jäsenyys

liity ammatti-tai tutkijayhdistykseen, joka tarjoaa pääsyn tietueisiin, tutkimukseen ja vertaisarvioituihin lehtiin.

VPN

käytä virtuaalista yksityistä verkkoa työnantajan kautta

pyydä lupaa

pyydä pääsyä; tämä voi olla niinkin yksinkertaista kuin ilmainen rekisteröityminen.

tilauspalvelut

maksa tilauksesta aikakausjulkaisuun tai muuhun resurssiin, jonka työtä haluat tukea.

Etsi sopiva resurssi

käytä näkymätöntä www-hakemistoa, portaalia tai erikoistunutta hakukonetta, kuten Googlen Kirjahakua tai kirjastonhoitajan Internet-indeksiä.

käyttäen syvää verkkoa koulutuksessa

joten mihin sinä kouluttajana astut? Deep webistä voi löytää tietoa, jota ei muuten voisi käyttää yksinkertaisella Google-haulla ja joka voi osoittautua mittaamattoman hyödylliseksi oppilaille ja kollegoille.

”lyöminen stereotypioita ja osoittaa käytön syvä web-hakuja on jännittävä mahdollisuus opiskelijoille-he voivat nähdä, että internet on niin paljon suurempi kuin sosiaalinen media ja tyypillinen Google tai Yahoo hakuja, että he ovat tottuneet käyttämään kouluprojekteja ja esseitä.”

mitä ihmiset eivät ymmärrä, on mitä tarkalleen muodostaa syvä web-tietoa. Lehtiä ja kirjoja, joita voi käyttää vain yliopiston kirjaston verkkosivuilla ei löydy Googlen kautta, sekä sivustoja, jotka ovat sammuttaneet mahdollisuuden etsiä hakukoneen kautta. Oppilaille, jotka tarvitsevat palomuurin, kyky etsiä deep Web-sivustot tulee hyödyllinen työkalu koulussa ja sen ulkopuolella.

Näytä opiskelijoille Käyttötarkoitus piilotettujen hakukoneiden löytämisessä ja millaista tietoa niiden kautta löytyy. Pelaajan stereotypioita ja osoittaa käytön syvä web — hakuja on jännittävä mahdollisuus opiskelijoille-he voivat nähdä, että internet on niin paljon suurempi kuin sosiaalinen media ja tyypillinen Google tai Yahoo hakuja, että he ovat tottuneet käyttämään kouluprojekteja ja esseitä. Paikallinen kirjasto voi olla lähde tonnia un-Googleable tietoa, ja kirjaston kautta, saatat pystyä hyödyntämään lähteitä, kuten JSTOR ja JURN. Lisätietoja siitä, miten käyttää syviä web-lähteitä, tutustu Jane Devinen ja Francine Egger-Siderin kirjaan Going Beyond Google: The Invisible Web in Learning and Teaching.

näkymättömät Verkkohakutyökalut

tässä pieni otos näkymättömistä verkkohakutyökaluista (hakemistot, portaalit, moottorit), joiden avulla voit löytää näkymättömän sisällön. Jos haluat nähdä lisää tällaisia, tutustu tutkimukseemme Googlen artikkelin ulkopuolella.

luettelo Syvähakukoneista

Purdue Owl ’ s Resources to Search the Invisible Web

Art

Musie du Louvre

Books Online

the Online Books Page

talous – ja työpaikkatiedot

FreeLunch.com

Rahoitus ja sijoittaminen

pankkikorko.kom

yleinen tutkimus

GPO: n luettelo Yhdysvaltain hallituksen julkaisuista

hallituksen tiedot

Leave a Reply

Vastaa

Sähköpostiosoitettasi ei julkaista.