a keresőmotorok bizonyos értelemben az internet szívverése; a “Googling” a mindennapi beszéd részévé vált, sőt Merriam-Webster nyelvtanilag helyes igeként is elismeri. Ez egy általános tévhit, azonban, hogy a keresési kifejezés Guglizása minden olyan webhelyet felfed, amely a kereséssel foglalkozik. Az olyan tipikus keresőmotorok, mint a Google, a Yahoo vagy a Bing, valójában az internetnek csak egy apró részét — becslések szerint 0,03% — át-érik el. Azok a webhelyek, amelyeket a hagyományos keresések eredményeznek, az úgynevezett Surface Web részét képezik, amely indexelt oldalakból áll, amelyeket a keresőmotor webbejárói beprogramoztak.
“az internet 90% – a csak a deb weboldalakon keresztül érhető el.”
hol van a többi? Az Internet túlnyomó többsége a mély Webben rejlik, amelyet néha láthatatlan Webnek is neveznek. A Mélyháló tényleges méretét lehetetlen megmérni, de sok szakértő becslése szerint körülbelül 500-szor akkora, mint az általunk ismert web.
mi is pontosan a Mélyháló? A mély weboldalak ugyanúgy működnek, mint bármely más online webhely, de úgy vannak felépítve, hogy létezésük láthatatlan legyen a bejárók számára. Míg a legutóbbi hírek, mint például a hírhedt kábítószer-kereskedő oldal, a Silk Road mellszobra és Edward Snowden NSA shenanigans, rávilágítottak a mély Web létezésére, még mindig nagyrészt félreértik.
keresőmotorok és a Surface Web
annak megértése, hogy a keresőmotorok hogyan indexelik a surface oldalakat, segíthet megérteni, hogy miről is szól a Mélyháló. A korai időkben a számítási teljesítmény és a tárhely olyan prémium volt, hogy a keresőmotorok minimális számú oldalt indexeltek, gyakran csak részleges tartalmat tároltak. A keresés mögött meghúzódó módszertan tükrözte a felhasználók szándékait; a korai internetezők általában kutatást kerestek, így az első keresőmotorok olyan egyszerű lekérdezéseket indexeltek, amelyeket a hallgatók vagy más kutatók valószínűleg megtettek. A keresési eredmények a keresőmotor által tárolt tényleges tartalomból álltak.
idővel a technológia fejlődése nyereségessé tette a keresőmotorok számára, hogy alaposabb munkát végezzenek a webhely tartalmának indexelésében. A mai webbejárók vagy pókok kifinomult algoritmusokat használnak az oldaladatok gyűjtésére a hiperhivatkozott oldalakról. Ezek a robotok az interneten található összes összekapcsolt adaton keresztül manővereznek, megszerezve pókos becenevüket. Minden felszíni webhelyet a robotok által gyűjtött metaadatok indexelnek. Ez a metaadat, amely olyan elemekből áll, mint az oldal címe, az oldal helye (URL) és a szövegben használt ismételt kulcsszavak, sokkal kevesebb helyet foglal el, mint a tényleges oldaltartalom. Ahelyett, hogy a gyorsítótárazott tartalom dump a régi, a mai keresők gyorsan és hatékonyan közvetlen felhasználók weboldalak, amelyek relevánsak a lekérdezések.
annak érdekében, hogy megértsük, hogyan fejlődtek a keresőmotorok az idő múlásával, a Google interaktív bontása “hogyan működik a Keresés” részletezi az összes Google-Keresésben játszott tényezőt. Hasonló módon, Moz.com a Google keresőmotor-algoritmusának ütemterve képet ad arról, hogy a keresések finomítása milyen folyamatos erőfeszítéseket tett. Hogy ezek az erőfeszítések hogyan befolyásolják a mély webet, nem teljesen világos. De ésszerű feltételezni, hogy ha a nagy keresőmotorok folyamatosan javulnak, a hétköznapi webes felhasználók kevésbé valószínű, hogy misztikus mély webes kereséseket keresnek.
hogyan láthatatlan a mély Web a keresőmotorok számára?
az olyan keresőmotorok, mint a Google, rendkívül hatékonyak és hatékonyak a naprakész webes tartalmak lepárlásában. Hiányzik azonban az a képesség, hogy indexeljék azt a hatalmas mennyiségű adatot, amely nincs hiperhivatkozva, és ezért azonnal elérhető egy webbejáró számára. Ez lehet, hogy nem szándékos; például, tartalom mögött paywall vagy egy blogbejegyzést, hogy írt, de még nem tették közzé mind technikailag tartózkodnak a mély weben.
néhány példa más mély webes tartalomra:
- keresőfelületen keresztül elérendő adatok
- adatbázis-lekérdezések eredményei
- csak előfizetéses információk és egyéb jelszóval védett adatok
- olyan oldalak, amelyekhez semmilyen más oldal nem kapcsolódik
- technikailag korlátozott tartalom, például technológiát igénylő tartalom
- az adatbázison kívül létező szöveges tartalom a hagyományos http:// vagy https:// protocols
bár a Deep Web mérete és sokszínűsége megdöbbentő, ismertsége – és vonzereje – abból a tényből származik, hogy a felhasználók névtelenek a Deep weben, és tevékenységük is. Emiatt fontos eszköz volt a kormányok számára; az Egyesült Államok haditengerészeti kutatólaboratóriuma először 2003-ban indított hírszerzési eszközöket a mély webes használatra.
sajnos ez a névtelenség táptalajt teremtett azoknak a bűnözőknek, akik kihasználják a lehetőséget, hogy elrejtsék a tiltott tevékenységeket. Az illegális pornográfia, a drogok, a fegyverek és az útlevelek csak néhány a Deep weben megvásárolható tárgyak közül. Az ilyen oldalak létezése azonban nem jelenti azt, hogy a mély Web eredendően gonosz; az anonimitásnak megvan az értéke, és sok felhasználó egyszerűen inkább egy nyomon követhetetlen rendszeren belül működik.
“az anonimitásnak megvan az értéke, és sok felhasználó egyszerűen inkább egy nyomon követhetetlen rendszeren belül működik.”
csakúgy, mint a mély webes tartalmat nem lehet nyomon követni a webbejárók, hagyományos eszközökkel sem érhető el. Ugyanaz a haditengerészeti kutatócsoport, amely intelligencia-gyűjtő eszközöket fejlesztett ki, létrehozta az Onion Router projektet, amelyet ma tor rövidítéssel ismerünk. A hagyma útválasztása a titkosítási rétegek internetes kommunikációból történő eltávolításának folyamatára utal, hasonlóan a hagyma rétegeinek visszahúzásához. A Tor felhasználói identitásait és hálózati tevékenységeit ez a szoftver elrejti. A TOR és más hasonló szoftverek névtelen kapcsolatot kínálnak a mély webhez. Valójában ez a mély webes keresőmotor.
de a hátsó sikátor hírneve ellenére rengeteg jogos ok van a TOR használatára. Egyrészt a TOR lehetővé teszi a felhasználók számára, hogy elkerüljék a “forgalomelemzést” és a kereskedelmi webhelyek által használt felügyeleti eszközöket a webes felhasználók helyének és a hálózatnak a meghatározására, amelyen keresztül csatlakoznak. Ezek a vállalkozások ezt az információt felhasználhatják az árak kiigazítására, vagy akár arra, hogy milyen termékeket és szolgáltatásokat tesznek elérhetővé.
a Tor projekt webhelye szerint a program lehetővé teszi az emberek számára, hogy ” hozzanak létre egy weboldalt, ahol az emberek anyagokat tesznek közzé anélkül, hogy aggódnának a cenzúra miatt.”Bár ez egyáltalán nem egyértelmű jó vagy rossz dolog, a cenzúra és a szólásszabadság közötti feszültség az egész világon érezhető. A Deep Web elősegíti ezt a vitát azzal, hogy megmutatja, mit tehetnek és mit fognak tenni az emberek a politikai és társadalmi cenzúra leküzdése érdekében.
okok egy oldal láthatatlan
amikor egy közönséges keresőmotor lekérdezése eredmény nélkül jön vissza, ez nem feltétlenül jelenti azt, hogy semmit sem talál. A “láthatatlan” oldal nem feltétlenül érhető el; egyszerűen nem indexeli a keresőmotor. Számos oka lehet annak, hogy egy oldal láthatatlan lehet. Ne feledje, hogy egyes oldalak csak ideiglenesen láthatatlanok,esetleg később indexelhetők.
túl sok paraméter
a motorok hagyományosan figyelmen kívül hagyják azokat a weboldalakat, amelyek URL – jei hosszú paramétersorral, egyenlőségjelekkel és kérdőjelekkel rendelkeznek, abban az esetben, ha lemásolják az adatbázisukban található adatokat – vagy ami még rosszabb-a pók valahogy körbe-körbe jár. A “sekély Web” néven ismert, számos megoldást fejlesztettek ki a tartalom eléréséhez.
Űrlapvezérelt bejegyzés, amely nem jelszóval védett
ebben az esetben az oldal tartalma csak akkor jelenik meg, ha az ember egy műveletkészletet alkalmaz, többnyire adatokat ad meg egy űrlapba (konkrét lekérdezési információk, például álláskeresők munkakritériumai). Ez általában olyan adatbázisokat tartalmaz, amelyek igény szerint generálnak oldalakat. Az alkalmazandó tartalom magában foglalja az utazási iparági adatokat (repülési információk, szállodai rendelkezésre állás), állásajánlatokat, termékadatbázisokat, szabadalmakat, nyilvánosan hozzáférhető kormányzati információkat, szótári definíciókat, törvényeket, tőzsdei adatokat, telefonkönyveket és szakmai könyvtárakat.
jelszavas hozzáférés, előfizetések vagy nem előfizetések.
ez magában foglalja a VPN-t (virtuális magánhálózatokat) és minden olyan webhelyet, ahol az oldalakhoz felhasználónév és jelszó szükséges. A hozzáférés fizetett előfizetéssel történhet. Az alkalmazandó tartalom magában foglalja az akadémiai és vállalati adatbázisokat, az újság-vagy folyóirat-tartalmat, valamint az akadémiai könyvtár-előfizetéseket.
időzített hozzáférés
egyes webhelyeken, mint például a nagy hírforrások, például a New York Times, az ingyenes tartalom bizonyos számú oldalmegtekintés után elérhetetlenné válik. A keresőmotorok megtartják az URL-t, de az oldal létrehoz egy regisztrációs űrlapot, és a tartalom egy új URL-re kerül, amelyhez jelszó szükséges.
robotok kizárása
a robotok.a TXT fájl, amely általában egy webhely fő könyvtárában él, megmondja a keresőrobotoknak, hogy mely fájlokat és könyvtárakat nem szabad indexelni. Ezért a név ” robotok kizárási fájl.”Ha ez a fájl be van állítva, akkor blokkolja bizonyos oldalak indexelését, ami láthatatlan lesz a keresők számára. A blogplatformok általában ezt a funkciót kínálják.
rejtett oldalak
egyszerűen nincs olyan hiperhivatkozás-kattintás, amely ilyen oldalra vezetne. Az oldalak elérhetők, de csak azok számára, akik tudnak létezésükről.
mítoszok a láthatatlan webről
nem véletlenül a drogokról, a pornográfiáról és más illegális tevékenységekről beszélnek a legtöbbet. Azok a történetek, amelyek arról szólnak, hogy az emberek online heroint vásárolnak Bitcoinokkal, az elektronikus valuta egyik formájával vagy fegyverek nemzetközi értékesítésével, nagy címsorokat jelentenek.
amit az emberek nem vesznek észre, az az, hogy a láthatatlan internet sok mindent kínál az illegális tevékenység mellett. A sztereotípiák és a mumus történetek távol tartják az embereket a mély Webtől, amikor valójában sok csodálatos ok van arra, hogy meglátogassák. Az olyan országokban, mint Kína, ahol a weboldalak blokkolva vannak, és az internetes adatvédelem nehezen érhető el, egyre nagyobb a felhasználók közössége, akik a mély internetet használják az információk megosztására és a szabad beszédre. Az olyan böngészők, mint a TOR, még mindig viszonylag ismeretlenek Kínában, de a szolgáltatást igénybe vevők száma folyamatosan növekszik. Törökország és más politikailag zűrzavaros országok polgárai a mély internetet használják, hogy összegyűljenek, tiltakozásokat tervezzenek és megvitassák a helyi híreket a kormány éber szemén kívül.
miért akarja az átlagos amerikai használni a mély internetet? Az illegális tevékenység hírneve ellenére a mély internet egyszerűen bármi, ami nem érhető el egy egyszerű Google-kereséssel. Az internet 90% – a csak a deb weboldalakon keresztül érhető el. Maga a TOR használata nem illegális, és sok mély internetes webhelyen sem folyik. Az egyetlen illegális tevékenység az, ami illegális lenne a Való Világban. A mély weben ritka és tiltott könyveket találhat, nehezen megtalálható híreket, sőt rajongói fikciót is olvashat. Az internet vadnyugatának gondolata ismét él a mély web használatával.
hogyan lehet elérni és keresni a láthatatlan tartalmat
ha egy webhely hagyományos módon nem érhető el, akkor még mindig vannak módok A tartalom elérésére, ha nem a tényleges oldalak. A Tor-hoz hasonló szoftvereken kívül számos olyan entitás létezik, amelyek lehetővé teszik a mély webes tartalmak megtekintését, például egyetemek és kutatási létesítmények.
az olyan láthatatlan tartalomhoz, amely nem látható vagy nem szabad, még mindig számos módon lehet hozzáférni:
tagság
csatlakozzon egy olyan szakmai vagy kutatási szövetséghez, amely hozzáférést biztosít a rekordokhoz, kutatásokhoz és lektorált folyóiratokhoz.
VPN
virtuális magánhálózat elérése munkáltatón keresztül
Engedély kérése
hozzáférés kérése; ez olyan egyszerű lehet, mint egy ingyenes regisztráció.
előfizetési szolgáltatások
fizessen egy olyan folyóirat vagy más erőforrás előfizetéséért, amelynek munkáját támogatni kívánja.
megfelelő forrás keresése
használjon láthatatlan webkönyvtárat, portált vagy speciális keresőmotort, például a Google Könyvkeresőt vagy a könyvtáros internetes indexét.
A Mélyháló használata az oktatásban
tehát hol, mint oktató, jön a képbe? A mély web segítségével olyan információkat találhat, amelyekhez egyébként nem tudna hozzáférni egy egyszerű Google-kereséssel, és amelyek mérhetetlenül hasznosak lehetnek diákjai és kollégái számára.
“a sztereotípiák legyőzése és a mély webes keresések használatának bemutatása izgalmas kilátás a diákok számára-láthatják, hogy az internet sokkal nagyobb, mint a közösségi média és a tipikus Google vagy Yahoo keresések, amelyeket iskolai projektekhez és esszékhez használnak.”
amit az emberek nem értenek, az az, hogy pontosan mi minősül mély webes információnak. Azok a folyóiratok és könyvek, amelyek csak az Egyetemi Könyvtár webhelyén érhetők el, nem találhatók meg a Google-on keresztül, valamint azok a webhelyek, amelyek kikapcsolták a keresőmotoron keresztüli keresés lehetőségét. Azoknak a diákoknak, akiknek szükségük van erre a tűzfalra, a mély internetes webhelyeken történő keresés hasznos eszközzé válik az iskolában és azon túl.
mutassa meg a diákoknak a rejtett keresőmotorok keresésének használatát, és milyen információkat találhat rajtuk keresztül. A sztereotípiák legyőzése és a mély webes keresések használatának bemutatása izgalmas kilátás a diákok számára — láthatják, hogy az internet sokkal nagyobb, mint a közösségi média és a tipikus Google vagy Yahoo keresések, amelyeket iskolai projektekhez és esszékhez használnak. A helyi könyvtár rengeteg nem Googleable információ forrása lehet, és a könyvtárán keresztül olyan forrásokat használhat, mint a JSTOR és a JURN. Ha többet szeretne megtudni a mély webes források használatáról, nézze meg Jane Devine és Francine Egger-Sider könyvét a Google-on túl: a láthatatlan Web a tanulásban és a tanításban.
láthatatlan webes keresőeszközök
Íme egy kis mintavétel a láthatatlan webes keresőeszközökből (könyvtárak, portálok, motorok), amelyek segítenek megtalálni a láthatatlan tartalmat. Ha többet szeretne látni, kérjük, nézze meg a kutatás a Google-on túl cikket.
a lista a mély internetes keresők
Purdue Owl források keresni a láthatatlan Web
Art
Musie du Louvre
könyvek online
az Online könyvek oldal
gazdasági és munkahelyi adatok
FreeLunch.com
Pénzügy és befektetés
Bankrate.com
Általános kutatás
a GPO amerikai kormányzati kiadványok katalógusa
kormányzati adatok