Ghidul final pentru web invizibil | OEDB.org

motoarele de căutare sunt, într-un anumit sens, bătăile inimii internetului; „Googling” a devenit o parte a vorbirii de zi cu zi și este chiar recunoscut de Merriam-Webster ca un verb corect din punct de vedere gramatical. Cu toate acestea, este o concepție greșită obișnuită că Googling un termen de căutare va dezvălui fiecare site care se adresează căutării dvs. Motoarele de căutare tipice precum Google, Yahoo sau Bing accesează de fapt doar o mică parte — estimată la 0,03% — din internet. Site-urile care produc căutări tradiționale fac parte din ceea ce este cunoscut sub numele de Surface Web, care este format din pagini indexate pe care crawlerele web ale unui motor de căutare sunt programate să le recupereze.

„până la 90% din internet este accesibil doar prin intermediul site-urilor web deb.”

unde sunt restul? Marea majoritate a Internetului se află în Deep Web, denumit uneori web invizibil. Dimensiunea reală a deep Web este imposibil de măsurat, dar mulți experți estimează că este de aproximativ 500 de ori dimensiunea web-ului așa cum o știm.

deci, ce este Deep Web, mai exact? Paginile web profunde funcționează la fel ca orice alt site online, dar sunt construite astfel încât existența lor să fie invizibilă pentru crawlere. În timp ce știrile recente, cum ar fi bustul infamului site de trafic de droguri Silk Road și shenaniganii NSA ai lui Edward Snowden, au evidențiat existența Deep Web, este încă în mare parte înțeleasă greșit.

motoarele de căutare și Surface Web

înțelegerea modului în care paginile surface sunt indexate de motoarele de căutare vă poate ajuta să înțelegeți despre ce este vorba despre Deep Web. În primele zile, puterea de calcul și spațiul de stocare erau atât de mari încât motoarele de căutare indexau un număr minim de pagini, stocând adesea doar conținut parțial. Metodologia din spatele căutării reflecta intențiile utilizatorilor; primii utilizatori de Internet au căutat în general cercetări, astfel încât primele motoare de căutare au indexat întrebări simple pe care studenții sau alți cercetători ar fi putut să le facă. Rezultatele căutării constau în conținut real stocat de un motor de căutare.

de-a lungul timpului, tehnologia avansată a făcut profitabil pentru motoarele de căutare să facă o treabă mai amănunțită de indexare a conținutului site-ului. Crawlerele web de astăzi sau păianjenii folosesc algoritmi sofisticați pentru a colecta date de pagină din paginile hiperlinkate. Acești roboți își manevrează drumul prin toate datele legate de pe Internet, câștigându-și porecla de păianjen. Fiecare site de suprafață este indexat de metadate pe care crawlerele le colectează. Aceste metadate, constând din elemente precum titlul paginii, locația paginii (URL) și cuvintele cheie repetate utilizate în text, ocupă mult mai puțin spațiu decât conținutul real al paginii. În loc de depozitul de conținut din cache al vechilor, motoarele de căutare de astăzi direcționează rapid și eficient utilizatorii către site-uri web relevante pentru întrebările lor.

pentru a înțelege modul în care motoarele de căutare s-au îmbunătățit de-a lungul timpului, defalcarea interactivă Google „cum funcționează Căutarea” detaliază toți factorii implicați în fiecare căutare Google. Într – un mod similar, Moz.com cronologia algoritmului motorului de căutare Google vă va oferi o idee despre cât de non-stop au fost eforturile de rafinare a căutărilor. Modul în care aceste eforturi au impact asupra Deep Web nu este tocmai clar. Dar este rezonabil să presupunem că, dacă motoarele de căutare majore continuă să se îmbunătățească, utilizatorii web obișnuiți vor fi mai puțin susceptibili să caute căutări web profunde.

cum este Deep Web invizibil pentru motoarele de căutare?

motoarele de căutare precum Google sunt extrem de puternice și eficiente în distilarea conținutului web actualizat. Ceea ce le lipsește, totuși, este capacitatea de a indexa cantitatea vastă de date care nu este hiperlinkată și, prin urmare, accesibilă imediat unui crawler web. Acest lucru poate fi sau nu intenționat; de exemplu, conținutul din spatele unui paywall sau al unei postări pe blog care este scris, dar nu a fost încă publicat, ambele se află din punct de vedere tehnic în Deep Web.

câteva exemple de alt conținut web profund includ:

date care trebuie accesate printr-o interfață de căutare
rezultatele interogărilor bazei de date
informații Numai pentru abonament și alte date protejate prin parolă
pagini care nu sunt legate de nicio altă pagină
conținut limitat din punct de vedere tehnic, cum ar fi cel care necesită tehnologie
conținut Text de http convenționale:// sau https:// protocoale

în timp ce amploarea și diversitatea Deep Web sunt uimitoare, notorietatea – și atracția – provine din faptul că utilizatorii sunt anonimi pe Deep Web, la fel și activitățile lor. Din această cauză, a fost un instrument important pentru guverne; Laboratorul de cercetare Navală din SUA a lansat pentru prima dată instrumente de informații pentru utilizarea Web profundă în 2003.

din păcate, acest anonimat a creat un teren propice pentru elementele criminale care profită de oportunitatea de a ascunde activități ilicite. Pornografia ilegală, drogurile, armele și pașapoartele sunt doar câteva dintre articolele disponibile pentru cumpărare pe Deep Web. Cu toate acestea, existența unor site-uri ca acestea nu înseamnă că Deep Web este în mod inerent rău; anonimatul are valoarea sa și mulți utilizatori preferă pur și simplu să opereze într-un sistem Nedetectabil În principiu.

„anonimatul are valoarea sa și mulți utilizatori preferă pur și simplu să opereze în principiu într-un sistem nedetectabil.”

la fel cum conținutul web profund nu poate fi urmărit de crawlerele web, acesta nu poate fi accesat și prin mijloace convenționale. Același grup de cercetare navală pentru a dezvolta instrumente de colectare a informațiilor a creat proiectul Onion Router, cunoscut acum sub acronimul său TOR. Rutarea cepei se referă la procesul de eliminare a straturilor de criptare din comunicațiile pe Internet, similar cu decojirea straturilor unei cepe. Identitățile utilizatorilor TOR și activitățile de rețea sunt ascunse de acest software. TOR și alte programe similare oferă o conexiune anonimă la Deep Web. Este, de fapt, motorul dvs. de căutare web profundă.

dar, în ciuda reputației sale back-alee există o mulțime de motive legitime pentru a utiliza TOR. În primul rând, TOR permite utilizatorilor să evite „analiza traficului” și instrumentele de monitorizare utilizate de site-urile comerciale pentru a determina locația utilizatorilor web și rețeaua prin care se conectează. Aceste companii pot utiliza apoi aceste informații pentru a ajusta prețurile sau chiar ce produse și servicii pun la dispoziție.

potrivit site-ului proiectului Tor, programul permite, de asemenea, oamenilor să ” creeze un site web unde oamenii publică materiale fără să se îngrijoreze de cenzură.”Deși acest lucru nu este în niciun caz un lucru clar bun sau rău, tensiunea dintre cenzură și libertatea de exprimare este resimțită în întreaga lume. Deep Web promovează această dezbatere demonstrând ce pot și vor face oamenii pentru a depăși cenzura politică și socială.

motive pentru care o pagină este invizibilă

când o interogare obișnuită a motorului de căutare revine fără rezultate, asta nu înseamnă neapărat că nu există nimic de găsit. O pagină „invizibilă” nu este neapărat inaccesibilă; pur și simplu nu este indexată de un motor de căutare. Există mai multe motive pentru care o pagină poate fi invizibilă. Rețineți că unele pagini sunt doar temporar invizibile, eventual programate să fie indexate la o dată ulterioară.

prea mulți parametri

motoarele au ignorat în mod tradițional orice pagini Web ale căror adrese URL au un șir lung de parametri și semne egale și semne de întrebare, cu șansa de a duplica ceea ce este în baza lor de date – sau mai rău – păianjenul va merge cumva în cercuri. Cunoscut sub numele de” web superficial”, au fost dezvoltate o serie de soluții pentru a vă ajuta să accesați acest conținut.

intrare controlată de formular care nu este protejată prin parolă

în acest caz, conținutul paginii este afișat numai atunci când un om aplică un set de acțiuni, în principal introducând date într-un formular (informații specifice de interogare, cum ar fi criterii de job pentru un motor de căutare de job). Aceasta include de obicei baze de date care generează pagini la cerere. Conținutul aplicabil include date din industria călătoriilor (informații despre zbor, disponibilitate hotelieră), listări de locuri de muncă, baze de date de produse, brevete, informații guvernamentale accesibile publicului, definiții de dicționare, legi, date despre piața bursieră, Cărți telefonice și directoare profesionale.

acces Passworded, abonamente, sau non-abonamente.

aceasta include VPN (rețele private virtuale) și orice site web unde paginile necesită un nume de utilizator și o parolă. Accesul poate fi sau nu prin abonament plătit. Conținutul aplicabil include baze de date academice și corporative, conținut de ziare sau reviste și abonamente la biblioteci academice.

acces temporizat

pe unele site-uri, cum ar fi surse importante de știri, cum ar fi New York Times, conținutul gratuit devine inaccesibil după un anumit număr de afișări de pagină. Motoarele de căutare păstrează adresa URL, dar pagina generează un formular de înscriere, iar conținutul este mutat într-o nouă adresă URL care necesită o parolă.

excluderea roboților

roboții.fișierul txt, care trăiește de obicei în directorul principal al unui site, spune roboților de căutare ce fișiere și directoare nu ar trebui indexate. De aici și numele „fișier de excludere a roboților.”Dacă acest fișier este configurat, acesta va bloca indexarea anumitor pagini, care vor fi apoi invizibile pentru căutători. Platformele de Blog oferă în mod obișnuit această caracteristică.

pagini ascunse

pur și simplu nu există nicio secvență de clicuri de hyperlink care să vă poată duce la o astfel de pagină. Paginile sunt accesibile, dar numai persoanelor care știu de existența lor.

mituri despre web invizibil

droguri, pornografie, și alte activități ilegale sunt cele mai vorbit despre aspectul Deep Web pentru un motiv. Poveștile despre oamenii care cumpără heroină online folosind Bitcoins, o formă de monedă electronică sau vând arme la nivel internațional fac titluri mari.

ceea ce oamenii nu realizează este că există multe pe internet invizibil are de oferit în afară de activitatea ilegală. Stereotipurile și poveștile boogeyman îi țin pe oameni departe de Deep Web atunci când există de fapt multe motive minunate pentru a-i face o vizită. În țări precum China, unde Site-urile web sunt blocate și confidențialitatea pe internet este greu de găsit, există o comunitate în creștere de utilizatori care folosesc internetul profund pentru a împărtăși informații și a vorbi liber. Browserele precum TOR sunt încă relativ necunoscute în China, dar numărul persoanelor care utilizează serviciul este în continuă creștere. Cetățenii din Turcia și din alte țări tumultuoase din punct de vedere politic folosesc internetul profund pentru a se aduna, a planifica proteste și a discuta despre știrile locale în afara ochiului atent al Guvernului.

de ce ar putea americanul mediu să vrea să folosească Internetul profund? În ciuda faimei sale din activitatea ilegală, internetul profund este pur și simplu ceva care nu este accesibil printr-o simplă căutare Google. Până la 90% din internet este accesibil doar prin intermediul site-urilor web deb. Utilizarea TOR în sine nu este ilegală și nici nu se întâmplă pe multe site-uri web profunde. Singura activitate ilegală este ceea ce ar fi ilegal în lumea reală. Pe deep web puteți găsi cărți rare și interzise, citiți știri greu de găsit și chiar ficțiune de fani. Ideea unui vest sălbatic al internetului este din nou viu folosind Deep web.

cum să accesați și să căutați conținut Invizibil

dacă un site este inaccesibil prin mijloace convenționale, există încă modalități de a accesa conținutul, dacă nu paginile reale. În afară de software precum TOR, există o serie de entități care fac posibilă vizualizarea conținutului web profund, cum ar fi universitățile și facilitățile de cercetare.

pentru conținutul invizibil care nu poate sau nu ar trebui să fie vizibil, există încă o serie de modalități de a obține acces:

membru

Alăturați-vă unei asociații profesionale sau de cercetare care oferă acces la înregistrări, cercetări și reviste evaluate de colegi.

VPN

accesați o rețea privată virtuală prin intermediul unui angajator

cereți permisiunea

Solicitați acces; acest lucru ar putea fi la fel de simplu ca o înregistrare gratuită.

servicii de abonament

plătiți pentru un abonament la o resursă periodică sau altă resursă a cărei activitate doriți să o susțineți.

găsiți o resursă adecvată

utilizați un director web invizibil, un portal sau un motor de căutare specializat, cum ar fi Căutarea de cărți Google sau indexul de internet al Bibliotecarului.

utilizarea Deep Web în educație

deci, în cazul în care nu vă, ca un educator, vin în? Deep web poate fi folosit pentru a găsi informații pe care altfel nu le-ați putea accesa printr-o simplă căutare Google și care se pot dovedi incomensurabil utile studenților și colegilor dvs.

„învingerea stereotipurilor și afișarea utilizării căutărilor profunde pe web este o perspectivă interesantă pentru studenți-ei pot vedea că Internetul este mult mai mare decât social media și căutările tipice Google sau Yahoo pe care sunt obișnuiți să le folosească pentru proiecte școlare și eseuri.”

ceea ce oamenii nu înțeleg este ceea ce constituie exact informații Deep web. Jurnalele și cărțile care pot fi accesate numai printr-un site web al bibliotecii universitare nu pot fi găsite prin Google, precum și site-urile care au dezactivat capacitatea de a fi căutate printr-un motor de căutare. Pentru studenții care au nevoie de acest firewall, capacitatea de a căuta pe site-uri web profunde devine un instrument util pentru școală și nu numai.

arătați elevilor utilizarea în găsirea motoarelor de căutare ascunse și ce fel de informații pot fi găsite prin intermediul acestora. Învingerea stereotipurilor și afișarea utilizării căutărilor profunde pe web este o perspectivă interesantă pentru studenți — ei pot vedea că Internetul este mult mai mare decât social media și căutările tipice Google sau Yahoo pe care sunt obișnuiți să le folosească pentru proiecte școlare și eseuri. Biblioteca locală poate fi o sursă de tone de informații ne-Googleable, și prin intermediul bibliotecii, ați putea fi capabil de a utiliza surse, cum ar fi JSTOR și jurnal. Pentru mai multe despre cum să utilizați surse web profunde, consultați cartea Going Beyond Google: The Invisible Web in Learning and Teaching de Jane Devine și Francine Egger-sider.

instrumente de căutare web invizibile

Iată o mică eșantionare de instrumente de căutare web invizibile (directoare, portaluri, motoare) pentru a vă ajuta să găsiți conținut invizibil. Pentru a vedea mai multe ca acestea, vă rugăm să consultați articolul nostru de cercetare dincolo de Google.

o listă de motoare de căutare web profunde

resurse Purdue Owl pentru a căuta pe web invizibil

artă

Musie du Louvre

Cărți Online

pagina de cărți Online

date economice și de locuri de muncă

FreeLunch.com

Finanțe și investiții

Bankrate.com

cercetare generală

catalogul GPO al publicațiilor guvernamentale americane

date guvernamentale

My Race

ghidul final al Internetului Invizibil