目に見えないウェブへの究極のガイド

検索エンジンは、ある意味では、インターネットのハートビートです。”グーグル”は日常会話の一部となっており、メリアム-ウェブスターによって文法的に正しい動詞として認識されています。 しかし、検索用語をグーグルで検索すると、検索に対応するすべてのサイトが明らかになるというのは一般的な誤解です。 Google、Yahoo、またはBingのような典型的な検索エンジンは、実際にはインターネットのわずか0.03%と推定されるわずかな部分にしかアクセスしません。 従来の検索がもたらすサイトは、検索エンジンのwebクローラーが取得するようにプログラムされているインデックス付きページで構成されているSurface Webと

“インターネットの90パーセントはdebの網のウェブサイトを通してだけ入手しやすい。”

それで残りはどこだ? インターネットの大部分は、時には目に見えないウェブと呼ばれる深いウェブにあります。 深いウェブの実際のサイズは測定することは不可能ですが、多くの専門家は、我々が知っているように、それはウェブの約500倍のサイズであると推定し

だから、ディープウェブは、正確には何ですか? 深いWebページは、他のサイトと同じようにオンラインで動作しますが、その存在はクローラーには見えないように構築されています。 悪名高い麻薬密売サイトのシルクロードやエドワード-スノーデンのNSAのペテンのような最近のニュースは、深いウェブの存在をスポットライトしていますが、それはまだ大部分が誤解されています。

検索エンジンとSurface Web

surfaceページが検索エンジンによってインデックスされる方法を理解することで、Deep Webが何であるかを理解するのに役立ちます。 初期の頃には、計算能力とストレージスペースは、検索エンジンは、多くの場合、部分的なコンテンツのみを格納し、ページの最小数をインデックス化するようなプレミアムにありました。 初期のインターネットユーザーは一般的に研究を求めていたので、最初の検索エンジンは、学生や他の研究者が作る可能性があった簡単なクエリをイン 検索結果は、検索エンジンが保存していた実際のコンテンツで構成されていました。

時間の経過とともに、技術の進歩により、検索エンジンがサイトコンテンツのインデックス作成をより徹底的に行うことが有益になりました。 今日の網のクローラー、かくもは、ハイパーリンクされたページからページデータを集めるのに洗練されたアルゴリズムを使用する。 これらのロボットは、インターネット上のすべてのリンクされたデータを介して自分の道を操縦し、彼らの蜘蛛のニックネームを獲得します。 すべてのサーフェスサイトは、クローラーが収集するメタデータによってインデックスが作成されます。 このメタデータは、ページタイトル、ページの場所(URL)、テキストで使用される繰り返しキーワードなどの要素で構成され、実際のページコンテンツよりもはるかに少 代わりに、古い、今日の検索エンジンのキャッシュされたコンテンツダンプの迅速かつ効率的に彼らのクエリに関連するwebサイトにユーザーを指示し

検索エンジンが時間の経過とともにどのように改善されたかを知るために、Googleのインタラクティブな内訳”検索の仕組み”は、すべてのGoogle検索で再生されているすべての要因を詳述しています。 同様の静脈では、Moz.com Googleの検索エンジンのアルゴリズムのタイムラインは、あなたの努力が検索を絞り込むためにされているどのようにノンストップのアイデアを与 これらの取り組みがディープウェブにどのように影響するかは、正確には明らかではありません。 しかし、主要な検索エンジンが改善し続けると、通常のwebユーザーは難解な深いWeb検索を模索する可能性が低くなると仮定するのは合理的です。

ディープウェブはどのように検索エンジンに見えないのですか?

Googleのような検索エンジンは、最新のwebコンテンツを蒸留するのに非常に強力で効果的です。 しかし、彼らに欠けているのは、ハイパーリンクされていない膨大な量のデータを索引付けする機能であり、したがってwebクローラーがすぐにアクセスで たとえば、ペイウォールの背後にあるコンテンツや、書かれているがまだ公開されていないブログ投稿は、技術的にはDeep Webに存在します。

他の深いWebコンテンツの例には、次のようなものがあります:

  • 検索インターフェイスでアクセスする必要があるデータ
  • データベースクエリの結果
  • サブスクリプションのみの情報およびその他のパスワードで保護されたデータ
  • 他のページでリンクされていないページ
  • 技術を必要とするような技術的に制限されたコンテンツ
  • 外部に存在するテキストコンテンツ
  • 従来のhttp://またはhttpsの://protocols

ディープウェブの規模と多様性は驚異的ですが、ユーザーがディープウェブ上で匿名であり、その活動も匿名であるという事実から悪評と魅力があります。 米国海軍研究所は、2003年にディープウェブ使用のためのインテリジェンスツールを最初に発売しました。

残念ながら、この匿名性は、違法行為を隠す機会を利用する犯罪者のための繁殖地を作り出しました。 違法なポルノ、薬物、武器、パスポートは、Deep Webで購入できるアイテムのほんの一部です。 匿名性にはその価値があり、多くのユーザーは原則として追跡不可能なシステム内で動作することを好むだけです。

“匿名性には価値があり、多くのユーザーは原則として追跡不可能なシステム内で操作することを好むだけです。”

深いWebコンテンツは、webクローラによってトレースすることができないのと同じように、それはまた、従来の手段を介してアクセスすることはできません。 情報収集ツールを開発するための同じ海軍研究グループは、現在、その頭字語TORで知られているオニオンRouterプロジェクトを作成しました。 オニオンルーティングは、インターネット通信から暗号化層を削除するプロセスを指し、オニオンの層を剥がすのと同様です。 TORユーザーの身元とネットワーク活動は、このソフトウェアによって隠されています。 TORやそのような他のソフトウェアは、Deep Webへの匿名の接続を提供します。 それは、事実上、あなたの深い網のサーチエンジンである。

しかし、その裏路地の評判にもかかわらず、TORを使用する正当な理由はたくさんあります。 一つは、TORは、ユーザーが”トラフィック分析”とwebユーザーの場所と、彼らが接続しているネットワークを決定するために商業サイトで使用される監視ツールを回避 これらの企業は、この情報を使用して価格設定を調整したり、利用可能な製品やサービスを調整したりすることができます。

Torプロジェクトのサイトによると、このプログラムでは「検閲を気にせずに素材を公開するウェブサイトを設定することもできます。「これは決して明確な良いことでも悪いことでもありませんが、検閲と言論の自由の間の緊張は世界中で感じられています。 Deep Webは、人々が政治的および社会的検閲を克服するために何ができるのか、そして何をするのかを実証することによって、その議論を促進します。

ページが見えない理由

通常の検索エンジンのクエリが結果なしで戻ってくるとき、それは必ずしも見つからないことを意味するものではありません。 “目に見えない”ページは必ずしも得難い;それはサーチエンジンによって単に指示されない。 ページが表示されない理由はいくつかあります。 一部のページは一時的には表示されず、後でインデックスが作成される可能性があることに注意してください。

パラメータが多すぎる

エンジンは、伝統的に、Urlがパラメータの長い文字列と等号と疑問符を持つWebページを無視してきました。 “浅いウェブ”として知られている、このコンテンツにアクセスするのに役立つ回避策の数が開発されています。

パスワードで保護されていないフォーム制御エントリ

この場合、ページコンテンツは、人間が一連のアクションを適用したときにのみ表示されます。 これには、通常、必要に応じてページを生成するデータベースが含まれます。 適用されるコンテンツには、旅行業界データ(フライト情報、ホテルの可用性)、求人情報、製品データベース、特許、公的にアクセス可能な政府情報、辞書の定義、法律、株式市場のデータ、電話帳、および専門家のディレクトリが含まれています。

パスワード付きアクセス、サブスクリプション、または非サブスクリプション。

これには、VPN(virtual private networks)と、ページにユーザー名とパスワードが必要なwebサイトが含まれます。 アクセスは有料購読による場合とそうでない場合があります。 適用可能なコンテンツには、学術および企業のデータベース、新聞または雑誌のコンテンツ、および学術図書館の購読が含まれます。

時限アクセス

ニューヨーク-タイムズなどの主要なニュースソースのような一部のサイトでは、一定数のページビューの後に無料コンテンツにアクセスできなくな 検索エンジンはURLを保持しますが、ページはサインアップフォームを生成し、コンテンツはパスワードを必要とする新しいURLに移動されます。

通常、サイトのメインディレクトリにあるtxtファイルは、検索ロボットにどのファイルとディレクトリを索引付けすべきではないかを伝えます。 したがって、名前”ロボット除外ファイル。”このファイルが設定されている場合、特定のページが索引付けされないようにブロックされ、検索者には見えなくなります。 ブログのプラットフォームは、一般的にこの機能を提供しています。

非表示ページ

そのようなページに行くことができるハイパーリンククリックのシーケンスはありません。 ページはアクセス可能ですが、その存在を知っている人にのみアクセスできます。

目に見えないウェブについての神話

薬物、ポルノ、およびその他の違法行為は、理由のために深いウェブの側面について最も話題になっています。 電子通貨の一形態であるBitcoinsを使用してオンラインでヘロインを購入したり、武器を国際的に販売したりする人々の話は大きな見出しを作ります。

人々が気づいていないのは、違法行為以外にも目に見えないインターネットがたくさんあるということです。 ステレオタイプおよびboogeymanの物語はそれに訪問を支払うすばらしい理由の多数が実際にあるとき人々を深い網から離れた保つ。 ウェブサイトがブロックされ、インターネットのプライバシーが困難な中国などの国では、深いインターネットを使用して情報を共有し、自由に話すユーザーのコミュニティが増えています。 TORのようなブラウザは中国ではまだ比較的知られていませんが、サービスを使用する人の数は着実に増加しています。 トルコや他の政治的に激動の国の市民は、一緒に集まり、抗議を計画し、政府の注意深い目の外で地元のニュースを議論するために、深いインターネットを使用しています。

なぜ平均的なアメリカ人は深いインターネットを使いたいのでしょうか? 違法行為からの名声にもかかわらず、深いインターネットは、単純なGoogle検索でアクセスできないものです。 インターネットの90パーセントはdebの網のウェブサイトを通してだけ入手しやすい。 TOR自体を使用することは違法ではなく、多くの深いweb webサイトでも行われていません。 唯一の違法行為は、現実の世界で違法になるものです。 ディープウェブでは、希少で禁止された本を見つけたり、見つけにくいニュースを読んだり、ファンフィクションを読んだりすることができます。 インターネットの野生の西の考えは深い網を使用して再度生きている。

見えないコンテンツにアクセスして検索する方法

従来の手段でサイトにアクセスできない場合、実際のページではないにしても、コンテンツにアク 別にTORのようなソフトウェアから、大学や研究施設のような深いWebコンテンツを表示することを可能にしないエンティティの数があります。

目に見えない、または目に見えないコンテンツには、まだアクセスする方法がいくつかあります:

メンバーシップ

記録、研究、査読付きジャーナルへのアクセ

VPN

雇用主を介して仮想プライベートネットワークにアクセス

許可を求める

アクセスを要求します。

購読サービス

あなたがサポートしたい仕事を定期刊行物またはその他のリソースへの購読のために支払います。

適切なリソースを見つける

目に見えないWebディレクトリ、ポータル、またはGoogle Book SearchやLibrarian’s Internet Indexなどの特殊な検索エンジンを使用します。

教育におけるディープウェブの使用

では、教育者としてどこに来ますか? Deep webは、簡単なGoogle検索ではアクセスできない情報を見つけるために使用でき、学生や同僚にとって計り知れないほど有用であることが証明できます。

“ステレオタイプを破って、深いウェブ検索の使用を示すことは、学生のための刺激的な見通しである-彼らは、インターネットは、彼らが学校のプロジェ”

人々が理解していないものは、深いウェブ情報を正確に構成するものです。 大学図書館のウェブサイトからしかアクセスできない雑誌や書籍は、Googleでは検索できません。 そのファイアウォールを必要とする学生のために、深いwebウェブサイト上で検索する機能は、学校のために、以降の便利なツールになります。

は、隠された検索エンジンを見つける際の使用と、それらを通してどのような情報を見つけることができるかを学生に示します。 ステレオタイプを破って、深いウェブ検索の使用を示すことは、学生のための刺激的な見通しである—彼らは、インターネットは、彼らが学校のプロジェ あなたの地元の図書館は、グーグルではない情報のトンのソースになることができ、あなたの図書館を通して、あなたはJSTORやJURNなどの情報源を利用するこ 深いウェブソースを使用する方法の詳細については、Jane DevineとFrancine Egger-SiderによるGoing Beyond Google:The Invisible Web in Learning and Teachingの本をチェックしてください。

目に見えないWeb検索ツール

目に見えないコンテンツを見つけるのに役立つ目に見えないweb検索ツール(ディレクトリ、ポータル、エンジン)の小さなサンプ これらのような詳細を見るには、Googleの記事を超えて私たちの研究を見てください。

深いウェブ検索エンジンのリスト

目に見えないウェブを検索するためのパデューフクロウのリソース

アート

ルーヴル美術館

オンラインブック

オFreeLunch.com

金融-投資

銀行com

一般研究

GPO’S Catalog of US Government Publications

Government Data

Leave a Reply

コメントを残す

メールアドレスが公開されることはありません。