6


4

ウィキペディア全体をクロールする方法は?

WebSphinxアプリケーションを試しました。

wikipedia.orgを開始URLとして指定すると、それ以上クロールされません。

したがって、ウィキペディア全体を実際にクロールする方法は? 誰かがいくつかのガイドラインを教えてもらえますか? これらのURLを具体的に探して検索し、複数の開始URLを配置する必要がありますか?

WebSphinxのAPIの使用に関するチュートリアルで、良いWebサイトの提案がありますか?

6 Answer


44


ウィキペディア全体をクロールすることが目標の場合、利用可能なデータベースダンプを確認することをお勧めします。 http://download.wikimedia.org/を参照してください。


4


わからないが、おそらくWEbSphinxのUserAgentはウィキペディアのrobots.txtによってブロックされている


2


そのために必要な構成を選択できなかったと思います。 詳細に切り替え、サブドメインをクロールし、ページサイズと時間を無制限にします。

ただし、* WebSphinx はおそらく Wikipedia *全体をクロールできません。データが大きくなると速度が低下し、最終的に200MB近くのメモリが使用されます。 Nutch、http://crawler.archive.org/index.html[Heritrix]およびhttp://code.google.com/p/crawler4j/[Crawler4j ]。


0


おそらく、ランダムな記事から始めて、その記事からアクセスできるすべての記事をクロールする必要があります。 その検索ツリーが使い果たされたら、新しいランダムな記事から始めます。 最も多くの記事につながると思われる用語を検索にシードするか、またはフロントページの特集記事から始めます。

別の質問:なぜWebSphinxはさらにクロールしなかったのですか? ウィキペディアは「WebSphinx」として識別されるボットをブロックしますか?


0


上記のWikipediaデータベースダンプの使用に加えて、WikipediaのAPIを使用して、100個のランダムな記事の取得などのクエリを実行できます。


-1


ウィキペディアの構造化バージョンであるhttp://dbpedia.org/[dbpedia]をご覧ください。