2


2

私は小さなWebクローラーを構築しています、そして誰かが実際の実装に関して何らかの興味深い情報を持っているのではないかと思っていました(ただクロール、検索、ランキング、分類なし、ただクロール、キス:)。

記録としては、私はすでにO’Reillyの "Spidering hacks"とNo Starch Pressの "Webbots、spiders、and screen scrapers"を持っている。 これらの本は優れていますが、物事を単純にしておく傾向があり、スケーリング、データの保存、並列処理、およびその他のより高度なトピックについてはあまり詳しく説明しません。 もちろん、私は既存のオープンソースクローラのコードをレビューすることができました、しかしそれは反対の端で起こっているでしょう(Cクローラは複雑に思える…​) 私はいくつかの興味深い/追加の情報を探しています。

どうぞよろしくお願いします。

1 Answer


2


Webクローラーの実装の詳細に関心がある場合は、既存のオープンソース実装を検討してください。 これが JavaでOpen Source Crawlersのリストです。 これらのプロジェクトのほとんどは非アクティブです。 しかしInternet Archiveのクローラー HeritixとApache Nutchは、学ぶべきことがたくさんある成熟した活発なプロジェクトです。