16


17

私はたくさんのウェブページを索引付けする必要があります、どんな良いウェブクローラユーティリティがそこにありますか? 私は.NETが話すことができる何かの後であることが望ましいですが、それはショーストッパーではありません。

私が本当に必要としているのは私がにサイトURLを与えることができる何かです

6 Answer


12


HTTrack - http://www.httrack.com/ - は非常に優れたウェブサイトのコピー機です。 かなりうまくいきます。 長い間使ってきました。

NutchはWebクローラーです(クローラーはあなたが探しているプログラムのタイプです) - http://lucene.apache.org/nutch/ - それは一流の検索ユーティリティluceneを使います。


4


http://code.google.com/p/crawler4j/[Crawler4j]は、Webをクロールするためのシンプルなインターフェイスを提供するオープンソースのJavaクローラーです。 あなたは5分でマルチスレッドWebクローラーを設定することができます。

ページにアクセスするかどうか(URL)に独自のフィルタを設定し、ロジックに従ってクロールされたページごとに何らかの操作を定義できます。

  • crawler4jを選択するいくつかの理由; *

    1. マルチスレッド構造

    2. 深さをクロールするように設定できます。

    3. Javaベースでオープンソースです。

    4. 冗長リンク(URL)の制御

    5. クロールするページ数を設定できます。

    6. クロールするページサイズを設定できます。

    7. 十分な資料


2


http://Searcharoo.net[Searcharoo.NET]には、コンテンツをクロールして索引付けするクモと、それを使用するための検索エンジンが含まれています。 Searcharoo.Indexer.EXEコードをダウンロードしたときにコンテンツをトラップし、そこから独自のカスタムコードを追加する方法を見つけることができるはずです。

これは非常に基本的なものです(すべてのソースコードが含まれており、6つのCodeProject記事で説明されています。最新の記事は Searcharoo v6です)。スパイダーはリンク、イメージマップ、画像をたどり、ROBOTS指令に従い、HTML以外のファイルタイプを解析します。 単一のWebサイト(Web全体ではありません)を対象としています。

Nutch / Luceneは、ほぼ確実に、より堅牢で商用グレードのソリューションです。 - しかし、私は彼らのコードを見ていません。 何を達成したいのかわからないが、 Microsoft Search Server Expressも見たことがありますか?

免責事項:私はSearcharooの作者です。オプションとしてここで提供するだけです。


1


http://www.sphider.eu/[Sphider]はかなり良いです。 これはPHPですが、役に立つかもしれません。


1


私は MozendaのWebスクレイピングソフトウェアを使います。 あなたは簡単にそれがすべてのリンクをクロールしてあなたが必要とするすべての情報をつかむことができたそしてそれはお金のための素晴らしいソフトウェアです。


0


まだ使っていませんが、http://www.vsj.co.uk/dotnet/display.asp?id = 407 [これ]はおもしろいですね。 著者はそれを一から書き、自分のやり方を書いた。 そのためのコードもダウンロード可能です。