4


3

httpに基づいていない、

http:// localhost:81のように

ローカルファイルシステム上の特定のディレクトリを直接クロールします。

方法はありますか?

2 Answer


4


  • _ Nutch Wikiから:_ *

ローカルファイルシステムにインデックスを付けるにはどうすればよいですか。

1)crawl-urlfilter.txtは、http:のものに従わずにfile:のURLを許可するように変更する必要があります。そうしないと、インデックスが作成されないか、ディスクからWebサイトにジャンプします。 この行を変更してください。

 -  ^(ファイル| ftp | mailto | https):

これに:

 -  ^(http | ftp | mailto | https):

2)crawl-urlfilter.txtの下部にはURLを拒否する規則があるかもしれません。 それがこの断片を持っているなら、それはおそらく大丈夫です:

#それ以外のものを受け入れる

3)nutch.xmlを次のように変更しました。



1


nutchはイントラネットのクロールを利用できます。 あなたは詳細を読むことができます here