2


0

クローラーが作業を開始するための初期URLリスト

クローラーがウェブの最大部分をカバーできるように、クローラーが効率的にクロールを開始できるURLのリストが必要です。 別のホストの初期インデックスを作成する他のアイデアはありますか。 ありがとうございます

3 Answer


3



1


多分あなたが探索しようとしている問題のドメインからのキーワードの別の検索エンジンからの結果?


1


IMOそれは本当に重要ではありません-それらのURLがWebのさまざまな部分にリンクしている限り、あなたのクローラーが最も暗くない(すなわち、 リンク先)Web上のページ、遅かれ早かれ(おそらく、ウェブのサイズを考えると、後で)。

ウェブ上のさまざまな場所につながる多くのリンク(ヒントヒント)があるサイトのフロントページをお勧めします。

どこから始めても、リンクの不足は問題になりません-まったく逆に、あなたはどこに行ったのか、どこに行くべきかを追跡するアルゴリズムを実装する必要があります次に、半無限ループと無限ループを回避する方法。