1


0

私は小さなウェブサーバーを運営しています、そして最近、それはサーチエンジンスパイダーによってクリームになっています。 それを冷却するための適切な方法は何ですか? 5xxレスポンスを定期的に送信する必要がありますか? 使用すべきrobots.txt設定はありますか? または、他の何か?

6 Answer


6


このクモはrobots.txtを尊重するのに十分親切であると仮定すると、次のようにしてあなたのサイトへのアクセスを制限することができます。

ユーザーエージェント:*許可しない:/

これはすべてのクモに影響します。 クモの正しいユーザーエージェントを指定してそれを絞り込みます。

クローラがrobots.txtを尊重していない場合は、ファイアウォールでそのIPをブロックして、サイトへのアクセスを制限することをお勧めします。

編集:あなたはrobots.txt ここについての詳細を読むことができます。


2


Robots.txtがあなたの最初の電話になるはずです。 検索ボットはこれらの設定を書き留めて、アクセスを拒否しているページにアクセスしないようにします。 これはあなたのウェブサイトのルートに次の構文でファイルを作成することによって簡単に行われます:

ユーザーエージェント:*許可しない:/

その構文は本質的に言っています:すべての検索ボット(ワイルドカード*)、あなたは/の下に何かをインデックスすることはできません。 robotstxt.orgで詳細情報

これがうまくいかない場合、次のステップは可能ならIPアドレスを禁止することです。


1


また、http://www.sitemaps.org [sitemap]を作成して、そのサイトマップを問題のあるボットに登録することもできます。 検索エンジンはサイトマップを使ってどのページにどのページをどれだけの頻度でヒットさせるかを決定します。 あなたのサイトが完全に動的であるなら、それはそれほど役に立たないかもしれません、しかしあなたがたくさんの静的なページを持っているなら、それは何も日々変化しないことをクモに伝えるための良い方法です。


1


robots.txtを無視している場合、2番目に良いことはその有用な文字列で禁止することです。 最近では99%のクモが多数のサーバーに分散しているため、IPを禁止するだけではあまり役に立ちません。


0


ユーザーエージェント:*許可しない:/


0


robots.txtが最初の選択肢です。 しかし、ボットが正しく動作せず、ファイアウォールを制御できない場合は、IPで禁止するために.htaccess制限を設定することができます。