1


0

例外を除いてすべてのディレクトリのスパイダーを禁止する簡潔な方法

とにかく、指定されたディレクトリを除くすべてのコンテンツのインデックス作成を禁止する_robots.txt_ファイルを作成する必要はありますか?

現在、_disallow_が唯一の有効な方法です。これは、どのディレクトリを除外しないかを明示的に指定する必要があることを意味します。

誰もがこの問題に取り組んでいますか?

1 Answer


1


本当に良い解決策はありません。 あなたが言ったように、あなたはすべてを禁止することができ、それは世界に物事を発表します。

  • 現在のURL構造に縛られていない場合は、検討することができます 「許可」ディレクトリを作成し、そこに目的のコンテンツをシンボリックリンクします。 次に、トップレベルのディレクトリを禁止するだけです。

  • あるいは、ボット用のサーバー側のフィルターを作成することもできます ユーザーエージェント。 `robots.txt`の主要なものを許可し、適切な応答コードでサーバー側のアクセスをフィルタリングし、他のすべてをブロックします。 これはおそらく他のオプションよりも悪いソリューションですが、正規のURLを保持します。