4


6

ヘリックスのクロールからtext / html以外をすべて除外するにはどうすればよいですか?

On:http://www.crawler.archive.org/articles/user_manual/usecases.html[Heritrix Usecases]「成功したHTMLページのみを保存する」のユースケースがあります

私の問題:cxmlファイルでそれを実装する方法がわかりません。 特に:ARCWriterProcessorにContentTypeRegExpFilterを追加する⇒ regexp設定をtext / html。*に設定します。 …​ サンプルのcxmlファイルにはContentTypeRegExpFilterはありません。

2 Answer


6


クリスの答えは真実の半分にすぎません(少なくとも私が使用しているHeritrix 3.1.xでは)。 DecideRuleは、ACCEPT、REJECT、またはNONEを返します。 ルールがNONEを返す場合、それはこのルールに「意見がない」ことを意味します(Spring SecurityのACCESS_ABSTAINなど)。 現在http://builds.archive.org:8080/javadoc/heritrix-3.1.1/org/archive/modules/deciderules/ContentTypeMatchesRegexDecideRule.html[ContentTypeMatchesRegexDecideRule](他のすべてのhttp://builds.archive.org:8080と同様) /javadoc/heritrix-3.1.1/org/archive/modules/deciderules/MatchesRegexDecideRule.html[MatchesRegexDecideRule])は、正規表現が一致する場合に決定を返すように構成できます(2つのプロパティ "decision"および "regex"で構成)。 この設定は、正規表現が一致する場合、このルールはACCEPT決定を返しますが、一致しない場合はNONEを返すことを意味します。 そして、私たちが見てきたように、NONEは意見ではないので、決定が行われていないのでshouldProcessRuleはACCEPTに評価されます。

したがって、text / html * Content-Typeを含む応答のみをアーカイブするには、デフォルトですべてが拒否され、選択されたエントリのみが受け入れられるDecideRuleSequenceを構成します。

これは次のようになります。

その画像、映画などを避けるために まったくダウンロードされない場合、MatchesListRegexDecideRuleで「スコープ」Beanを設定し、次のような既知のファイル拡張子を持つURLを拒否します。

         .*(?i)(\.(avi|wmv|mpe?g|mp3))$
         .*(?i)(\.(rar|zip|tar|gz))$
         .*(?i)(\.(pdf|doc|xls|odt))$
         .*(?i)(\.(xml))$
         .*(?i)(\.(txt|conf|pdf))$
         .*(?i)(\.(swf))$
         .*(?i)(\.(js|css))$
         .*(?i)(\.(bmp|gif|jpe?g|png|svg|tiff?))$


1


引用するユースケースはやや時代遅れで、Heritrix 1.xを参照しています(フィルターは決定ルールに置き換えられ、非常に異なる構成フレームワークです)。 それでも基本的な概念は同じです。

cxmlファイルは基本的にSpring構成ファイルです。 ARCWriter Beanのプロパティ「shouldProcessRule」を「ContentTypeMatchesRegexDecideRule」に設定する必要があります

可能なARCWriter構成:


これにより、プロセッサはDecideRuleに一致するアイテムのみを処理し、指定された正規表現に一致するコンテンツタイプ(MIMEタイプ)を持つアイテムのみを渡します。

「決定」設定に注意してください。 私たちの外で物事を支配していますか? (私の例では、物事を除外し、一致しないものは除外します)。

`shouldProcessRule`はプロセッサから継承されるため、これはどのプロセッサにも適用できます。

Heritrix 3の構成に関する詳細は、https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+User+Guide [Heritrix 3 Wiki](crawler.archive.orgのユーザーガイドにあります。ヘリトリックスについて1)