18


5

Perl WebクローラーでJavascriptを処理するにはどうすればよいですか?

Webサイトをクロールしたいのですが、問題は、ボタンなどのJavaScriptの機能がいっぱいで、ボタンを押してもURLは変更されず、ページ上のデータが変更されることです。

通常、LWP / Mechanizeなどを使用してサイトをクロールしますが、どちらもJavaScriptをサポートしていません。 何か案が?

5 Answer


7


http://search.cpan.org/sprout/WWW-Scripter-0.019/lib/WWW/Scripter.pod[WWW::Scripter]モジュールにはhttp://search.cpan.org/sprout/WWWがあります-Scripter-Plugin-JavaScript-0.006 / lib / WWW / Scripter / Plugin / JavaScript.pm [JavaScript plugin]便利かもしれません。 ただし、自分で使用したとは言えません。


7


別のオプションはhttp://seleniumhq.org/[Selenium] with WWW::Selenium module


5


WWW::Mechanize::Firefoxは役に立つかもしれません。 そうすれば、複雑なJavaScriptの問題をFirefoxで処理してから、結果のhtmlを抽出できます。


1


IE / Firefox / ChromeのiMacrosは非常に柔軟なWebスクレーパーであり、Perlから制御できます:http://wiki.imacros.net/Perl


0


HtmlUnitとPerlラッパーをお勧めします:http://search.cpan.org/~awwaiid/WWW-HtmlUnit-0.21/lib/WWW/HtmlUnit.pm[WWW

HtmlUnit]。