1


0

ある特定のもののために検索サービスを構築したいです。 データは、無料の機密サービス、およびその他多数のサイトを介して、無料で入手可能です。

ビルディングブロックはありますか。 私がカスタマイズできるオープンソースのクローラ - 最初から構築するのではなく、使用できるもの

そのような製品を作る上で何かアドバイスはありますか? 技術的なものだけでなく、私が考慮に入れる必要があるかもしれないあらゆるプライバシー/法的な事柄。

例えば。 結果がどこから来たものであるかについて「信用を与える」必要がありますか?そして、私が多くの場所からそれらを得るならば?

編集:ところで、私はフロントエンドにJSとGWTを使用していますが、バックエンドの言語を決めていません。 PHPまたはPythonのどちらか 考えですか?

2 Answer


2


あなたが使用できるpythonにはいくつかのブロックがあります。

  1. HTMLを解析するためのbeautifulsoup [http://www.crummy.com/software/BeautifulSoup/%5D] それはあまりにも悪いコードを扱うことができ、そしてそのAPIは非常に簡単です…​ 私にとってDOMのようなツールよりもずっと良い方法です。 私の友人は彼の古いphpbbフォーラムを成功裏にこすり落とすためにそれを使いました。 それはかなり良いドキュメントを持っています。

  2. mechanize [http://wwwsearch.sourceforge.net/mechanize/%5DはWebブラウザをシミュレートするhttpクライアントライブラリです。 クッキー、フォームへの記入などを処理します。 使い方も簡単ですが、httpがどのように機能するかを理解していれば役に立ちます。

  3. http://dev.scrapy.org/ - これは比較的新しいことです。ツイストベースの全体的なスクレイピングフレームワークです。 私はそれで遊んでいません。

私は自分のニーズに合わせて最初の2つを使います。 f.e. ユーザーがデータを入力するのを待つなどのシミュレーションで、3段階の投票のための自動テストツールを取得するには20行のコードが必要です。


0


私は5分ほどかかるスクリーンスクレーパーをRubyで作りました。 どうやら この男は60秒にそれを持っている! Rubyがあなたが探しているものと同じくらいスケーラブルで速いのかどうかはわかりませんが、概念実証やプロトタイプへのより早い道筋を見たことがありません。

その秘密は、 " hpricot"と呼ばれるライブラリです。

私はPHPやPythonについて何も知りませんし、それらの開発システムや言語に何が利用できるのかもわかりません。

がんばろう!