0


0

任意のサーバーでログインしたままにするクローラーの作成

私はクローラーを書いています。 クローラーがWebサイトにログインした後、クローラーを "stay-always-logged-in"にしたいと思います。 どうやってやるの? クライアント(ブラウザ、クローラーなど)は、このルールに従うためにサーバーを作成しますか? このシナリオは、サーバーが1日の制限付きログインを許可している場合に発生する可能性があります。

1 Answer


5


「ログイン状態」は通常、Cookieで表されます。 そのため、ログイン時にそのサーバーから送信されたCookie情報を保存し、その後の各リクエストでそのCookieを送信する必要があります(Aiden Bellのメッセージthxに記載)。

この質問も参照してください。

実装方法に関するより包括的な記事:

最も簡単な例は、このマニュアルページの最後にあります。

通常のブラウザ(Firefoxなど)を使用して手動でログインすることもできます。 その後、そのブラウザーからCookieを保存し、クローラーで使用できるようになります。 ただし、このようなCookieは通常、限られた期間のみ有効であるため、長期的な完全自動化ソリューションではありません。 ただし、Webサイトからコンテンツを1回ダウンロードする場合は非常に便利です。

更新:

最近の質問で別の興味深いツールを見つけました。

このようなCookieベースのログインも実行できます。

私が言及した質問はここにあります:

https://stackoverflow.com/questions/1804694/scrapy-domainname-for-spider [スパイダーのスクレイピーdomain_name]

お役に立てれば。