1


1

クローラを使用してWebコンテンツをマイニングすることで、いくつか分析を行っています。 Webページには、実際のコンテンツからユーザーの気をそらすような記事の本文の周りに雑然としたもの(広告、不要な画像、無関係なリンクなど)が含まれることがよくあります。

賢明なコンテンツを抽出することは、私が理解しているように、Webページ内のニュースストーリー/ブログ投稿/フォーラムのコメント/記事の実際の位置を定義する標準がないという事実を考えると、難しい問題です。

私はこのようないくつかのオープンソースソリューションを見つけることができました:https://metacpan.org/pod/HTML::ContentExtractor

しかし、誰かがこれに対処して合理的な成功率を得たのであれば、私は興味があります。 それはかなり一般的な問題のように思われます、そして私は多くの専門家がそこにいると信じたいです。 私はJAVAベースのソリューションを好むでしょうが、それは難しい規則ではありません。 いくつか入力してください。 深く感謝いたします。

2 Answer


1


理想的には、生のコンテンツを取得するためのRSSフィードを探すでしょう。

全体構造の標準ではありません 著者は、自分のページでさまざまな要素を定義します。 検索エンジンはこの分野に多大な投資をしてきました、そして彼らは内容を索引付けしてそしてある種の意味を得るために彼ら自身の秘密のソースを持っています

私たちが長い間予見されてきた「セマンティックウェブ」を手に入れるまで、私たちは任意のHTMLページの構造と意味についての知識がある推測をすることしかできません。

しかし、理論的には:

見出しタグを探します。 これらはあなたがどこから読み始めるべきかについての手がかりを与え、そして願わくは内容の重要な順序についての概要を与えるべきです。

共通の要素IDとクラスを探します。 よく構成されたサイトには、「++」のようなものがあるかもしれません

および「++」

これは、最近の意味と同じ意味です。 また、WordPress( "post")やDrupal( "node")などの一般的なCMSプラットフォームで使用されている標準の要素名を知っておいてください。 多くの場合、これらはコンテンツをマークアップするために使用されます。

大事なことを言い忘れましたが、http://microformats.org/ [microformats]を探してください。


0


このタスクを主な目的として、 プロジェクト数があります。

NPMパッケージ WCE(Javascript)は、フードの下にある他の多数のコンテンツ抽出モジュールを使用しているので興味深いものです。

申し訳ありませんが、この質問に早く回答するつもりでしたが、忙しかったです。