17


3

GOOGLE NEWSのように、類似のニュースコンテンツをグループ化する

さまざまなニュースサイトに投稿されている圧倒的な数の新しいストーリーや類似のニュースコンテンツのため、RSSフィードを簡単に管理できません。 世界ニュースやビジネスニュースなどの主題の場合、多くのストーリーは冗長であり、読者が既に読んだストーリーを整理する負担が増えます。 フラッディングと冗長性という2つの問題に対処するには、読み取る項目の数を減らし、重複する情報を使用して興味深いトピックを見つけるコードを開発する必要があります。

GOOGLE NEWS / StackOverflowのように類似のニュースコンテンツをグループ化して、ユーザーに提示できれば簡単です。

5 Answer


9


これは間違いなくそれほど簡単に解決できない問題であり、次の方法で解決できます。

  • スマートテキスト解析関数

  • 生のハードウェアパワー

  • どちらも

  • テスト、テスト、テスト

  • 最後に微調整

まず、さまざまなニュースソースを比較的幅広いカテゴリにグループ化します。 Techニュースソースが経済カテゴリでニュースを公開しないことを簡単に判断できます。 (または、それが問題です。)

ほとんどの場合、ニュースのタイトルは変更されず、せいぜい元の形式のままです。 したがって、カテゴリ、タイトル、および発行日は、ニュースを1つにグループ化するための良い出発点です。

上記の方法で問題を検出した場合は、内部で微調整が必​​要です。

記事全体を読み、2つの(数千の)記事を単語ごとに比較する必要があるかもしれません。

  • 比較を歪める可能性のあるストップワードがたくさんあるので、 これらは無視する必要があります。

  • 同義語を定義することもできます(J Lo = Jennifer Lopez)

ニュースの生のテキストが類似している場合(しきい値を定義できます)、他の要因を再度比較できます(上記を参照)。

RSSソースに適切なタグ付けを提供するニュースソースがあります。これも使用できますが、それに依存することはできません。

そして、覚えておいて、あなたは最初(約1年)に多くの微調整が必​​要になります、その後、あなたは大丈夫です。


2


ここには質問はありませんが、記事の単語、名前、タイトル、日付などを使用して、何らかの指紋アルゴリズムを開発することから始めます。 次に、フィンガープリントの類似性を確認して同一の記事を見つけます。おそらく、何らかの種類のMapReduceジョブを使用して、クラスター内の別のサーバーに作業を簡単に分散させます。

インスピレーションが必要な場合は、Google Living Storiesのソースコードをご覧ください:http://code.google.com/p/living-stories/


2


私はどこかで読んだ-参照はしていない-Google Newsは、MinHashのバリアントを使用して、ほぼ重複したニュース投稿を検出している。 そして、それらの多くはほとんど同一であり、新聞社によるわずかな改編のみがあった報道機関からのものです。

参照と、GoogleニュースがLSHとMinHashのバリアントを使用したという声明があります。

_ ダス、アブヒナンダンS. 他。 (2007)、「Googleニュースパーソナライゼーション:スケーラブルなオンライン共同フィルタリング」、World Wide Webに関する第16回国際会議の議事録。 ACM _


1


Jaccard CoefficientまたはJaccard Similarityを試してみるべきだと思います

Jaccard類似度係数(Paul Jaccardによって元々作成されたcomacnauté係数)としても知られるJaccardインデックスは、サンプルセットの類似性と多様性を比較するために使用される統計です。 ジャカード係数は、有限のサンプルセット間の類似性を測定し、交差点のサイズをサンプルセットの和集合のサイズで割ったものとして定義されます。 Jaccarrd Coefficient。

Facebookはこれと一部のeコマースストアを使用して、関連する製品、投稿などをグループ化すると考えています。 Stackoverflowのガイドでこれらの他のリンクをご覧ください。


-1


何らかの形式のドキュメントクラスタリングを行う必要があります。 これには以下が含まれます。

  • 記事を「機能」に分解する(たとえば、TF-IDFベクトル キーワードの)

  • 類似度メトリック(たとえば、コサイン類似度、 2つの記事を取り、それらの類似性を判断します)

  • 類似性メトリックを使用して分割するクラスタリングアルゴリズム 記事をクラスターにまとめます。

これはニュースであり、新しい記事が届くので、おそらくバッチアルゴリズムではなく「オンライン」アルゴリズムが必要になります。 例として増分DBSCANを検索します。