7


6

Twitterのトレンドトピックアルゴリズムは、ツイートから抽出する単語をどのように決定しますか?

https://stackoverflow.com/questions/787496/what-is-the-best-way-to-compute-trending-topics-or-tags [この質問]は、「Brittney Spears」問題に焦点を当てています。 しかし、少し違う質問があります。 アルゴリズムはどの単語またはフレーズをランク付けする必要があるかをどのように決定しますか? たとえば、「マイケルジャクソンが亡くなった」というツイートを送信した場合、「マイケルジャクソンは」死亡したのに「マイケルジャクソンは」死亡したことをどうやって知るのでしょうか。

または、アレック・ボールドウィンとスティーブン・ボールドウィンがその日のニュースに載っていたので、両方とも多くのツイートで言及されたと仮定します。 「Baldwin」を単に引き出すのではなく、両方の名前を異なる方法で処理することをどのように知っていますか?

単純に、この問題はNP完全であると考えることができました(ツイート内のすべての潜在的なフレーズを、他の全員のツイート内のすべての潜在的なフレーズと比較する必要があります)。

2 Answer


2


この問題の一般的な解決策は、http://en.wikipedia.org/wiki/Tf%E2%80%93idf ["term frequency、inverse document frequency"(tf-idf)]を使用することです。

これは、あまり見られないため、他よりも関連性の高い単語や用語を見つける統計的アプローチです。 この場合、「Michael Jackson」という名前は、一般的な英語の単語「died」に比べて頻度が非常に低い可能性があります。

アレックボールドウィン対。 スティーブン・ボールドウィン-これらはhttp://en.wikipedia.org/wiki/Part-of-speech_tagging[part-of-speech tagging]で個別として識別されます-それらは個々の固有名詞としてタグ付けされます。


2


共通の単語セットを探すと思います。 また、彼らはhttp://www.whatthetrend.com/を参照しているようです。

これに加えて、わずかな人間の制御も含まれる場合があります。