6


4

検索エンジンパーサーフロー図

検索エンジンパーサーの設計図がどこにあるか知っていますか? ユーザー入力の処理方法を理解する必要があります。 どの機能/アルゴリズムが使用されていますか? 条件。 etc.

Googleである必要はありません。

質問を検索エンジンパーサーに更新しました

2 Answer


6


最初に検索エンジンについてよりよく理解する必要があります。 通常あります

1)Webクローラー。検索データスペースに追加するドキュメントを取得するもの。 これは通常、「検索エンジン」と呼ばれるものの範囲外です。

2)ドキュメントを取得し、インデックス可能なテキストフラグメントに分割するパーサー。 通常、さまざまなファイル形式、人間の言語で動作し、いくつかの固定レコードとフローテキストのテキストを前処理しています。 言語アルゴリズム(ステマーなど-ポーターステマーを検索して単純なものを取得する)もここで適用されます。

3)ドキュメントごとの単語の逆リストのように単純な場合もあれば、Googleのように賢くしようとする場合は必要に応じて複雑な場合もあるインデクサー。 インデックスの構築は、成功する検索エンジンの本当に魔法の部分です。 通常、複数のランキングアルゴリズムがまとめられています。

4)オプションのクエリ言語を備えたフロントエンド。 これはグーグルが本当に悪いところですが、グーグルの成功でわかるように、それは98%の人々にとってそれほど重要ではないかもしれません。 しかし、私は本当にこれが恋しいです。

(3)インデクサーを求めていると思います。 基本的に、古典的な情報検索の文献には2種類のアルゴリズムがあります。 ベクトル空間モデルとブール検索。 後者は簡単です。検索ワードがドキュメント内にあるかどうかを確認し、ブール値を返します。 各検索語には、関連する確率を与えることができます。 また、さまざまな検索用語に対して、ベイジアン確率を使用して関連度を合計し、追加して最高ランクのドキュメントを返すことができます。 ベクトルモデルは、ドキュメントをすべての単語のベクトルとして扱います。ドキュメント間のスカラーベクトル積を構築して、ドキュメントが互いに近接しているかどうかを判断できます。これは、はるかに複雑な理論です。 IR(情報検索)の父はジェラルドサルトンでした。彼の名前でたくさんの文献を見つけるでしょう。

これは1999年までのIR技術の状態でした(1998年にusenetニュース検索エンジンに関する卒業証書を書きました)。 それからグーグルは来て、すべての理論は学問的な愚かさと実用的な非関連のゴミ箱に入った。

Googleは主流のIR理論に基づいていませんでした。 スリランガンがそれについてあなたに与えたリンクを読んでください。 その多くは、多くのさまざまなソースに基づいたアドホック関連機能です。 この分野では、ホワイトペーパーマーケティングblablabla以外に何も見つかりません。 このアルゴリズムは、検索エンジン企業のビジネス上の秘密であり、資本です。

単純な検索エンジンについては、lucenceライブラリまたはdtsearchをご覧ください。dtsearchは、組み込み可能な検索エンジンライブラリとして常に私の選択でした。

オープンソースの世界には、IRテクノロジーに関するサンプルコードや入手可能な情報はあまり多くありません。 lucenseのようなそれらのほとんどは、最も原始的な操作を実装しているだけです。 本を購入し、大学図書館に行って研究文献にアクセスする必要があります。

文献として、この本から始めることをお勧めしますhttps://rads.stackoverflow.com/amzn/click/com/1558605703[link text] http://ecx.images-amazon.com/images/I/41HKJYHTQDL.BO2 204,203,200_PIsitb-sticker-arrow-click、TopRight、35、-76_AA240_SH20_OU01.jpg [alt text http://ecx.images-amazon.com/images/I/41HKJYHTQDL.BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight 、35、-76_AA240_SH20_OU01.jpg]


2


大規模ハイパーテキストWeb検索エンジンの構造 Sergey Brin and Lawrenceページhttp://infolab.stanford.edu/~backrub/google.html