自然文検索とは
自然文検索は、入力した独自の文章(自然文)から文書を検索する機能です。利用者が入力した自然文から特徴的なキーワードを抽出し、抽出キーワードを検索条件として、データベースに対して全文検索を行います。
自然文検索は、次の2つの基本機能の組合せで実現しています。
- 関連語抽出機能
- 全文検索機能
1.関連語抽出機能
関連語抽出では、検索要求として与えられた自然文に出現するさまざまな単語の中から、特徴的と思われる語をキーワードとして抽出します。
特徴的であるかどうかということは、各語の出現頻度/出現文書数/出現分布等を組み合わせた計算式や、その語が内容を示す語であるかどうか(附属語などの不要語でないか)ということから判断します。
入力した文章が非常に短い場合、十分なキーワードが抽出できないこともあります。そのような場合には、特徴的と思われる文字列(検索システム側から見ると未知語に相当します)も抽出対象とすることによって、より柔軟で高精度な検索が行えるようになっています。
2.全文検索機能
全文検索では、関連語抽出機能で抽出された複数のキーワードのうち、少なくとも一つが出現している記事を検索します。つまり、抽出キーワードをand演算子でつないだ検索を行います。