|
LIKA/ver6 for UNIX |
LIKAについて |
LIKAとは全文検索エンジンの名前で、日本語のフリーワード検索ができるプログラムです。 基本機能として日本語が通ることはもちろん、カタカナひらがなや全角半角文字を同一視したり、一般記号を無視した検索が可能です。 また、大変動作が軽いので比較的低速のサーバーPCでも高速に検索することができ、正しいHTML文章を出力し、シンプルな作りで、できる限り保守が簡単なのが特徴です。 この検索エンジンは窪田しのぶにより1991年にFMRのMS−DOS上で動作するサブルーチンとして誕生し、のちにTOWNS版、PC−9801版、OS/2warp版、Windows32bit版と開発され、現在はUNIX版が開発されています。 |
LIKAの簡単なしくみ |
LIKAは大まかに分けて、インデクサ部、検索部、CGI部の3つで構成されています。 インデクサ部はロボット部が収集してきたりCGI部から受け渡されたデーターを検索部が処理しやすいようにオプティマイズして中間データーとして掃き出します。 この際、完全な形態素解析を行うのはレンタルサーバーにはつらいので2文字にぶっつり切ってトークン化させてしまうので、短いキーワードでの検索には再現率が大幅に低下する欠点がありますが、インデクシング時の軽さはもとより辞書に無いようなキーワードでも確実にトークン化できるという利点があります。 特に音楽系のサーチエンジンでの利用の場合はほとんどの場合が曲名などで検索されており、そういったキーワードは辞書には存在しないので、適合率を下げるデメリットはあまり影響になりません。 検索部はCGI部から受け渡されたデーターをインデクサ部オプティマイズした中間データーからポインタをみつけて、再度CGI部に検索結果と合わせてHTML文章も生成して返します。 簡単なあいまい検索も可能で、ひらがなカタカナの同一視や、英数字の全半角大小文字の同一視、特殊記号の有無の同一視などの機能も搭載しています。 CGI部はperlなどからのcgiスクリプトから検索に関する処理を一手に引き受けるサブルーチンとして動作します。 すべてコール一発で呼び出すことができ、通常のサブルーチンとなんらかわりはありません。 検索エンジンをそのまま呼び出したりするのは色々と面倒なので、一定の手続きを省略する目的で置いています。 wwwブラウザにNetscapeを利用した場合に、半角カナを自動的に全角カナに置き換える機能のみ搭載しています。 ロボット部は指定されたスケジュールリストを元にデーター収集を繰り返し、データーをインデクサ部に随時引き渡します。 詳しい動作原理は検索エンジンに関係ないので割愛します。 |