1. ロボット技術
ロボットはロボット型検索エンジンと言う名前の元にもなっている、インターネットを常時巡回しているソフトウェアエージェントです。
ウェブサイトの情報を収集するためにインターネット上のウェブサーバーを徘徊すると言う意味からロボットは他にクローラーやスパイダーと呼ばれることもあります。
ロボットは検索エンジンに登録を希望するユーザーが検索エンジンのURL登録フォームで登録したURL、そしてすでに検索エンジンデータベースに登録されているURLを対象に定期的に巡回を行います。
また、巡回したURLからリンクが貼られている他のURLの情報も自動的に取得し、検索エンジンのデータベース情報を拡張していきます(ただしInfoseek は、予め指定されたURLしか巡回しないようです)。
2. インデックス技術
ロボットがインターネット上で収集した情報を検索エンジンのデータベースに登録する技術を「インデックス」または、「検索エンジンインデキシング(search engine indexing)」と呼びます。
ロボットは1つのウェブページに対して、URLを初めページファイル内に掲載されている文字情報を取得します。その情報を検索エンジンのデータベースに登録する際に、各ロボット型検索エンジンは独自のインデックス技術により、情報を検索しやすい形でデータベースに登録します。
3. クエリープロセス技術
検索エンジンデータベースを検索する際の技術であり、検索エンジンの核とも言える最も重要な技術になります。
ユーザーが検索エンジンの検索フォームからキーワード検索を行った際に、最もキーワードに関連すると思われるウェブサイト、ウェブページを検索エンジンのデータベースから抽出します。
ロボット型検索エンジン毎に「最もキーワードに関連すると思われる」条件の設定、情報の抽出技術(それがクエリープロレス技術です)に差があり、これが実際に各検索エンジンのデータベースに登録されている情報量以上に、ユーザーがキーワード検索された際に1ページ目、2ページ目に表示される内容を大幅に左右します。
ロボット型検索エンジンが、「いかにユーザーの目的にマッチングした情報を優先的に表示できるか」と言うことは各ロボット型検索エンジンが事業として運営されている以上、ロボット型検索エンジンの生命線であり、インターネット上の情報量が日々増加、莫大な情報が検索エンジンデータベースに登録されるようになってきた現在、クエリープロセス技術は常に進化し続けています。