インターネットの膨大な情報から欲しい情報をさがす技術
検索のために圧縮技術が必要に
コンピュータには、ファイルデータの大きさを小さくする「データ圧縮」という技術があります。メモリやハードディスクの容量が小さく、価格が高価だった時代は、節約のためにできるだけデータを小さくする必要がありました。また、当時は通信速度も遅かったので、データを小さくして送るのが基本でした。しかし、ハードウェアの価格が下がり、ブロードバンドが普及した現在は、データを小さくする必要性は低くなりました。
それでもインターネットの発達によって扱うデータ量が爆発的に増え、今度はデータを保存する場所の確保のためではなく、検索のためにデータ圧縮が必要になってきたのです。年々コンピュータのスピードは速くなっていますが、情報量の増加が激しく、検索には時間がかかってしまいます。そこで、ソフトウェアの世界では多くの情報の中から欲しい情報を短時間で取り出す技術が求められているのです。
圧縮したまま検索して高速にする
一般的なテキスト検索では、検索語を頭から探していきます。時間がかかるのは、すべてのデータを見るという作業を行うからです。しかも、データが大きいと、すべてのデータをメモリに一度に読み込むことができないため、何度もデータをメモリに読み込む作業が必要です。もし1回の読み込みだけで検索できれば、短時間で検索できるはずです。そのために圧縮技術が使われます。しかし、ここで問題が生じます。検索するには、圧縮され、形の変わったデータを元の形に戻す必要があるからです。この問題を解決するために、圧縮する際に元のデータの索引をつけるという技術が研究されています。検索は、元のデータではなく索引を対象に行われます。これなら大きなデータであっても、短時間で検索することができます。
ただ、索引を元データと同じように検索するのは、簡単ではありません。実は、索引をつける際に元データの構造も反映される工夫がなされています。このようにして、通常の検索と変わらない精度を維持しようとしています。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。