db tech showcase

dbtsブログ

このエントリーをはてなブックマークに追加

【dbts2023 レポート】生成系AIに欠かせないベクトル検索を Amazon OpenSearch Service や Amazon Aurora/RDS で実現する方法

AI クラウド 中級者向け
【dbts2023 レポート】生成系AIに欠かせないベクトル検索を Amazon OpenSearch Service や Amazon Aurora/RDS で実現する方法

こんにちは、株式会社インサイトテクノロジー 開発本部 小浦方です。
db tech showcase 2023 H8セッション「生成系AIに欠かせないベクトル検索をAmazon OpenSearch Service や Amazon Aurora/RDS で実現する方法」のレポートをお届けします。

セッション概要

「ベクトル検索」とは、テキストや画像、音声などのメディア情報をベクトルとして表現して、類似したデータを返す検索手法です。ベクトル検索は、生成系AIのアプリケーションでも用いられ、近年注目を集めており、それに伴いベクトルの保存及び検索に特化した「ベクトルDB」の利用も増加しています。

このセッションでは、Amazon OpenSearch Serviceや Amazon Aurora/RDSのベクトルDBとしての機能や、どのようなユースケースでベクトル DBを活用できるかについての紹介がありました。

スピーカー名:Amazon Web Services Japan G.K.
プロトタイプエンジニアリング本部
Prototyping Engineer
後藤 駿介様

まとめ

セッションの序盤では、ベクトル検索とは何か、そしてユースケースにはどういったものがあるかが述べられました。

ベクトル検索とは、テキストや画像、音声などのメディアの情報をベクトル(N 次元の数値列)として表現し、ベクトルが類似したメディアを見つける技術です。ベクトル検索により、従来のキーワード検索では不可能だった画像検索なども可能となり、また近年はキーワード検索とベクトル検索を組み合わせた「ハイブリッド検索」も使われるようになってきました。ベクトル検索の代表的なユースケースは、画像検索の他、商品情報をベクトル化することによる「レコメンド」、生成AIアプリケーションと組み合わせる「RAG (RetrievalAugmented Generation)」が挙げられます。

次に、ベクトル検索のアルゴリズムについての説明がありました。近似k-NN (k-最近傍)アルゴリズムとして、HSNW (Hierarchical Navigable Small Worlds) とIVF (Inverted File)、及び両者の比較について述べられました。HNSWの方がクエリの精度が高く、また学習も不要である一方で、IVFはメモリ消費やベクトルインデキシングのレイテンシーが抑えられる利点があるとのことでした。また、実際の検索においては、パフォーマンスや精度のために、k-NN検索を行う対象をメタデータ属性など用いて「フィルタリング」することもしばしば必要であることも述べられました。

セッションの後半は、AWSで提供されているベクトル検索、ベクトル生成の各種サービス及び新機能についての紹介があり、OpenSearchを使用したベクトル検索やフィルタリングの実際の例などにも触れられました。構築したいサービスの要件によって、利用する検索アルゴリズムやベクトルDBを適切に選択することが重要であることも述べられました。

感想

ベクトル検索の中身のアルゴリズムについての説明もあり、利用するサービスやモジュールについてはアルゴリズムレベルで理解しておきたいエンジニアとしては有難かったです。

また筆者は機械学習エンジニアでもあるので、ベクトル検索のアルゴリズムやベクトルDBの適切な選択はもちろん、ベクトル生成(変換)のアルゴリズムについても、データや課題、その他要件に応じた適切な選択をする必要があると感じました。

一覧に戻る