Mosaic AI Vector Searchのベストプラクティス

この記事では、Mosaic AI Vector Search を最も効果的に使用するためのヒントをいくつか紹介します。

レイテンシーを最適化するための推奨事項

ネットワークに最適化されたルートを活用するには、サービスプリンシパル承認フローを使用します。
Python SDK の最新バージョンを使用してください。
テストするときは、約 16 から 32 のコンカレンシーから開始します。同時実行性が高くても、高いパフォーマンスは得られません。
トークン単位の従量課金基盤モデルの代わりに、トークン最大限のパフォーマンスで提供されるモデル (たとえば、bge-large-en または微調整されたバージョン) を使用します。

GPU を使用する場合

CPU は、基本的なテストと小さなデータセット (最大 100 行) にのみ使用します。
GPU コンピュートタイプの場合、 Databricks GPU-small または GPU-medium の使用を推奨しています。
GPU コンピュートスケールアウトの場合、同時実行性を高めると取り込み時間が改善される可能性がありますが、合計データセットサイズやインデックスメタデータなどの要因によって異なります。

画像、ビデオ、またはテキスト以外のデータの操作

埋め込みを事前に行い、自己管理型の埋め込みで Delta Sync Index を使用します。
画像などのバイナリ形式は、待機時間に悪影響を与えるため、メタデータとして保存しないでください。代わりに、ファイルのパスをメタデータとして格納します。

埋め込みシーケンスの長さ

埋め込みモデルのシーケンスの長さをチェックして、ドキュメントが切り捨てられていないことを確認します。たとえば、BGE は 512 個のトークンのコンテキストをサポートします。より長いコンテキスト要件の場合は、 gte-large-en-v1.5 を使用します。

トリガーによる同期モードを使用してコストを削減する

検索インデックスを更新するための最もコスト効率の高いオプションはTriggeredです。数秒の遅延でソーステーブルの変更にインデックスを増分同期する必要がある場合にのみ、 [連続]を選択します。どちらの同期モードも増分更新を実行し、最後の同期以降に変更されたデータのみが処理されます。