バッチ推論と予測のためのモデルをデプロイする

この記事では、Databricks がバッチ推論に推奨する内容について説明します。

Databricksでのリアルタイムモデルサービングについては、「Mosaic AI Model Servingを使用したモデルのデプロイ」を参照してください。

バッチ推論に ai_query を使用する

プレビュー

Databricks バッチ推論には、モデルサービングと ai_query を使用することをお勧めします。 ai_queryは、を使用して既存のモデルサービングエンドポイントをクエリできる組み込みDatabricks SQL SQL関数です。数十億トークンの範囲のデータセットを確実かつ一貫して処理することが確認されています。この AI 関数の詳細については、ai_query 関数を参照してください。

迅速な実験のために、ai_query LLMは、ワークスペースで事前に構成されているトークン単位の従量課金エンドポイントを使用したバッチ推論に使用できます。

大規模なデータまたは本番運用データに対してバッチ LLM 推論を実行する準備ができたら、 Databricks は、パフォーマンスを高速化するためにプロビジョニングスループットエンドポイントを使用することをお勧めします。

プロビジョニングプロビジョン済みスループットエンドポイントを作成するには、プロビジョン済みスループット基盤モデル APIs を参照してください。
ai_queryを使用したバッチ LLM 推論の実行を参照してください。

従来の ML モデルのバッチ推論の例については、次のノートブックを参照してください。

名前付きエンティティ認識ノートブックの BERT を使用したバッチ推論

ノートブックを新しいタブで開く