• Databricks
  • Databricks
  • ヘルプセンター
  • ドキュメント
  • ナレッジベース
  • コミュニティ
  • サポート
  • フィードバック
  • Databricksを試す
English
  • English
  • 日本語
  • Português
Amazon Web Services
  • Microsoft Azure
  • Google Cloud Platform
Databricks on AWS

はじめに

  • はじめに
  • Databricksとは
  • DatabricksIQ
  • リリースノート

データの読み込みと管理

  • ガイド
  • データベースオブジェクトの操作
  • データソースに接続する
  • コンピュートに接続する
  • データの発見
  • データのクエリー
  • データを取り込む
  • ファイルの操作
  • データを変換する
  • ワークフローのスケジュールとオーケストレーション
  • データとAIアセットを監視する
  • 外部システムでの読み取り
  • データの安全な共有

データの取り扱い

  • Delta Live Tables
    • 推奨されるワークロード
    • 制限事項
    • チュートリアル
    • パイプラインの開発
    • パイプラインを構成する
    • パイプラインの更新を実行する
    • データの読み込み、変換、書き込み
    • データ品質
    • モニタリングとオブザーバビリティ
    • 特権と ID
    • 言語リファレンス
  • 構造化ストリーミング
  • AIと機械学習
  • 生成AI チュートリアル
  • ビジネスインテリジェンス
  • データウェアハウジング
  • ノートブック
  • Delta Lake
  • 開発者
  • 技術パートナー

管理

  • アカウントとワークスペースの管理
  • セキュリティとコンプライアンス
  • データガバナンス(Unity Catalog)
  • レイクハウスアーキテクチャ

参考資料とリソース

  • 参考資料
  • リソース
  • 今後の予定
  • ドキュメントアーカイブ

更新しました 2025/02/18

フィードバックの送信

  • ドキュメント
  • Delta Live Tablesとは?
  • Delta Live Tables の推奨ワークロード

Delta Live Tables の推奨ワークロード

この記事では、Databricks 上の Delta Live Tables の推奨ワークロードについて説明します。

データの取り込み

Delta Live Tables は、チェンジデータキャプチャ (CDC) フィードなど、変更を含む追加専用ソースとソース からデータを取り込むことができます。 ストリーミング テーブルは、両方の種類のソース データの機能をサポートします。

追加専用のデータソースからデータを取り込む

ストリーミング テーブルは、追加専用データを取り込む場合に推奨されます。 追加専用とは、新しいデータのみがソース データに追加され、既存のデータは更新または削除されないことを意味します。 追加専用データの例を次に示します。

  • テーブル プロパティが delta.appendOnly = trueの Delta テーブル。

  • 新しいファイルを定期的に受信するクラウドストレージの場所。

  • イベントを含む Kafka トピック。

Delta Live Tables とストリーミング テーブルを使用したデータの取り込み (例を含む) の詳細については、 Delta Live Tables を使用したデータの読み込みを参照してください。

単一の追加専用ソースからデータを取り込む

ストリーミングテーブルは、任意の追加専用データソースからデータを取り込むことができます。

Delta Live Tables は、1 つの追加専用ソースをワークロードします。

複数の追加専用ソースからデータを取り込む

また、複数の追加専用データソースからストリーミングテーブルにデータを取り込むこともできます。 たとえば、複数の Kafka トピックのイベントを 1 つのストリーミングテーブルに書き込むことができます。 これを行うには、ストリーミングテーブルのクエリを 1 つのソースから読み取るように定義し、もう 1 つのソースのクエリに追加 フローを使用します。

Delta Live Tables は、複数の追加専用ソースをワークロードします。

追加専用のソースからの履歴データの取り込み

バックフィルは、追加専用ソース からデータを取り込む既存のデータセットがあり、履歴データをデータセットに一度だけ追加したい場合に使用できます。これを行うには、追加フロー クエリを使用して履歴データを読み込みます。 バックフィルを参照してください。

Delta Live Tables ワークロードは、1 回限りのバックフィルを持つ追加専用ソースです。

チェンジデータフィードとデータベーススナップショットの処理

Databricks では、 Delta Live Tables を使用して、1 つ以上のテーブルからの順不同の可能性のある変更のシーケンスを含むチェンジデータフィード (CDF) を処理することをお勧めします。 Deltaチェンジデータフィードは、Debezium、Qlik 、Amazon DMS などのシステムに加えて、 テーブルによって生成されます。Python または SQL を使用して、Delta Live Tablesでチェンジデータフィードを処理できます。

Databricksまた、Delta Live Tables 、チェンジデータフィードの代わりに、OracleMySQL データベース、 データベース、データウェアハウスから生成されたスナップショットなどのデータベーススナップショットを処理する必要がある場合にも、 を使用することをお勧めします。データベース スナップショットの処理は、Delta Live Tables Python インターフェイスでサポートされています。

CDF を処理するには、 APPLY CHANGES API を使用します。 APPLY CHANGES API を使用した CDC の実装方法を参照してください。

Delta Live Tables ワークロードの継続的な変更フィード。

データベース スナップショットを処理するには、 APPLY CHANGES FROM SNAPSHOT API を使用します。 APPLY CHANGES FROM SNAPSHOT APIによるCDCの実装方法を参照してください。

完全なスナップショットの Delta Live Tables シーケンス。

データの変換

Delta Live Tables には、データを変換するための 2 つのソリューションが用意されています。 マテリアライズドビューは、常に正しい結果を提供し、必要に応じてソースデータを自動的に再処理するため、デフォルトの選択肢として適しています。 ストリーミング テーブルは、非常に大きなストリームに対する複雑さの低い変換に推奨され、高度なユース ケースに推奨されます。

マテリアライズドビューによるデータの変換

マテリアライズドビューは、 Delta Live Tablesでの変換に推奨されるデフォルトです。 それらはシンプルで正確です。 ただし、マテリアライズドビューに対するクエリが正しい結果を返すように、マテリアライズドビューがすべての入力データを処理する可能性があるため、その欠点は待機時間が長くなることです。

マテリアライズドビューを使用した 1 つのテーブルの変換

マテリアライズドビューは、Delta テーブルまたはストリーミング テーブルから読み取り、入力データに対して任意の変換を実行できます。 マテリアライズドビューは、Databricks 以外のシステムによって生成されたものを含むすべての Delta テーブルを読み取ることができるため、移行やハイブリッド パイプラインに役立ちます。

1 つのテーブルの Delta Live Tables マテリアライズドビュー。

ファクト テーブルとディメンション テーブルをマテリアライズド ビューとjoin (ストリーム/スナップショットjoin)

マテリアライズド ビューでは、基本の Delta テーブルまたはストリーミング テーブルと "参照" Delta テーブルとの間で効率的な増分結合を実行できます。 これらの結合は、可能な限り増分的に処理されます。 マテリアライズドビューとストリーム スナップショットの結合で ウォーターマーク を使用する必要はありません。

Delta Live Tables のマテリアライズドビューのストリームとスナップショットのjoin

2 つのファクト テーブルのjoin (ストリーム-ストリームjoin)

マテリアライズドビューでは、2 つのストリーミング テーブルまたは Delta テーブル間で効率的な増分結合を実行できます。 これはストリーム-ストリームjoinと呼ばれ、マテリアライズドビューは可能な限り増分的に実行します。 マテリアライズドビューとストリームストリームのjoinで ウォーターマーク を使用する必要はありません。

Delta Live Tables のマテリアライズドビューのストリームとスナップショットのjoin

ストリーミングテーブルによるデータの変換

ストリーミングテーブルは、大量のストリーミングデータを低レイテンシーで変換する必要がある場合に推奨されます。

ストリーミング テーブルを使用した 1 つのテーブルの変換

ストリーミング テーブルは、任意の Delta テーブルまたは別のストリーミング テーブルからデータを変換するために使用できます。

このユースケースには、次の注意事項が適用されます。

  • ストリーミング テーブルの定義を更新すると、ストリーミング テーブル内の既存のデータは、完全に更新しない限り、変更を反映するように更新されません。

Delta Live Tables は 1 つのテーブルを変換します。

ストリーミング テーブルを使用したファクト テーブルとディメンション テーブルのjoin (ストリーム/スナップショットjoin)

ストリーミング テーブルによってファクト テーブルをディメンション テーブルとjoinできます。

このユースケースには、次の注意事項が適用されます。

  • ストリーミング テーブルの定義を更新すると、ストリーミング テーブル内の既存のデータは、完全に更新しない限り、変更を反映するように更新されません。

  • ルックアップ テーブルを更新しても、ストリーミング テーブル内の既存のデータは、完全に更新しない限り、変更を反映して更新されません。

Delta Live Tables ストリーミング テーブルのストリーム-スナップショットjoin

ストリーミング テーブルを使用した 2 つのファクト テーブルのjoin (ストリーム-ストリームjoin)

ストリーミング・テーブルは、2 つ以上のファクト・テーブルをjoinできます (ストリーム・ストリームjoinとも呼ばれます)。

このユースケースには、次の注意事項が適用されます。

  • ストリーミング テーブルの定義を更新すると、ストリーミング テーブル内の既存のデータは、完全に更新しない限り、変更を反映するように更新されません。

  • メモリ不足エラーを回避するには、結合の両側と集計でウォーターマークを使用する必要があります。

  • 順不同のデータは処理されず、データが不正確になる可能性があります。 このため、順不同のデータや到着が遅れたデータを手動で処理する必要があります。

ストリームとストリームの結合でのウォーターマークの使用を参照してください。

Delta Live Tables ストリーミングテーブルのストリーム-ストリーム join

© Databricks 2025 です。 全著作権所有。 Apache、Apache Spark、Spark、および Spark のロゴは、 Apache Software Foundation の商標です。

フィードバックをお送りください | プライバシーに関する通知 | 利用規約 | 現代奴隷制に関する声明 | カリフォルニア州のプライバシー | お客様のプライバシーに関する選択