複雑なデータ型の変換

June 12, 2024

ネストされたデータ型を操作する際、Databricks は特定の変換をすぐに最適化します。次のコード例は、Databricks で複雑でネストされたデータ型を操作するためのパターンを示しています。

この記事の内容:

ネストされたデータにアクセスするためのドット表記
ネストされたフィールドをすべて選択する
新しい入れ子になったフィールドを作成する
すべてのフィールドを列にネストする
入れ子になった列から名前付きフィールドを選択する
マップまたは配列からネストされた要素を分解する
リストまたはセットから配列を作成する
配列内のマップから列を選択する
ネストされたデータをJSONに変換する
JSONデータを複雑なデータに変換する
ノートブック: 複雑なデータ型を変換する

ネストされたデータにアクセスするためのドット表記

ドット表記 (.) を使用して、ネストされたフィールドにアクセスできます。

Python
SQL

df.select("column_name.nested_field")

ネストされたフィールドをすべて選択する

アスタリスク演算子(*)を使用して、特定のフィールド内のすべてのフィールドを選択します。

注：

これは、指定された深さでネストされたフィールドのみをアンパックします。

Python
SQL

df.select("column_name.*")

新しい入れ子になったフィールドを作成する

struct() 関数を使用して、入れ子になった新しいフィールドを作成します。

Python
SQL

from pyspark.sql.functions import struct, col

df.select(struct(col("field_to_nest").alias("nested_field")).alias("column_name"))

すべてのフィールドを列にネストする

スター演算子 ( * ) を使用して、データソースのすべてのフィールドを 1 つの列としてネストします。

Python
SQL

from pyspark.sql.functions import struct

df.select(struct("*").alias("column_name"))

入れ子になった列から名前付きフィールドを選択する

角括弧 [] を使用して、列から入れ子になったフィールドを選択します。

Python
SQL

from pyspark.sql.functions import col

df.select(col("column_name")["field_name"])

マップまたは配列からネストされた要素を分解する

explode() 関数を使用して、ARRAY型列とMAP型列から値をアンパックします。

ARRAY 列には、値がリストとして格納されます。 explode()で解凍すると、各値は出力の行になります。

Python
SQL

from pyspark.sql.functions import explode

df.select(explode("array_name").alias("column_name"))

MAP 列には、順序付けられたキーと値のペアとして値が格納されます。 explode()で解凍すると、各キーは列になり、値は行になります。

Python
SQL

from pyspark.sql.functions import explode

df.select(explode("map_name").alias("column1_name", "column2_name"))

リストまたはセットから配列を作成する

関数 collect_list() または collect_set() を使用して、列の値を配列に変換します。 collect_list() は列内のすべての値を収集し、 collect_set() は一意の値のみを収集します。

注：

Spark は、どちらの操作の結果の配列内の項目の順序も保証しません。

Python
SQL

from pyspark.sql.functions import collect_list, collect_set

df.select(collect_list("column_name").alias("array_name"))
df.select(collect_set("column_name").alias("set_name"))

配列内のマップから列を選択する

また、ドット表記 (.) を使用して、配列内に含まれるマップ内のフィールドにアクセスすることもできます。これは、指定されたフィールドのすべての値の配列を返します。

次のデータ構造について考えてみます。

JSON
{
  "column_name": [
    {"field1": 1, "field2":"a"},
    {"field1": 2, "field2":"b"}
  ]
}

次のクエリを使用して、 field1 から値を配列として返すことができます。

Python
SQL

df.select("column_name.field1")

ネストされたデータをJSONに変換する

複雑なデータ型を JSON に変換するには、 to_json関数を使用します。

Python
SQL

from pyspark.sql.functions import to_json

df.select(to_json("column_name").alias("json_name"))

クエリまたは DataFrame のすべてのコンテンツをエンコードするには、これをstruct(*)と組み合わせます。

Python
SQL

from pyspark.sql.functions import to_json, struct

df.select(to_json(struct("*")).alias("json_name"))

注：

Databricks は、統合システムとの相互運用性のために複雑なデータ型を変換するためのto_avroとto_protobufもサポートしています。

JSONデータを複雑なデータに変換する

from_json関数を使用して、JSON データをネイティブの複合データ型に変換します。

注：

JSON データのスキーマを指定する必要があります。

Python
SQL

from pyspark.sql.functions import from_json

schema = "column1 STRING, column2 DOUBLE"

df.select(from_json("json_name", schema).alias("column_name"))

ノートブック: 複雑なデータ型を変換する

次のノートブックには、Python、Scala、SQL の複雑なデータ型を操作するための例が示されています。