Spark 中創建 DataFrame 的2種方式對比

spark.createDataFrame(data).toDF("name", "age")

和

spark.createDataFrame(spark.sparkContext.parallelize(data), schema)

創建df的方式有什么區別？

在 Spark 中，創建 DataFrame 的方式有多種，其中兩種常見的方式是：

spark.createDataFrame(data).toDF("name", "age")
spark.createDataFrame(spark.sparkContext.parallelize(data), schema)

這兩種方式的主要區別在于?數據來源?和?模式（Schema）的定義方式。下面詳細分析它們的區別和適用場景。

1.?`spark.createDataFrame(data).toDF("name", "age")`

特點

數據來源：data?是一個本地集合（如?Seq?或?List），Spark 會將其并行化為分布式數據集（RDD）。
模式推斷：Spark 會自動推斷數據的模式（Schema），并根據列的順序為列命名。
列名指定：通過?toDF("name", "age")?顯式指定列名。

示例

import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().appName("DataFrame Example").master("local[*]").getOrCreate()// 數據是一個本地集合
val data = Seq(("Alice", 25), ("Bob", 30), ("Charlie", 35))// 創建 DataFrame，并指定列名
val df = spark.createDataFrame(data).toDF("name", "age")df.show()

輸出：

+-------+---+
|   name|age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
+-------+---+

適用場景

數據量較小，可以直接在本地集合中定義。
不需要顯式定義復雜的模式（Schema）。
列名可以通過?toDF?簡單指定。

2.?`spark.createDataFrame(spark.sparkContext.parallelize(data), schema)`

特點

數據來源：data?是一個本地集合，通過?spark.sparkContext.parallelize(data)?將其顯式轉換為 RDD。
模式定義：需要顯式定義一個模式（StructType），指定每列的名稱和數據類型。
靈活性：適合處理復雜的數據結構（如嵌套結構體）。

示例

import org.apache.spark.sql.{SparkSession, Row}
import org.apache.spark.sql.types._val spark = SparkSession.builder().appName("DataFrame Example").master("local[*]").getOrCreate()// 數據是一個本地集合，每個元素是一個 Row 對象
val data = Seq(Row("Alice", 25),Row("Bob", 30),Row("Charlie", 35)
)// 定義模式
val schema = new StructType().add(StructField("name", StringType, nullable = false)).add(StructField("age", IntegerType, nullable = false))// 創建 DataFrame
val df = spark.createDataFrame(spark.sparkContext.parallelize(data), schema)df.show()

輸出：

+-------+---+
|   name|age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
+-------+---+

適用場景

數據量較大，需要顯式并行化為 RDD。
數據結構復雜，需要顯式定義模式（Schema）。
需要更精確地控制列的數據類型和是否允許為空。

3.?主要區別

特性	`spark.createDataFrame(data).toDF("name", "age")`	`spark.createDataFrame(spark.sparkContext.parallelize(data), schema)`
數據來源	本地集合（自動并行化為 RDD）	本地集合（顯式并行化為 RDD）
模式定義	自動推斷模式	需要顯式定義模式（`StructType`）
列名指定	通過?`toDF`?指定列名	在模式中定義列名
數據類型控制	自動推斷數據類型	可以顯式指定每列的數據類型
是否允許為空	默認允許為空	可以顯式指定是否允許為空
適用場景	簡單數據結構，數據量較小	復雜數據結構，數據量較大

4.?選擇哪種方式？

使用?spark.createDataFrame(data).toDF("name", "age")?的情況：
- 數據量較小，可以直接在本地集合中定義。
- 數據結構簡單，不需要顯式定義模式。
- 列名可以通過?toDF?簡單指定。
使用?spark.createDataFrame(spark.sparkContext.parallelize(data), schema)?的情況：
- 數據量較大，需要顯式并行化為 RDD。
- 數據結構復雜，需要顯式定義模式。
- 需要精確控制列的數據類型和是否允許為空。

5.?復雜數據結構示例

如果需要處理嵌套結構體（如數組或結構體），推薦使用顯式定義模式的方式。

示例：嵌套結構體

import org.apache.spark.sql.{SparkSession, Row}
import org.apache.spark.sql.types._val spark = SparkSession.builder().appName("Nested DataFrame Example").master("local[*]").getOrCreate()// 數據是一個本地集合，包含嵌套結構
val data = Seq(Row("Alice", Row("Java", 5)),Row("Bob", Row("Python", 4))
)// 定義模式
val schema = new StructType().add(StructField("name", StringType, nullable = false)).add(StructField("skill", new StructType().add(StructField("name", StringType, nullable = false)).add(StructField("level", IntegerType, nullable = false))))// 創建 DataFrame
val df = spark.createDataFrame(spark.sparkContext.parallelize(data), schema)df.printSchema()
df.show()

輸出：

root|-- name: string (nullable = false)|-- skill: struct (nullable = false)|    |-- name: string (nullable = false)|    |-- level: integer (nullable = false)+-----+----------+
| name|     skill|
+-----+----------+
|Alice| [Java, 5]|
|  Bob|[Python, 4]|
+-----+----------+

總結

spark.createDataFrame(data).toDF("name", "age")：適合簡單場景，自動推斷模式。
spark.createDataFrame(spark.sparkContext.parallelize(data), schema)：適合復雜場景，顯式定義模式。

根據數據結構和需求選擇合適的方式即可！如果還有其他問題，歡迎繼續提問。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/897914.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/897914.shtml
英文地址，請注明出處：http://en.pswp.cn/news/897914.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！