PySpark 使用pyarrow指定版本

背景說明

在 PySpark 3.1.3 環境中，當需要使用與集群環境不同版本的 PyArrow (如 1.0.0 版本)時，可以通過以下方法實現，而無需更改集群環境配置

完整操作說明

去pyarrow·PyPI下載對應版本的whl文件
后綴whl直接改成zip
解壓后有兩個文件夾，分別是pyarrow和pyarrow-1.0.0.dist-info
直接把那兩個文件夾打包成pyarrow.zip

因為pyarrow里不是單純的python代碼，還有C擴展，所以不能用--py-files 參數，只能放在--archives參數里

spark -submit spark-submit \--master yarn \--deploy-mode cluster \  --executor-memory 4G \--num-executors 10 \--archives /my_path/pyarrow-1.0.0.zip#pyarrow  #必須添加的參數your_script.py

#pyarrow?表示在容器內解壓到?./pyarrow?目錄

pyspark里要添加對應代碼

from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.functions import pandas_udf
import pyspark.sql.types as T
import pandas as pd
import os, sys# 初始化Spark并配置Arrow支持
spark = SparkSession.builder.config("spark.sql.execution.arrow.pyspark.enabled", "true").getOrCreate()# 加載自定義PyArrow
**pyarrow_dir = os.path.join(os.getcwd(), "pyarrow") # 對應 --archives 中的解壓目錄
sys.path.insert(0, pyarrow_dir)  # 添加到 Python 路徑**import pyarrow
print("pyarrow version ", pyarrow.__version__) # 應顯示 1.0.0# 定義大寫轉換UDF
@pandas_udf(T.StringType())
def uppercase(s: pd.Series) -> pd.Series:return s.str.upper()# 數據讀取和處理
df = spark.read.load("my_path_tofile/*").select("version")
df.withColumn("hh", uppercase(F.col("version"))).show()

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/85204.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/85204.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/85204.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！