读 Json
1 | var srcData = spark.read.json(srcPath) |
设置大小写敏感
1 | spark.conf.set("spark.sql.caseSensitive", "true") |
查询
group by
1 | df.groupBy("column-name").count().show(false) |
读 S3 数据
pyspark
安装
1 | pip3 install pyspark |
读取 s3 数据
1 | # 创建 spark session |
scala
1 | // 创建 Spark Session |
pom
1 | <dependency> |
DataFrame 操作
合并 DataFrame
1 | # 按行拼接 (列数不变) |
按行拼接
1 | %pyspark # zeppelin |
列操作
计算分布
1 | ndf = df.groupBy('age').count() |
创建 DataFrame
1 | # schema 1 |