博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark技巧
阅读量:5873 次
发布时间:2019-06-19

本文共 1368 字,大约阅读时间需要 4 分钟。

hot3.png

1. 设置消息尺寸最大值

def main(args: Array[String]) {    System.setProperty("spark.akka.frameSize", "1024")}

2.与yarn结合时设置队列

val conf=new SparkConf().setAppName("WriteParquet")conf.set("spark.yarn.queue","wz111")val sc=new SparkContext(conf)

3.运行时使用yarn分配资源,并设置--num-executors参数

nohup /home/SASadm/spark-1.4.1-bin-hadoop2.4/bin/spark-submit--name mergePartition--class main.scala.week2.mergePartition--num-executors 30--master yarnmergePartition.jar >server.log 2>&1 &

4.读取impala的parquet,对String串的处理

sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

5.parquetfile的写

case class ParquetFormat(usr_id:BigInt , install_ids:String )val appRdd=sc.textFile("hdfs://").map(_.split("\t")).map(r=>ParquetFormat(r(0).toLong,r(1)))sqlContext.createDataFrame(appRdd).repartition(1).write.parquet("hdfs://")

 

6.parquetfile的读

val parquetFile=sqlContext.read.parquet("hdfs://")parquetFile.registerTempTable("install_running")val data=sqlContext.sql("select user_id,install_ids from install_running")data.map(t=>"user_id:"+t(0)+" install_ids:"+t(1)).collect().foreach(println)

7.写文件时,将所有结果汇集到一个文件

repartition(1)

8.如果重复使用的rdd,使用cache缓存

cache()

9.spark-shell 添加依赖包

 spark-1.4.1-bin-hadoop2.4/bin/spark-shell local[4] --jars code.jar

10.spark-shell使用yarn模式,并使用队列

spark-1.4.1-bin-hadoop2.4/bin/spark-shell --master yarn-client --queue wz111

转载于:https://my.oschina.net/u/877759/blog/490053

你可能感兴趣的文章
十进制、十六进制、二进制的转换
查看>>
双网卡centos7 iptables防火墙与/etc/rc.d/rc.local开机运行
查看>>
tomcat PermGen space 不足的解决方法
查看>>
STM32系统滴答_及不可不知的延时技巧 - (上)
查看>>
Linux下企业级分区方案
查看>>
CentOS下LAMP一键yum安装脚本
查看>>
拖来拖去今天终于重装系统了
查看>>
NestJS 脑图
查看>>
我的友情链接
查看>>
Html body的滚动条禁止与启用
查看>>
Tengine新增nginx upstream模块的使用
查看>>
多媒体工具Mediainfo
查看>>
1-小程序
查看>>
CentOS图形界面和命令行切换
查看>>
HTML5通信机制与html5地理信息定位(gps)
查看>>
Mind_Manager_2
查看>>
手动升级 Confluence - 规划你的升级
查看>>
汽车常识全面介绍 - 悬挂系统
查看>>
电子政务方向:We7.Cloud政府云门户
查看>>
虚拟机Centos7连接Internet
查看>>