福彩北京快3走势图

Spark submit 参数调优是否有一定标准或者规律?

问答 ? 潇洒劫个妞 ? 于 2019-05-14 18:16:58 ? 最后回复由 青牛 2019-05-16 08:45:21 ? 244 阅读

看了很多文章,但是大多数都只是告诉你这四个参数是什么作用。

唯有16年的Spark Summit大会上Top 5 Mistakes When Writing Apache Spark Applications演讲专题提到了一种计算方法(固定executor-cores为5,每太理解为什么他说超过5 hdfs 的thoughout会降低)并手把手的教了怎么计算。但是我实?#20160;?#35797;过程中效果并不好。(见下图,程序很简单就是读取数据存入hdfs as parquet file,没有多余操作。当时所有节点也基本空闲,没有其他业务运作)
file

Spark submit 调参是不是玄学?(我后来一次出现过一千万量级数据我使用了第20排那个配比,并没有达到20分钟的效果,用了一小时)
如果不是玄学,它们的配比确?#30340;?#26126;显影响到运作效率,是否有什么?#22363;?#33021;够明确展示几个参数见得关系和影响?(类似上述演讲中的计算方式)

成为第一个点赞的人吧 :bowtie:
回复数量: 1
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    ? 2019-05-16 08:45:21

    你的环境、版本、机器、配置、运行的数据集都和表格中的一样吗

暂无评论~~
Ctrl+Enter
福彩北京快3走势图
体彩p5分析预测 新时时彩分析软件 福建36选7中奖开奖 体彩大乐透中奖规则 旅行社销售怎么赚钱 北京pk10计划群 捕鱼来了黄金弹头 河北排列7开奖时间 湖北十一选五遗漏数据 六合图库4117网址