当前位置:首页 > 技术类 > windows10环境下搭建spark on yarn源码调试环境

windows10环境下搭建spark on yarn源码调试环境

微信用户2年前 (2023-03-13)技术类2284

    spark 3.0.0版本刚出炉,官方称相比2.4版本,性能提升了2倍。考虑到生产环境下 spark on yarn的模式居多,本文在Windows10环境下,搭建spark on yarn的源码阅读调试环境。使得最新功能能够以最快的速度反哺生产环境,进一步提升线上性能。spark3.0的最新功能可以参考官方博客内容:https://databricks.com/blog/2020/06/18/introducing-apache-spark-3-0-now-available-in-databricks-runtime-7-0.html

依赖工具

1.jdk 1.8

2.scala 2.12

3.maven 3.6

4.IDEA

5.winutils.exe (对应hadoop版本2.9.2)

6.hadoop (2.9.2)

7.spark3.0

步骤

    winutils.exe是在Windows系统上需要的hadoop调试环境工具,里面包含一些在Windows系统下调试hadoop、spark所需要的基本的工具类,另外在使用eclipse调试hadoop程序时,也需要winutils.exe 。下载地址:https://github.com/steveloughran/winutils 下载后的winutils.exe放到HADOOP_HOME/bin目录下。

设置hadoop环境变量

在系统变量path里增加%HADOOP_HOME%\bin

windows10环境下搭建spark on yarn源码调试环境

下载spark源码

在spark官方网站下载spark源码:https://spark.apache.org/

下载后进行解压,进入源码根路径,因为想要调试在yarn下和kubernetes下的资源调度流程,设置yarn 和kubernetes选项:

./build/mvn -Pyarn -Dhadoop.version=2.9.2 -Phive -Phive-thriftserver -Pkubernetes -DskipTests clean package

windows10环境下搭建spark on yarn源码调试环境

耐心等待半个小时左右。编译结果如下

windows10环境下搭建spark on yarn源码调试环境

将编译后的代码导入IDEA

用git bash以管理员身份运行build/spark-build-info 用以生成spark-version-info.properties文件 build/spark-build-info D:\opensource\spark-3.0.0\core\target\extra-resources\ 3.0.0 将生成的spark-version-info.properties文件复制到spark-core_2.12-3.0.0.jar的根目录下。(复制之前先检查根目录下是否存在spark-version-info.properties,不存在再复制)在conf目录下复制log4j.properties.template,重命名为log4j.properties将spark\assembly\target\scala-2.12\jars目录下的所有jar包添加到classpath中。

windows10环境下搭建spark on yarn源码调试环境

运行JavaLogQuery示例代码:

windows10环境下搭建spark on yarn源码调试环境

本地运行的方式调试成功。接下来配置调试spark on yarn 的方式。

首先启动hadoop单点服务,启动namenode,datanode,yarn.

首先通过start-dfs.cmd和start-yarn.cmd启动hadoop环境.

windows10环境下搭建spark on yarn源码调试环境

windows10环境下搭建spark on yarn源码调试环境

yarn

windows10环境下搭建spark on yarn源码调试环境

我们仍然以JavaLogQuery为例,设置相关的启动参数。

windows10环境下搭建spark on yarn源码调试环境

运行

windows10环境下搭建spark on yarn源码调试环境

查看yarn的web界面

windows10环境下搭建spark on yarn源码调试环境

之后我们可以从SparkSubmit.scala为入口,设置断点进行debug跟读了。


本篇文章来源于微信公众号:                 大数据技术圈

免责声明
    本网站在国家相关法律法规规定的范围内,只按现有状况提供文章发布第三方网络平台服务,本网站及其所有者非交易一方,也非交易任何一方之代理人或代表;同时,本网站及其所有者也未授权任何人代表或代理本网站及其所有者从事任何网络交易行为或做出任何承诺、保证或其他类似行为,除非有明确的书面授权。
    鉴于互联网的特殊性,本网站无法鉴别和判断相关交易各主体之民事权利和行为能力、资质、信用等状况,也无法鉴别和判断虚拟交易或正在交易或已交易之虚拟物品来源、权属、真伪、性能、规格、质量、数量等权利属性、自然属性及其他各种状况。因此,交易各方在交易前应加以仔细辨明,并慎重考虑和评估交易可能产生的各项风险。

扫描二维码推送至手机访问。

版权声明:本文由点度点度金讯时代-BLOG发布,如需转载请注明出处。

本文链接:https://lmwmm.com/post/601.html

标签: windows10
分享给朋友:

“windows10环境下搭建spark on yarn源码调试环境” 的相关文章

在 Raspberry Pi 上使用 Python 播放声音

在 Raspberry Pi 上使用 Python 播放声音

今天,我需要在 Python 脚本中通过树莓派上的 USB 音频设备播放 MP3 或 WAV 文件。“应该很容易吧! ”我想!好吧,几个小时后,我决定写这篇博客文章来记录最简单的方法,因为我不得不花费相当长的时间才能到达真正通过...

【树莓派基础系列教程】2、远程连接树莓派

【树莓派基础系列教程】2、远程连接树莓派

远程连接树莓派核心思想 在联网的状态下,我们可以通过一个叫做SSH的东西,从本地登陆到任何一台我们已知用户名和密码,并且开放了22端口的Linux主机上。SSH本质是建立在应用层基础上的一种安全协议,有兴趣的可以自行Google一下。所以,...

苹果电脑MacBook使用谷歌浏览器翻译的方法

苹果电脑MacBook使用谷歌浏览器翻译的方法

自从上次写了《解决Chrome浏览器翻译无法使用》,有不少苹果MacBook电脑的用户加我微信,咨询我怎么在MacBook上正常使用谷歌翻译的方法,下面就详细说明一下。谷歌翻译终于退出中国,访问原本谷歌翻译的本地化域名,会提示收藏新的网址,...

为什么AutoGPT这么火爆?手把手带你安装和体验AI自主机器人

为什么AutoGPT这么火爆?手把手带你安装和体验AI自主机器人

最近几天,一直在忙自己的AIHub.cn网站,目前已经上线了几百款优质AI产品和教程近日,AI界貌似出现了一种新的趋势:自主人工智能。继ChatGPT后,一个叫AutoGPT的开源项目火了,短短几天,在GitHub star达到近4万了,可...

问情问心,又如何问得清

问情问心,又如何问得清

本篇文章来源于微信公众号: 美在高处...

Gemini :谷歌发布最强AI大模型!打爆GPT-4

Gemini :谷歌发布最强AI大模型!打爆GPT-4

 1.Gemini 官网:【链接直达】2.谷歌Bard:【链接直达】 谷歌Gemini背后技术的杀手锏,便是原生多模态(natively multimodal)。因为以往创建多模态大模型的方法,通常是为不同的模态训练单独...