跟着豆包学AI第四天（Windows版本）-尧图企业网站定制

今日主线安装Spark 3.5.0最适配 Ubuntu 24.04 Hadoop 3.3.x配置环境变量让 Spark连上 Hadoop测试运行打开 Web UI1、确认你的 Hadoop 是启动的jps必须看到NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager→5 个都有才继续2、下载 Spark适配 Hadoop3wget https://archive.apache.org/dist/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz3、解压tar -zxvf spark-3.5.0-bin-hadoop3.tgz4、移动到用户目录重命名为 sparkmv spark-3.5.0-bin-hadoop3 ~/spark5、配置环境变量必须做nano ~/.bashrc在文件最后一行添加export SPARK_HOME$HOME/spark export PATH$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin export HADOOP_CONF_DIR$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR$HADOOP_HOME/etc/hadoop保存退出CtrlO → 回车 → CtrlX生效source ~/.bashrc测试是否成功spark-submit --version出现版本号则成功6、复制配置模板cd ~/spark/conf cp spark-env.sh.template spark-env.sh cp spark-defaults.conf.template spark-defaults.conf67、编辑 spark-env.shnano spark-env.sh在最后一行添加export JAVA_HOME/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_CONF_DIR$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR$HADOOP_HOME/etc/hadoop export SPARK_DIST_CLASSPATH$(hadoop classpath)保存退出CtrlO → 回车 → CtrlX8、编辑 spark-defaults.confnano spark-defaults.conf在最后一行添加spark.master yarn spark.eventLog.enabled true spark.eventLog.dir hdfs://localhost:9000/spark-logs spark.history.fs.logDirectory hdfs://localhost:9000/spark-logs保存退出CtrlO → 回车 → CtrlX9、在 HDFS 上创建 Spark 日志目录hdfs dfs -mkdir -p /spark-logs hdfs dfs -chmod 777 /spark-logs10、启动 Sparkstart-master.sh start-worker.sh spark://localhost:7077 start-history-server.sh查看进程jps必须看到MasterWorkerHistoryServer→3 个都有 Spark 启动成功11、测试 Spark 基础命令11.1、测试 1进入 Spark 交互窗口spark-shell进入后输入val rdd sc.textFile(README.md) rdd.count()出现数字 Spark 本地模式成功退出:quit11.2、测试 2Spark 跑在 YARN 上真正对接 Hadoopspark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode client \ $SPARK_HOME/examples/jars/spark-examples_2.12-3.5.0.jar 10最后出现Pi is roughly 3.14xxxxSpark Hadoop 完全整合成功12、今天必须打开的 2 个 Web UISpark 集群管理http://localhost:8080Spark 历史任务查看http://localhost:18080两个都能打开今天任务 100% 完成13、你今天必须记住的 8 条命令spark-submit --version # 查看版本 spark-shell # 进入交互界面 start-master.sh # 启动主节点 start-worker.sh # 启动工作节点 start-history-server.sh # 启动日志服务 jps # 查看进程 stop-all.sh # 关闭所有 spark-submit --master yarn # 提交到YARNHadoop第四天的内容很多其中也出现了很多问题欢迎大家积极尝试出现问题我们可以相互交流一起解决一下。有学习快的伙伴也可以私信我要完整的学习路径文件。

相关新闻

影刀RPA店群自动化工程资产化：流程复用与低代码编排平台建设

基于MCP协议与Google Slides API实现AI对话到幻灯片自动化生成

【样式问题】将当前word所有文字样式、字体、字号大小 全局设置为以后任何一个新的空白文档都共享使用

如何快速实现电话号码定位查询：完整开源解决方案指南

基于VoIPBin Flows API构建AI智能IVR系统实战指南

Unity URP管线实战：用ShaderGraph的Triplanar节点搞定复杂地形贴图（附节点详解）

UE4项目纹理内存爆了？别慌，手把手教你调整r.Streaming.PoolSize搞定TEXTURE STREAMING POOL OVER BUDGET

免费突破百度网盘限速：Python工具助你实现10倍下载速度的终极方案

存内计算技术在后Transformer时代的挑战与优化

容器化Nextcloud离线部署协作应用实战：以Collabora为例

草莓成熟度检测数据集VOC+YOLO格式1487张3类别有增强

为什么android原生的不直接在开机的时候，直接启动usb调试模式呢，还需要用户去点击呢？

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

【样式问题】将当前word所有文字样式、字体、字号大小全局设置为以后任何一个新的空白文档都共享使用

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势