跟着豆包学AI第四天(Windows版本)

跟着豆包学AI第四天(Windows版本) 今日主线安装Spark 3.5.0最适配 Ubuntu 24.04 Hadoop 3.3.x配置环境变量让 Spark连上 Hadoop测试运行 打开 Web UI1、确认你的 Hadoop 是启动的jps必须看到NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager→5 个都有才继续2、下载 Spark适配 Hadoop3wget https://archive.apache.org/dist/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz3、解压tar -zxvf spark-3.5.0-bin-hadoop3.tgz4、移动到用户目录重命名为 sparkmv spark-3.5.0-bin-hadoop3 ~/spark5、配置环境变量必须做nano ~/.bashrc在文件最后一行添加export SPARK_HOME$HOME/spark export PATH$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin export HADOOP_CONF_DIR$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR$HADOOP_HOME/etc/hadoop保存退出CtrlO → 回车 → CtrlX生效source ~/.bashrc测试是否成功spark-submit --version出现版本号则成功6、复制配置模板cd ~/spark/conf cp spark-env.sh.template spark-env.sh cp spark-defaults.conf.template spark-defaults.conf67、编辑 spark-env.shnano spark-env.sh在最后一行添加export JAVA_HOME/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_CONF_DIR$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR$HADOOP_HOME/etc/hadoop export SPARK_DIST_CLASSPATH$(hadoop classpath)保存退出CtrlO → 回车 → CtrlX8、编辑 spark-defaults.confnano spark-defaults.conf在最后一行添加spark.master yarn spark.eventLog.enabled true spark.eventLog.dir hdfs://localhost:9000/spark-logs spark.history.fs.logDirectory hdfs://localhost:9000/spark-logs保存退出CtrlO → 回车 → CtrlX9、在 HDFS 上创建 Spark 日志目录hdfs dfs -mkdir -p /spark-logs hdfs dfs -chmod 777 /spark-logs10、启动 Sparkstart-master.sh start-worker.sh spark://localhost:7077 start-history-server.sh查看进程jps必须看到MasterWorkerHistoryServer→3 个都有 Spark 启动成功11、测试 Spark 基础命令11.1、测试 1进入 Spark 交互窗口spark-shell进入后输入val rdd sc.textFile(README.md) rdd.count()出现数字 Spark 本地模式成功退出:quit11.2、测试 2Spark 跑在 YARN 上真正对接 Hadoopspark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode client \ $SPARK_HOME/examples/jars/spark-examples_2.12-3.5.0.jar 10最后出现Pi is roughly 3.14xxxxSpark Hadoop 完全整合成功12、今天必须打开的 2 个 Web UISpark 集群管理http://localhost:8080Spark 历史任务查看http://localhost:18080两个都能打开 今天任务 100% 完成13、你今天必须记住的 8 条命令spark-submit --version # 查看版本 spark-shell # 进入交互界面 start-master.sh # 启动主节点 start-worker.sh # 启动工作节点 start-history-server.sh # 启动日志服务 jps # 查看进程 stop-all.sh # 关闭所有 spark-submit --master yarn # 提交到YARNHadoop第四天的内容很多其中也出现了很多问题欢迎大家积极尝试出现问题我们可以相互交流一起解决一下。有学习快的伙伴也可以私信我要完整的学习路径文件。