Spark数据分析1_环境配置-尧图企业网站定制

第3章大数据实验环境搭建初学者整理版本章目标搭建一个完整的大数据实验环境包括1️⃣ Linux系统2️⃣ Hadoop3️⃣ MySQL4️⃣ Kafka5️⃣ Anaconda Python环境所有软件都运行在Linux系统上。一、Linux环境安装1 下载Linux系统推荐版本Ubuntu Kylin 16.04 LTS原因对电脑配置要求低与大数据软件兼容好下载地址https://www.ubuntu.org.cn/download/ubuntu-kylin版本选择内存推荐2GB32位4GB64位二、虚拟机安装Linux推荐软件VMware Workstation下载VMware-workstation-full-17.0.1.exe1 创建虚拟机VMware步骤创建新的虚拟机 → 典型安装 → 选择 ISO 镜像选择ubuntukylin-16.04-desktop-amd64.iso2 设置账户例如用户名dblab 密码1234563 虚拟机配置建议配置配置推荐内存≥4GB磁盘50GB - 100GB4 打开终端方法1CTRL ALT T方法2点击Terminal三、安装 Hadoop 前准备1 创建hadoop用户在终端执行sudouseradd-mhadoop-s/bin/bash设置密码sudopasswdhadoop加入管理员权限sudoadduser hadoopsudo2 更新软件源sudoapt-getupdate3 安装SSHsudoapt-getinstallopenssh-server测试SSHsshlocalhost第一次输入yes4 配置SSH免密码登录进入ssh目录cd~/.ssh生成密钥ssh-keygen-trsa授权cat./id_rsa.pub./authorized_keys测试sshlocalhost无需密码即成功。四、安装 Java 环境Hadoop依赖Java。1 创建JDK目录cd/usr/libsudomkdirjvm2 解压JDKcd~/Downloadssudotar-zxvfjdk-8u371-linux-x64.tar.gz-C/usr/lib/jvm3 配置环境变量编辑文件vim~/.bashrc加入exportJAVA_HOME/usr/lib/jvm/jdk1.8.0_371exportJRE_HOME${JAVA_HOME}/jreexportCLASSPATH.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH${JAVA_HOME}/bin:$PATH4 让环境变量生效source~/.bashrc5 测试Javajava-version成功显示java version 1.8.0_371五、安装 Hadoop推荐版本Hadoop 3.3.5下载https://archive.apache.org/dist/hadoop/core/hadoop-3.3.51 解压Hadoopsudotar-zxf~/下载/hadoop-3.3.5.tar.gz-C/usr/local进入目录cd/usr/local重命名sudomvhadoop-3.3.5 hadoop修改权限sudochown-Rhadoop ./hadoop2 检查安装cd/usr/local/hadoop ./bin/hadoop version如果显示版本信息说明成功。六、Hadoop三种运行模式模式说明单机模式本地运行伪分布式单机模拟集群分布式多机器集群七、Hadoop单机模式创建输入文件cd/usr/local/hadoopmkdirinput复制配置文件cp./etc/hadoop/*.xml ./input运行示例./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jargrep./input ./outputdfs[a-z.]查看结果cat./output/*如果再次运行需要删除rm-r./output八、伪分布式配置修改 core-site.xml路径/usr/local/hadoop/etc/hadoop/core-site.xml配置configurationpropertynamehadoop.tmp.dir/namevaluefile:/usr/local/hadoop/tmp/value/propertypropertynamefs.defaultFS/namevaluehdfs://localhost:9000/value/property/configuration修改 hdfs-site.xmlconfigurationpropertynamedfs.replication/namevalue1/value/propertypropertynamedfs.namenode.name.dir/namevaluefile:/usr/local/hadoop/tmp/dfs/name/value/propertypropertynamedfs.datanode.data.dir/namevaluefile:/usr/local/hadoop/tmp/dfs/data/value/property/configuration格式化NameNodecd/usr/local/hadoop ./bin/hdfs namenode-format成功显示successfully formatted启动Hadoop./sbin/start-dfs.sh查看进程jps会看到NameNode DataNode SecondaryNameNode九、HDFS测试创建用户目录hdfs dfs-mkdir-p/user/hadoop创建输入目录hdfs dfs-mkdirinput上传文件hdfs dfs-put./etc/hadoop/*.xml input运行MapReducehadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jargrepinput outputdfs[a-z.]查看结果hdfs dfs-catoutput/*十、安装 MySQL更新软件源sudoapt-getupdate安装sudoapt-getinstallmysql-server启动MySQL停止servicemysql stop启动servicemysql start登录MySQLmysql-uroot-p密码hadoop十一、解决MySQL乱码查看编码showvariableslikechar%;修改配置vim/etc/mysql/mysql.conf.d/mysqld.cnf加入character_set_serverutf8重启servicemysql restart十二、安装 Kafka下载kafka_2.12-3.5.1.tgz解压cd~/Downloadssudotar-zxvfkafka_2.12-3.5.1.tgz-C/usr/local重命名sudomvkafka_2.12-3.5.1 kafka启动 Zookeepercd/usr/local/kafka ./bin/zookeeper-server-start.sh config/zookeeper.properties启动 Kafka新终端./bin/kafka-server-start.sh config/server.properties创建Topic./bin/kafka-topics.sh--create\--zookeeperlocalhost:2181\--replication-factor1\--partitions1\--topicwordsendertest查看Topic./bin/kafka-topics.sh--list--zookeeperlocalhost:2181生产者./bin/kafka-console-producer.sh\--broker-list localhost:9092\--topicwordsendertest输入hello hadoop hello flink消费者./bin/kafka-console-consumer.sh\--bootstrap-server localhost:9092\--topicwordsendertest\--from-beginning十三、安装 Anaconda下载Anaconda3-2023.07-2-Linux-x86_64.sh安装sh./Anaconda3-2023.07-2-Linux-x86_64.sh安装过程中Do you accept license → yes十四、配置Anaconda镜像创建配置文件vim~/.condarc写入channels:-defaultsshow_channel_urls:truedefault_channels:-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free十五、创建Python环境Spark需要Python3.8。创建环境conda create-npysparkpython3.8激活环境conda activate pyspark测试python退出exit()总结整个大数据环境包括Linux │ ├─ Java │ ├─ Hadoop │ ├─ MySQL │ ├─ Kafka │ └─ Anaconda Python这是Spark / Flink / 大数据课程实验的基础环境。

相关新闻

网络安全技术研究：渗透测试环境和APP安全测试教程（二）

新电脑需要安装的软件

数据结构和算法之【递归】

零售长期需求预测实战：XGBoost混合架构与业务可解释性设计

STM32与M95M02-DR EEPROM的高效存储方案实现

Linux 【03- chgrp命令超详细教程】

终极免费GTA5菜单工具：YimMenu全面防护与游戏增强指南

医疗AI落地实战：从影像分析到临床决策的工程方法论

EM3080-W与PIC18F97J60的条形码识别系统设计

塞尔达传说旷野之息存档修改器：3分钟掌握海拉鲁世界自由定制技巧

基于Si4731和STM32的智能收音系统开发指南

错过这6个SonarLint高级技巧，你在IDEA里写的每行代码都可能成为生产事故源头——资深架构师20年代码治理血泪总结

管理者的六个层次

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

38.工业通用 PLC 分拣模板！传感器去抖 + 气缸互锁 + 状态机 + 超时报警全套

基于Dify与DeepSeek构建私有知识库问答系统实战指南

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

NVIDIA显示器色彩校准终极指南：5分钟实现专业级sRGB色彩还原