Spark数据分析1_环境配置

Spark数据分析1_环境配置 第3章 大数据实验环境搭建初学者整理版本章目标搭建一个完整的大数据实验环境包括1️⃣ Linux系统2️⃣ Hadoop3️⃣ MySQL4️⃣ Kafka5️⃣ Anaconda Python环境所有软件都运行在Linux系统上。一、Linux环境安装1 下载Linux系统推荐版本Ubuntu Kylin 16.04 LTS原因对电脑配置要求低与大数据软件兼容好下载地址https://www.ubuntu.org.cn/download/ubuntu-kylin版本选择内存推荐2GB32位4GB64位二、虚拟机安装Linux推荐软件VMware Workstation下载VMware-workstation-full-17.0.1.exe1 创建虚拟机VMware步骤创建新的虚拟机 → 典型安装 → 选择 ISO 镜像选择ubuntukylin-16.04-desktop-amd64.iso2 设置账户例如用户名dblab 密码1234563 虚拟机配置建议配置配置推荐内存≥4GB磁盘50GB - 100GB4 打开终端方法1CTRL ALT T方法2点击Terminal三、安装 Hadoop 前准备1 创建hadoop用户在终端执行sudouseradd-mhadoop-s/bin/bash设置密码sudopasswdhadoop加入管理员权限sudoadduser hadoopsudo2 更新软件源sudoapt-getupdate3 安装SSHsudoapt-getinstallopenssh-server测试SSHsshlocalhost第一次输入yes4 配置SSH免密码登录进入ssh目录cd~/.ssh生成密钥ssh-keygen-trsa授权cat./id_rsa.pub./authorized_keys测试sshlocalhost无需密码即成功。四、安装 Java 环境Hadoop依赖Java。1 创建JDK目录cd/usr/libsudomkdirjvm2 解压JDKcd~/Downloadssudotar-zxvfjdk-8u371-linux-x64.tar.gz-C/usr/lib/jvm3 配置环境变量编辑文件vim~/.bashrc加入exportJAVA_HOME/usr/lib/jvm/jdk1.8.0_371exportJRE_HOME${JAVA_HOME}/jreexportCLASSPATH.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH${JAVA_HOME}/bin:$PATH4 让环境变量生效source~/.bashrc5 测试Javajava-version成功显示java version 1.8.0_371五、安装 Hadoop推荐版本Hadoop 3.3.5下载https://archive.apache.org/dist/hadoop/core/hadoop-3.3.51 解压Hadoopsudotar-zxf~/下载/hadoop-3.3.5.tar.gz-C/usr/local进入目录cd/usr/local重命名sudomvhadoop-3.3.5 hadoop修改权限sudochown-Rhadoop ./hadoop2 检查安装cd/usr/local/hadoop ./bin/hadoop version如果显示版本信息说明成功。六、Hadoop三种运行模式模式说明单机模式本地运行伪分布式单机模拟集群分布式多机器集群七、Hadoop单机模式创建输入文件cd/usr/local/hadoopmkdirinput复制配置文件cp./etc/hadoop/*.xml ./input运行示例./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jargrep./input ./outputdfs[a-z.]查看结果cat./output/*如果再次运行需要删除rm-r./output八、伪分布式配置修改 core-site.xml路径/usr/local/hadoop/etc/hadoop/core-site.xml配置configurationpropertynamehadoop.tmp.dir/namevaluefile:/usr/local/hadoop/tmp/value/propertypropertynamefs.defaultFS/namevaluehdfs://localhost:9000/value/property/configuration修改 hdfs-site.xmlconfigurationpropertynamedfs.replication/namevalue1/value/propertypropertynamedfs.namenode.name.dir/namevaluefile:/usr/local/hadoop/tmp/dfs/name/value/propertypropertynamedfs.datanode.data.dir/namevaluefile:/usr/local/hadoop/tmp/dfs/data/value/property/configuration格式化NameNodecd/usr/local/hadoop ./bin/hdfs namenode-format成功显示successfully formatted启动Hadoop./sbin/start-dfs.sh查看进程jps会看到NameNode DataNode SecondaryNameNode九、HDFS测试创建用户目录hdfs dfs-mkdir-p/user/hadoop创建输入目录hdfs dfs-mkdirinput上传文件hdfs dfs-put./etc/hadoop/*.xml input运行MapReducehadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jargrepinput outputdfs[a-z.]查看结果hdfs dfs-catoutput/*十、安装 MySQL更新软件源sudoapt-getupdate安装sudoapt-getinstallmysql-server启动MySQL停止servicemysql stop启动servicemysql start登录MySQLmysql-uroot-p密码hadoop十一、解决MySQL乱码查看编码showvariableslikechar%;修改配置vim/etc/mysql/mysql.conf.d/mysqld.cnf加入character_set_serverutf8重启servicemysql restart十二、安装 Kafka下载kafka_2.12-3.5.1.tgz解压cd~/Downloadssudotar-zxvfkafka_2.12-3.5.1.tgz-C/usr/local重命名sudomvkafka_2.12-3.5.1 kafka启动 Zookeepercd/usr/local/kafka ./bin/zookeeper-server-start.sh config/zookeeper.properties启动 Kafka新终端./bin/kafka-server-start.sh config/server.properties创建Topic./bin/kafka-topics.sh--create\--zookeeperlocalhost:2181\--replication-factor1\--partitions1\--topicwordsendertest查看Topic./bin/kafka-topics.sh--list--zookeeperlocalhost:2181生产者./bin/kafka-console-producer.sh\--broker-list localhost:9092\--topicwordsendertest输入hello hadoop hello flink消费者./bin/kafka-console-consumer.sh\--bootstrap-server localhost:9092\--topicwordsendertest\--from-beginning十三、安装 Anaconda下载Anaconda3-2023.07-2-Linux-x86_64.sh安装sh./Anaconda3-2023.07-2-Linux-x86_64.sh安装过程中Do you accept license → yes十四、配置Anaconda镜像创建配置文件vim~/.condarc写入channels:-defaultsshow_channel_urls:truedefault_channels:-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main-https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free十五、创建Python环境Spark需要Python3.8。创建环境conda create-npysparkpython3.8激活环境conda activate pyspark测试python退出exit()总结整个大数据环境包括Linux │ ├─ Java │ ├─ Hadoop │ ├─ MySQL │ ├─ Kafka │ └─ Anaconda Python这是Spark / Flink / 大数据课程实验的基础环境。