基于阿里Anolis OS8.8 的Hadoop大数据平台建设

anolis,os8,hadoop · 浏览次数 : 0

小编点评

## 阿里Anolis OS 8.8 基础操作及Hadoop大数据平台建设 ### 1. Anolis OS基本操作 #### 1.1 用户与组管理 - 创建用户和组 ``` sudo useradd -m user1 sudo groupadd group1 ``` - 修改用户和组属性 ``` sudo usermod -aG group1 user1 sudo groupmod -g 100 user1 ``` - 查看用户和组信息 ``` id user1 groups user1 ``` #### 1.2 系统进程管理 - 查看系统进程 ``` ps aux ``` - 终止进程 ``` sudo kill [进程ID] ``` - 查看进程状态 ``` top ``` #### 1.3 文件操作命令及权限 - 创建文件 ``` touch file.txt ``` - 删除文件 ``` rm file.txt ``` - 更改文件权限 ``` chmod 755 file.txt ``` - 查看文件属性 ``` ls -l file.txt ``` ### 2. Hadoop大数据处理框架 #### 2.1 Hadoop 伪分布模式安装(Hadoop3.0) - 下载安装包 ``` wget http://mirrors.aliyun.com/apache/hadoop/hadoop-3.0.0.tar.gz ``` - 解压并重命名 ``` tar -xvf hadoop-3.0.0.tar.gz mv hadoop-3.0.0 anolis-hadoop ``` - 配置环境变量 ``` echo "export HADOOP_HOME=anolis-hadoop" >> ~/.bashrc source ~/.bashrc ``` - 启动Hadoop ``` start-dfs.sh start-yarn.sh ``` #### 2.2 Hadoop Shell 基本操作(Hadoop3.0) - 命令行模式 ``` hadoop dfs -ls / hadoop dfs -put local-file /hadoop-file hadoop dfs -get /hadoop-file local-file ``` - 离线模式 ``` hadoop dfs -rmr /path/to/remote-directory hadoop dfs -put local-file /path/to/remote-directory ``` #### 2.3 Hadoop 开发插件安装(Hadoop3.0) - 安装插件 ``` hadoop plugin install ... ``` - 卸载插件 ``` hadoop plugin uninstall ... ``` #### 2.4 MapReduce 实例:WordCount(Hadoop3.0) - 编写MapReduce代码 ``` cd anolis-hadoop vim WordCount.java ``` - 编译代码 ``` javac WordCount.java ``` - 运行MapReduce任务 ``` hadoop jar anolis-hadoop.jar WordCount /input/directory /output/directory ``` #### 2.5 MapReduce 实例:去重(Hadoop3.0) - 编写MapReduce代码 ``` cd anolis-hadoop vim RemoveDuplicates.java ``` - 编译代码 ``` javac RemoveDuplicates.java ``` - 运行MapReduce任务 ``` hadoop jar anolis-hadoop.jar RemoveDuplicates /input/directory /output/directory ``` #### 2.6 MapReduce 实例:行统计(Hadoop3.0) - 编写MapReduce代码 ``` cd anolis-hadoop vim RowStatistics.java ``` - 编译代码 ``` javac RowStatistics.java ``` - 运行MapReduce任务 ``` hadoop jar anolis-hadoop.jar RowStatistics /input/directory /output/directory ``` #### 2.7 MapReduce 实例:求平均值(Hadoop3.0) - 编写MapReduce代码 ``` cd anolis-hadoop vim Average.java ``` - 编译代码 ``` javac Average.java ``` - 运行MapReduce任务 ``` hadoop jar anolis-hadoop.jar Average /input/directory /output/directory ``` ### 3. Spark分布式处理框架 #### 3.1 Spark Standalone 伪分布模式安装(Hadoop3.0) - 同Hadoop伪分布模式安装步骤 #### 3.2 Spark Shell 操作(Hadoop3.0) - 命令行模式 ``` spark-shell ``` - Python API ``` from pyspark.sql import SparkSession spark = SparkSession.builder.appName("MyApp").getOrCreate() ``` #### 3.3 PySpark安装(Hadoop3.0) - 安装PySpark ``` pip install pyspark ``` #### 3.4 PySpark SQL-DataFrame文件处理 - 数据帧操作 ``` df.createOrReplaceTempView("df") ``` - SQL查询 ``` df.sql("SELECT * FROM df WHERE col1 > 10").show() ``` #### 3.5 PySpark SQL-数据表操作 - 数据表操作 ``` df.createOrReplaceTempView("df") ``` - SQL查询 ``` df.sql("SELECT * FROM df WHERE col1 > 10").show() ``` #### 3.6 案例:PySpark实现用户价值分类 - 数据准备 ``` cd anolis-hadoop vim user_value_classification.csv ``` - 编写Python代码 ``` from pyspark.sql import SparkSession spark = SparkSession.builder.appName("UserValueClassification").getOrCreate() df = spark.read.csv("user_value_classification.csv", header=True, inferSchema=True) # 数据清洗和转换 ... # 训练模型 ... # 预测 ... ``` #### 3.7 案例:用户价值分类结果可视化展示 - 使用Matplotlib可视化 ``` import matplotlib.pyplot as plt plt.scatter(df.col1, df.col2) plt.xlabel('Feature 1') plt.ylabel('Feature 2') plt.show() ``` #### 3.8 案例:PySpark处理数据并进行图表分析 - 数据处理 ``` df = df.filter(df.col1 > 10).limit(100) # 数据分析 ... ``` - 图表分析 ``` import matplotlib.pyplot as plt plt.plot(df.col1, df.col2) plt.xlabel('Feature 1') plt.ylabel('Feature 2') plt.show() ``` ### 4. Hive数据仓库 #### 4.1 Hive 安装部署(Hadoop3.0) - 下载安装包 ``` wget http://mirrors.aliyun.com/apache/hive/hive-3.0.0/apache-hive-3.0.0-bin.tar.gz ``` - 解压并重命名 ``` tar -xvf apache-hive-3.0.0-bin.tar.gz mv apache-hive-3.0.0-bin anolis-hive ``` - 配置环境变量 ``` echo "export HIVE_HOME=anolis-hive" >> ~/.bashrc source ~/.bashrc ``` - 启动Hive ``` start-hive ``` #### 4.2 Hive 基本操作(Hadoop3.0) - 创建数据库 ``` CREATE DATABASE user_db; ``` - 创建表 ``` CREATE TABLE user_info ( id INT, name STRING, age INT ); ``` - 查询数据 ``` SELECT * FROM user_info; ``` - 删除表 ``` DROP TABLE user_info; ``` #### 4.3 Hive 查询(Hadoop3.0系列) - 基本查询 ``` SELECT * FROM user_info WHERE age > 18; ``` - 排序查询 ``` SELECT * FROM user_info ORDER BY age ASC; ``` - 聚合查询 ``` SELECT count(*) FROM user_info; ``` #### 4.4 Hive 分组排序(Hadoop3.0系列) - 分组查询 ``` SELECT gender, COUNT(*) FROM user_info GROUP BY gender; ``` - 分组排序 ``` SELECT gender, COUNT(*) FROM user_info GROUP BY gender ORDER BY COUNT(*) DESC; ``` ### 5. Sqoop数据迁移工具 #### 5.1 Sqoop 安装(Hadoop3.0) - 下载安装包 ``` wget http://mirrors.aliyun.com/apache/sqoop/sqoop-1.4.7.bin__hadoop-2.7.1.tar.gz ``` - 解压并重命名 ``` tar -xvf sqoop-1.4.7.bin__hadoop-2.7.1.tar.gz mv sqoop-1.4.7.bin__hadoop-2.7.1 anolis-sqoop ``` - 配置环境变量 ``` echo "export SQOOP_HOME=anolis-sqoop" >> ~/.bashrc source ~/.bashrc ``` - 启动Sqoop ``` start-sqoop ``` #### 5.2 Sqoop数据导入导出(Hadoop3.0) - 导入数据 ``` sqoop import --connect jdbc:mysql://localhost:3306/user_db --table user_info --username root --password root --num-mappers 1 ``` - 导出数据 ``` sqoop export --connect jdbc:mysql://localhost:3306/user_db --table user_info --username root --password root --num-mappers 1 ``` #### 5.3 Sqoop增量数据导入(Hadoop3.0) - 配置增量导入 ``` --incremental append --last-value 100 --max-distance 10 ``` - 导入数据 ``` sqoop import --connect jdbc:mysql://localhost:3306/user_db --table user_info --username root --password root --num-mappers 1 --incremental append --last-value 100 --max-distance 10 ``` ### 6. Hadoop安全报警 - 安装安全报警工具 ``` sudo apt-get install -y logwatch ``` - 配置日志监控 ``` sudo logwatch --daily --file=/var/log/user.log ``` ### 7. 容器技术与容器平台应用搭建 - 安装Docker ``` sudo apt-get install -y docker.io ``` - 拉取阿里云容器镜像 ``` docker pull anolis-container ``` - 运行容器 ``` docker run -d --name anolis-container anolis-container ``` - 创建自定义容器 ``` docker build -t my-image . docker run -d --name my-container my-image ```

与基于阿里Anolis OS8.8 的Hadoop大数据平台建设相似的内容:

基于阿里Anolis OS8.8 的Hadoop大数据平台建设

基于阿里Anolis OS8.8 的Hadoop大数据平台建设 VNC安装与使用 0 Anolis OS基本操作 0.1 Anolis OS用户与组管理 0.2 系统进程管理 0.3 文件操作命令及权限 0.4 系统目录结构 1 Hadoop大数据处理框架 1.1Hadoop 伪分布模式安装(Had

UOS可能的来源

1050a 行业版 是基于 阿里的Anolis 1050d 企业版 是基于debian 1050e 欧拉版 是基于华为欧拉 euler

基于阿里云服务实现短信验证码功能

## 前言: 阿里云短信服务是一项基于云计算和大数据技术的企业级短信平台服务。它能够为企业和开发者提供高可用、高性能、高稳定性的短信发送服务,可以快速地将各类业务通知、验证码、营销推广等信息发送给用户。在我们经常登录一些系统或者APP时候,经常会遇到其他登录登录方式——短信验证码登录。这也是我前一段

[转帖]性能最高提升36%!基于阿里云倚天实例的Redis性能测试验证

性能最高提升36%!基于阿里云倚天实例的Redis性能测试验证 https://aijishu.com/a/1060000000376643 云计算Benchmark性能优化Arm 处理器Alibaba 本文转载自阿里云开发者社区。https://developer.aliyun.com/... 简

基于SqlSugar的开发框架循序渐进介绍(26)-- 实现本地上传、FTP上传、阿里云OSS上传三者合一处理

在前面介绍的随笔《基于SqlSugar的开发框架循序渐进介绍(7)-- 在文件上传模块中采用选项模式【Options】处理常规上传和FTP文件上传》中介绍过在文件上传处理的过程中,整合了本地文件上传和基于FTP方式的上传文件的处理整合。本篇随笔继续介绍文件上传的处理,基于选项模式【Options】方式整合基于阿里云OSS对象存储的处理方式。

图形验证码+短信验证码实战

## 前言: 上一篇分分享了[基于阿里云实现的短信验证码](https://www.cnblogs.com/wml-it/p/17613232.html)文章,考虑到为了防止登录时,非人工操作,频繁获取验证码,趁热打铁,现在添加了图片验证码服务功能。借鉴网上传统的做法,把实现这两个验证的功能做成有个

Higress 基于自定义插件访问 Redis

本文介绍了Higress,一个支持基于WebAssembly (WASM) 的边缘计算网关,它允许用户使用Go、C++或Rust编写插件来扩展其功能。文章特别讨论了如何利用Redis插件实现限流、缓存和会话管理等高级功能。

影片自由,丝滑流畅,Docker容器基于WebDav协议通过Alist挂载(百度网盘/阿里云盘)Python3.10接入

使用过NAS(Network Attached Storage)的朋友都知道,它可以通过局域网将本地硬盘转换为局域网内的“网盘”,简单理解就是搭建自己的“私有云”,但是硬件和网络成本都太高了,有点可望而不可及的意思。Alist开源库则可以满足我们,它能将公共网盘反过来变成一种联网的本地硬盘,使用We

(转载)阿里蚂蚁2022GBA背后的测试技术发展

# 阿里蚂蚁2022GBA背后的测试技术发展 ![](https://img2023.cnblogs.com/blog/2482761/202305/2482761-20230519143623287-809281614.png) [编者注:这篇文章很长(8998个字),但作者用心良苦,基于44个G

阿里面试:说说自适应限流?

限流想必大家都不陌生,它是一种控制资源访问速率的策略,用于保护系统免受过载和崩溃的风险。限流可以控制某个服务、接口或系统在一段时间内能够处理的请求或数据量,以防止系统资源耗尽、性能下降或服务不可用。 常见的限流策略有以下几种: 令牌桶算法:基于令牌桶的方式,限制每个单位时间内允许通过的请求量,请求量