基于pandas的数据清洗 -- 重复值的清洗

基于,pandas,数据,清洗,重复 · 浏览次数 : 5

小编点评

**开发环境 Anaconda 集成环境：集成数据分析和机器学习中所需要的全部环境安装目录** **引言** 数据分析和机器学习是一个复杂的工程，需要许多不同工具和环境才能正常运行。Anaconda 是一个强大的 Python 集成环境管理器，可以帮助您轻松地整合各种数据分析和机器学习工具。 **集成步骤** 1. 安装 Anaconda。 2. 启动 Anaconda。 3. 在终端中运行以下命令： ```bash conda create -n myenv anaconda ``` * `myenv` 是一个自定义的环境名称。 * `anaconda` 是 Anaconda 的安装程序。 4. 进入 `myenv` 环境： ```bash conda activate myenv ``` **可视化开发工具 df 的使用** `df` 是一个数据框，包含以下数据： ```python data = np.random.randint(0,100,size=(8,6)) ``` 您可以使用以下命令查看 df 的第一个行： ```bash df.iloc[1] ``` **示例** 以下是使用 df 的一些示例： ```python # 打印 df 的形状 print(df.shape) # 打印 df 的第一行 print(df.iloc[1]) # 设置 df 中所有元素的打印格式 print(df.astype('str')) ``` **结论** 通过使用 Anaconda，您可以轻松地整合数据分析和机器学习中所需的各种工具。这使其更容易、更快速地完成数据分析和机器学习任务。

正文

博客地址：https://www.cnblogs.com/zylyehuo/

开发环境

anaconda
- 集成环境：集成好了数据分析和机器学习中所需要的全部环境
- 安装目录不可以有中文和特殊符号
jupyter
- anaconda提供的一个基于浏览器的可视化开发工具

df = DataFrame(data=np.random.randint(0,100,size=(8,6)))
df.iloc[1] = [1,1,1,1,1,1]
df.iloc[3] = [1,1,1,1,1,1]
df.iloc[5] = [1,1,1,1,1,1]
df
复制

# 检测哪些行存有重复的数据
df.duplicated(keep='first')
复制

0    False
1    False
2    False
3     True
4    False
5     True
6    False
7    False
dtype: bool
复制

df.loc[~df.duplicated(keep='first')]
复制

# 异步到位删除
df.drop_duplicates(keep='first')
复制

基于pandas的数据清洗 -- 重复值的清洗

小编点评

正文

开发环境

与基于pandas的数据清洗 -- 重复值的清洗相似的内容：

基于pandas的数据清洗 -- 重复值的清洗

基于pandas的数据清洗 -- 缺失值（空值）的清洗

基于pandas的数据清洗 -- 异常值的清洗

【pandas基础】--概述

Pandas 使用教程 Series、DataFrame

【pandas基础】--数据拆分与合并

【pandas基础】--数据修改

【pandas基础】--索引和轴

【开源】2024最新python豆瓣电影数据爬虫+可视化分析项目

pandas -- 处理非数值型数据 -- 数据分析三剑客(核心)

# 热门排行