#Python pandas库,读取模块,代码笔记

python,pandas,读取,模块,代码,笔记 · 浏览次数 : 13

小编点评

**读取 CSV 和 XLSX 文件的步骤** **1. 打开文件对象** ```python import pandas as pd # 打开 CSV 文件 df_csv = pd.read_csv("data.csv") # 打开 XLSX 文件 df_xlsx = pd.read_excel("data.xlsx") ``` **2. 检查文件信息** ```python # 打印文件类型 print(df_csv.dtypes) print(df_xlsx.dtypes) # 打印第一列的标题 print(df_csv.columns[0]) print(df_xlsx.columns[0]) ``` **3. 遍历行和列** ```python # 遍历 CSV 文件 for index, row in df_csv.iterrows(): print(row) # 遍历 XLSX 文件 for row in df_xlsx.iterrows(): print(row) ``` **4. 处理缺失值** ```python # 识别缺失值 print(df_csv.isnull().sum()) # 填充缺失值 df_csv.fillna(0, inplace=True) df_xlsx.fillna("", inplace=True) ``` **5. 筛选数据** ```python # 筛选年龄大于 21 的用户 df_csv_filtered = df_csv[df_csv["age"] > 21] # 筛选出年龄不为 0 的用户 df_xlsx_filtered = df_xlsx[df_xlsx["age"] != 0] ``` **6. 合并数据** ```python # 合并 CSV 和 XLSX 文件 df_merged = pd.concat([df_csv, df_xlsx], join="inner", on="id") # 合并 CSV 和 XLSX 文件 df_merged = pd.read_csv("data.csv", sep=",") ``` **总结** * 使用 `pandas` 库读取 CSV 和 XLSX 文件。 * 检查文件信息。 * 遍历行和列。 * 处理缺失值。 * 筛选数据。 * 合并数据。

正文

日常数据清洗中,利用python清洗的第一步就是读取对应文件,今天一起复盘一下数据读取环节的常规操作。

csv和xlsx格式读取类似,所以用csv做案例

X-MIND图

与#Python pandas库,读取模块,代码笔记相似的内容:

#Python pandas库,读取模块,代码笔记

日常数据清洗中,利用python清洗的第一步就是读取对应文件,今天一起复盘一下数据读取环节的常规操作。 csv和xlsx格式读取类似,所以用csv做案例 X-MIND图

#Python 利用pandas 合并csv/xlsx文件

上次我们分享了利用powerquery来合并文件进行数据分析,但是Pq有一部分局限性,在现实工作中,我们往往需要合并多个文件去处理数据, 如果面对20个甚至更多的文件,pq中的每一步的步骤都会去读取每个文件,运行速度会十分慢,那么有没有简单的解决方法吗? 答案是:可以考虑合并成一个文件后来处理。 我

#Python merge函数,pandas库数据查询功能,对标V-LOOKUP

日常办公中,我们经常会遇到需要匹配表,匹配对应数据的场景,在EXCEL中,我们习惯使用VLOOKUP函数或者是X-LOOKUP函数,今天学习的是Python,pandas库中的匹配功能。 首先导入所需的pandas库。 import pandas as pd 用到的模拟数据共三张表,分别是销售表,区

#Python 文本包含函数,pandas库 Series.str.contains 函数

一:基础的函数组成 ’’‘Series.str.contains(pat,case = True,flags = 0,na = nan,regex = True)’’'测试pattern或regex是否包含在Series或Index的字符串中。 返回布尔值系列或索引,具体取决于给定模式或正则表达式是

如何保留 Excel 表头和第一行数据并追加 CSV 数据

准备工作 在开始之前,确保你的 Python 环境中已经安装了 openpyxl 和 pandas 库。可以使用以下命令进行安装: pip install openpyxl pandas 第一步:编写函数保留表头和第一行数据 我们首先编写一个函数 keep_first_two_rows,用于保留指定

Pandas 加载数据的方法和技巧

哈喽大家好,我是咸鱼 相信小伙伴们在学习 python 数据分析的过程中或多或少都会听说或者使用过 pandas pandas 是 python 的一个拓展库,常用于数据分析 今天咸鱼将介绍几个关于 pandas 导入数据的方法和技巧 ## 从 URL 获取 csv 数据 关于 pandas 导入

【pandas基础】--概述

Pandas是一个开源的Python数据分析库。 它提供了快速,灵活和富有表现力的数据结构,旨在使数据清洗和分析变得简单而快速。 Pandas是基于NumPy数组构建的,因此它在许多NumPy函数上提供了直接的支持。它还提供了用于对表格数据进行操作的数据结构,例如Series和DataFrame。

【pandas基础】--核心数据结构

pandas中用来承载数据的两个最重要的结构分别是: Series:相当于增强版的一维数组 DataFrame:相当于增强版的二维数组 pandas最大的优势在于处理表格类数据,如果数据维度超过二维,一般我们会使用另一个 python的库 numpy。 本篇主要介绍这两种核心数据结构的创建方式。 1

【开源】2024最新python豆瓣电影数据爬虫+可视化分析项目

项目介绍 【开源】项目基于python+pandas+flask+mysql等技术实现豆瓣电影数据获取及可视化分析展示,觉得有用的朋友可以来个一键三连,感谢!!! 项目演示 [video(video-C9B87WwE-1716106102936)(type-bilibili)(url-https:/

#Python基础 pandas索引设置

一:XMIND 二:设置索引 示例数据,假设我们有一个DataFrame对象,如下: import pandas as pd df = pd.DataFrame({ "name": ["Alice", "Bob", "Charlie", "David"], "age": [25, 30, 35, 4