#Python pandas库,读取模块,代码笔记
python,pandas,读取,模块,代码,笔记
·
浏览次数 : 13
小编点评
**读取 CSV 和 XLSX 文件的步骤**
**1. 打开文件对象**
```python
import pandas as pd
# 打开 CSV 文件
df_csv = pd.read_csv("data.csv")
# 打开 XLSX 文件
df_xlsx = pd.read_excel("data.xlsx")
```
**2. 检查文件信息**
```python
# 打印文件类型
print(df_csv.dtypes)
print(df_xlsx.dtypes)
# 打印第一列的标题
print(df_csv.columns[0])
print(df_xlsx.columns[0])
```
**3. 遍历行和列**
```python
# 遍历 CSV 文件
for index, row in df_csv.iterrows():
print(row)
# 遍历 XLSX 文件
for row in df_xlsx.iterrows():
print(row)
```
**4. 处理缺失值**
```python
# 识别缺失值
print(df_csv.isnull().sum())
# 填充缺失值
df_csv.fillna(0, inplace=True)
df_xlsx.fillna("", inplace=True)
```
**5. 筛选数据**
```python
# 筛选年龄大于 21 的用户
df_csv_filtered = df_csv[df_csv["age"] > 21]
# 筛选出年龄不为 0 的用户
df_xlsx_filtered = df_xlsx[df_xlsx["age"] != 0]
```
**6. 合并数据**
```python
# 合并 CSV 和 XLSX 文件
df_merged = pd.concat([df_csv, df_xlsx], join="inner", on="id")
# 合并 CSV 和 XLSX 文件
df_merged = pd.read_csv("data.csv", sep=",")
```
**总结**
* 使用 `pandas` 库读取 CSV 和 XLSX 文件。
* 检查文件信息。
* 遍历行和列。
* 处理缺失值。
* 筛选数据。
* 合并数据。
正文
日常数据清洗中,利用python清洗的第一步就是读取对应文件,今天一起复盘一下数据读取环节的常规操作。
csv和xlsx格式读取类似,所以用csv做案例
X-MIND图
与#Python pandas库,读取模块,代码笔记相似的内容: