#Python 利用pandas 合并csv/xlsx文件

python,利用,pandas,合并,csv,xlsx,文件 · 浏览次数 : 346

小编点评

**合并文件步骤:** 1. **导入库:** ```python import pandas as pd import os ``` 2. **设置路径:** ```python path = r'C:\Users\Administrator\Desktop\test/' ``` 3. **合并文件:** ```python # 使用 for循环读取文件路径 files = os.listdir(path) # 合并文件 merged_df = pd.DataFrame() for file in files: table = pd.read_csv(os.path.join(path, file), encoding='gbk') merged_df = pd.concat([merged_df, table]) # 打印合并后的 DataFrame print(merged_df) ``` 4. **输出合并文件:** ```python # 将合并好的文件输出到指定路径 merged_df.to_csv('merged_file.csv', index=False) ``` **其他提示:** * 使用 `encoding='gbk'` 确保读取文件时正确读取字符集。 * 可以根据需要调整合并顺序或数据处理方法。 * 使用 `pd.read_csv()` 函数可以读取多个文件并合并到一个 DataFrame 中。 * 使用 `pandas.to_csv()` 函数可以将 DataFrame 输出为 CSV 文件。

正文

  上次我们分享了利用powerquery来合并文件进行数据分析,但是Pq有一部分局限性,在现实工作中,我们往往需要合并多个文件去处理数据,

如果面对20个甚至更多的文件,pq中的每一步的步骤都会去读取每个文件,运行速度会十分慢,那么有没有简单的解决方法吗?

答案是:可以考虑合并成一个文件后来处理。

我们用py来合并文件后,输出一个大的csv表,然后利用Py或者pq进行处理,这样就可以大量节省时间,提高效率,今天我们就分享,py合并文件板块。

第一步:导入pandas,和os库

 import pandas as pd
 import os

第二步:设置路径

路径 = r'C:\Users\Administrator\Desktop\test/'#合并文件所在的文件路径,最后一个反斜杠不能被转义所以必须反斜杠,下次更换合并地址的话,直接更改就好,同样需要注意最后的反斜杠号
目的路径=r'C:/Users/Administrator/Desktop/合并230115.csv'#存放地址

第三步:合并文件,这里先用for循环配合os.listdir获取了指定文件夹的全部文件路径,然后用concat合并了文件

路径 = r'C:\Users\Administrator\Desktop\test/'
合并表 = pd.DataFrame()
for 文件名 in os.listdir(路径):
    表格 = pd.read_csv(路径+文件名,encoding='gbk')
    合并表 = pd.concat([合并表,表格])
print(合并表)

第四步:将合并好的文件输出到指定路径

合并表.to_csv(目的路径)  

来到这里,就完成了全部操作,本文的变量是中文变量,不影响使用,目的是便于新手(博主也是新手)学习,能更快的用到工作中。

我是simone,期待下次的分享。(下次会分享pandas中的透视表功能,可以配合今天的文章,来处理合并文件,直接输出有些数据分析的结果)

与#Python 利用pandas 合并csv/xlsx文件相似的内容:

#Python 利用pandas 合并csv/xlsx文件

上次我们分享了利用powerquery来合并文件进行数据分析,但是Pq有一部分局限性,在现实工作中,我们往往需要合并多个文件去处理数据, 如果面对20个甚至更多的文件,pq中的每一步的步骤都会去读取每个文件,运行速度会十分慢,那么有没有简单的解决方法吗? 答案是:可以考虑合并成一个文件后来处理。 我

#Python 利用pivot_table,数据透视表进行数据分析

前面我们分享了,利用python进行数据合并和连接,但是工作中,我们往往需要对数据进一步的聚合或者运算,以求最后的数据结果。 今天我们就来学习一下利用pandas模块,对数据集进行数据透视分析。 pivot_table释义 1.1 pivot_table参数列表: pandas.pivot_tabl

#Python pandas库,读取模块,代码笔记

日常数据清洗中,利用python清洗的第一步就是读取对应文件,今天一起复盘一下数据读取环节的常规操作。 csv和xlsx格式读取类似,所以用csv做案例 X-MIND图

#Python基础 利用Pyinstaller 模块对python代码进行打包exe

一般我们都用 Python 的 Pyinstaller 模块进行打包,这里记录Pyinstaller 模块进行打包。 一:安装 Pyinstaller 模块 pip install PyInstaller 二:打开cmd(win+R) 三:操作 3.1 切换路径(这里示例文件在E盘) 输入E:来切换

[转帖]利用Python调用outlook自动发送邮件

↓↓↓欢迎关注我的公众号,在这里有数据相关技术经验的优质原创文章↓↓↓ 使用Python发送邮件有两种方式,一种是使用smtp调用邮箱的smtp服务器,另一种是直接调用程序直接发送邮件。而在outlook中我们一般是没有权限去开启smtp服务的,所以一般只能通过第二种直接调用方式发送邮件 基础版本–

[转帖]利用Python调用outlook自动发送邮件

↓↓↓欢迎关注我的公众号,在这里有数据相关技术经验的优质原创文章↓↓↓ 使用Python发送邮件有两种方式,一种是使用smtp调用邮箱的smtp服务器,另一种是直接调用程序直接发送邮件。而在outlook中我们一般是没有权限去开启smtp服务的,所以一般只能通过第二种直接调用方式发送邮件 基础版本–

基于遗传算法的地图四色原理绘图上色的Python代码

本文介绍利用Python语言,实现基于遗传算法(GA)的地图四色原理着色操作~

Python核对遥感影像批量下载情况的方法

本文介绍批量下载遥感影像时,利用Python实现已下载影像文件的核对,并自动生成未下载影像的下载链接列表的方法~

Python 调整PDF页面尺寸大小

在处理PDF文件时,我们可能会遇到这样的情况:原始PDF文档不符合我们的阅读习惯,或者需要适配不同显示设备等。这时,我们就需要及时调整PDF文档中的页面尺寸,以满足不同应用场景的需求。 利用Python语言的高效性和灵活性,再结合Spire.PDF for Python 库的强大功能,我们可以通过P

#Python实例 计算外卖配送距离(基于百度API接口)---第二篇

https://www.cnblogs.com/simone331/p/17218019.html 在上一篇中,我们计算了两点的距离(链接为上篇文章),但是具体业务中,往往会存在一次性计算多组,上百甚至上千的距离。 所以我们需要利用python函数,批量去处理和传参,批量计算距离。前面的操作去第一篇