python提取特定格式的数据

python · 浏览次数 : 0

小编点评

Excel Grid Data Converter 知识点总结 ExcelGridConverter.py 是一个用于从多个 Excel 文件中提取特定格式的数据并将其转换为新 Excel 文件的脚本。本文档总结了该脚本所涉及的关键 Python 知识点。 1. 导入库 - tkinter:用于创建图形用户界面。 - pandas:用于处理 Excel 数据。 - os:用于处理文件和目录路径。 2. Pandas 数据处理 - 读取 Excel 文件:使用 pd.read_excel 方法,通过 sheet_name=None 参数读取所有工作表。 - 添加 index_col=None 参数,确保第一列不会被自动设置为索引列。 - 数据提取:使用 iloc 方法,根据行列索引提取特定数据。 - 处理合并单元格数据:使用 join 方法连接合并后的单元格数据。 - 创建 DataFrame 并导出为 Excel 文件:使用 to_excel 方法将数据放入 DataFrame 中,并导出为 Excel 文件。 3. Tkinter GUI 界面 - 创建主窗口:使用 tk.Tk 创建主窗口,并设置窗口标题、大小和位置。 - 创建按钮和标签:使用 tk.Button 和 tk.Label 创建按钮和标签,并设置其属性和布局。 4. 文件操作 - 文件对话框:使用 filedialog.askopenfilenames 打开文件选择对话框,允许用户选择多个 Excel 文件。 - 文件保存对话框:使用 filedialog.asksaveasfilename 打开文件保存对话框,允许用户选择保存路径。 - 文件路径管理:使用变量存储文件路径,方便后续操作。 5. 主要函数解释 - transform_to_result_format_specific:从源数据中提取特定字段,并返回一个字典格式的结果数据。 - select_files:处理文件选择、数据转换和结果保存的主要逻辑。 总结 通过本脚本,我们学习了如何使用 Pandas 读取和处理 Excel 数据,如何使用 Tkinter 创建图形用户界面,以及如何处理文件对话框和文件操作。这些知识点在日常的 Python 开发中非常实用,特别是涉及数据处理和用户界面的项目中。

正文


Excel Grid Data Converter 知识点总结

本文档总结了 ExcelGridConverter.py 脚本所涉及的关键 Python 知识点。该脚本用于从多个 Excel 文件中提取特定格式的数据并转换为一个新的 Excel 文件。

目录

  1. 导入库
  2. Pandas 数据处理
  3. Tkinter GUI 界面
  4. 文件操作
  5. 主要函数解释
  6. 总结

导入库

脚本使用了以下主要库:

  • tkinter:用于创建图形用户界面。
  • pandas:用于处理 Excel 数据。
  • os:用于处理文件和目录路径。
import tkinter as tk
from tkinter import filedialog, messagebox
import pandas as pd
import os

Pandas 数据处理

读取 Excel 文件

使用 pd.read_excel 方法读取 Excel 文件,并使用 sheet_name=None 参数读取所有工作表。添加 index_col=None 参数以确保第一列不会被自动设置为索引列。

source_df = pd.read_excel(file_path, sheet_name=None, index_col=None)
source_data = source_df['一格一案']

数据提取

通过 Pandas 的 iloc 方法,根据行列索引提取特定数据。

result_data = {
    '网格编号': source_data.iloc[1, 1],
    '责任段': source_data.iloc[1, 3],
    ...
}

处理合并单元格数据:

risk_check_path = "\n".join(source_data.iloc[9:19, 1].dropna().astype(str))
result_data['五、风险项点检查路径'] = risk_check_path

创建 DataFrame 并导出为 Excel 文件

将所有提取的数据放入一个 DataFrame 中,并使用 to_excel 方法导出为 Excel 文件。

result_df = pd.DataFrame(all_data)
result_df.to_excel(output_file_path, index=False)

Tkinter GUI 界面

创建主窗口

使用 tk.Tk 创建主窗口,并设置窗口标题、大小和位置。

root = tk.Tk()
root.title("Excel 转换工具")
root.geometry(f'{window_width}x{window_height}+{position_right}+{position_top}')

创建按钮和标签

使用 tk.Buttontk.Label 创建按钮和标签,并设置其属性和布局。

title_label = tk.Label(root, text="Excel 转换工具", font=("Arial", 18))
title_label.pack(pady=20)

select_button = tk.Button(root, text="选择 Excel 文件", command=select_files, font=("Arial", 12))
select_button.pack(pady=10)

文件操作

文件对话框

使用 filedialog.askopenfilenames 打开文件选择对话框,允许用户选择多个 Excel 文件。使用 filedialog.asksaveasfilename 打开文件保存对话框,允许用户选择保存路径。

file_paths = filedialog.askopenfilenames(filetypes=[("Excel 文件", "*.xlsx")])
output_file_path = filedialog.asksaveasfilename(defaultextension=".xlsx", filetypes=[("Excel 文件", "*.xlsx")])

主要函数解释

transform_to_result_format_specific

该函数从源数据中提取特定字段,并返回一个字典格式的结果数据。

def transform_to_result_format_specific(source_data, source_file_path):
    risk_check_path = "\n".join(source_data.iloc[9:19, 1].dropna().astype(str))
    result_data = { ... }
    return result_data

select_files

该函数处理文件选择、数据转换和结果保存的主要逻辑。

def select_files():
    file_paths = filedialog.askopenfilenames(filetypes=[("Excel 文件", "*.xlsx")])
    all_data = []
    for file_path in file_paths:
        source_df = pd.read_excel(file_path, sheet_name=None, index_col=None)
        source_data = source_df['一格一案']
        transformed_data = transform_to_result_format_specific(source_data, file_path)
        all_data.append(transformed_data)
    result_df = pd.DataFrame(all_data)
    output_file_path = filedialog.asksaveasfilename(defaultextension=".xlsx", filetypes=[("Excel 文件", "*.xlsx")])
    if output_file_path:
        result_df.to_excel(output_file_path, index=False)
        messagebox.showinfo("成功", "文件已成功转换并保存。")

总结

通过本脚本,我们学习了如何使用 Pandas 读取和处理 Excel 数据,如何使用 Tkinter 创建图形用户界面,以及如何处理文件对话框和文件操作。这些知识点在日常的 Python 开发中非常实用,特别是涉及数据处理和用户界面的项目中。


与python提取特定格式的数据相似的内容:

python提取特定格式的数据

Excel Grid Data Converter 知识点总结 本文档总结了 ExcelGridConverter.py 脚本所涉及的关键 Python 知识点。该脚本用于从多个 Excel 文件中提取特定格式的数据并转换为一个新的 Excel 文件。 目录 导入库 Pandas 数据处理 Tkin

4.2 x64dbg 针对PE文件的扫描

通过运用`LyScript`插件并配合`pefile`模块,即可实现对特定PE文件的扫描功能,例如载入PE程序到内存,验证PE启用的保护方式,计算PE节区内存特征,文件FOA与内存VA转换等功能的实现,首先简单介绍一下`pefile`模块。pefile模块是一个用于解析Windows可执行文件(PE文件)的Python模块,它可以从PE文件中提取出文件头、节表、导入表、导出表、资源表等信息,也可以

2.0 Python 数据结构与类型

数据类型是编程语言中的一个重要概念,它定义了数据的类型和提供了特定的操作和方法。在 python 中,数据类型的作用是将不同类型的数据进行分类和定义,例如数字、字符串、列表、元组、集合、字典等。这些数据类型不仅定义了数据的类型,还为数据提供了一些特定的操作和方法,例如字符串支持连接和分割,列表支持排序和添加元素,字典支持查找和更新等。因此,选择合适的数据类型是 python 编程的重要组成部分。

使用Python的一维卷积

学习&转载文章:使用Python的一维卷积 背景 在开发机器学习算法时,最重要的事情之一(如果不是最重要的话)是提取最相关的特征,这是在项目的特征工程部分中完成的。 在CNNs中,此过程由网络自动完成。特别是在早期层中,网络试图提取图像的最重要的特征,例如边缘和形状。 另一方面,在最后一层中,它将能

Python colorama 设置控制台、命令行输出彩色文字

为了方便调试代码,经常会向stdout中输出一些日志,但是大量日志,有时不好定位问题。 使用终端打印特定颜色字符串,可以突出显示关键性的信息,帮助用户更好地识别和理解输出内容。 https://pypi.org/project/colorama/ Colorama 是为了在命令行界面中提供简单、方便

GIL 锁或将在 CPython 中成为可选项

哈喽大家好,我是咸鱼 几天前有媒体报道称,经过多次辩论,Python 指导委员会打算批准通过 PEP 703 提案,**让 GIL(全局解释器)锁在 CPython 中成为一个可选项** PEP 703 提案主要目标是使 GIL 变成可选项,即允许 Python 解释器在特定情况下不使用GIL ![

看我如何用定值 Cookie 实现反爬

摘要:本次案例,用定值Cookie实现反爬。 本文分享自华为云社区《我是怎么用一个特殊Cookie,限制住别人的爬虫的》,作者: 梦想橡皮擦 。 Cookie 生成 由于本案例需要用到一个特定的 Cookie ,所以我们需要提前将其生成,你可以直接设置一个固定的字符串,也可以使用 Python 加密

构建基于深度学习神经网络协同过滤模型(NCF)的视频推荐系统(Python3.10/Tensorflow2.11)

毋庸讳言,和传统架构(BS开发/CS开发)相比,人工智能技术确实有一定的基础门槛,它注定不是大众化,普适化的东西。但也不能否认,人工智能技术也具备像传统架构一样“套路化”的流程,也就是说,我们大可不必自己手动构建基于神经网络的机器学习系统,直接使用深度学习框架反而更加简单,深度学习可以帮助我们自动地从原始数据中提取特征,不需要手动选择和提取特征。

Python使用.NET开发的类库来提高你的程序执行效率

Python由于本身的特性原因,执行程序期间可能效率并不是很理想。在某些需要自己提高一些代码的执行效率的时候,可以考虑使用C#、C++、Rust等语言开发的库来提高python本身的执行效率。接下来,我演示一种使用.NET平台开发的类库,来演示一下Python访问.NET类库的操作实现。类库演示包括

Python 爬虫实战:驾驭数据洪流,揭秘网页深处

**爬虫,这个经常被人提到的词,是对数据收集过程的一种形象化描述。特别是在Python语言中,由于其丰富的库资源和良好的易用性,使得其成为编写爬虫的绝佳选择。本文将从基础知识开始,深入浅出地讲解Python爬虫的相关知识,并分享一些独特的用法和实用技巧。本文将以实际的网站为例,深入阐述各个处理部分,