用python字典统计CSV数据

python,csv · 浏览次数 : 0

小编点评

**步骤 1:导入库** ```python import csv ``` **步骤 2:打开 CSV 文件并读取数据** ```python with open('data.csv', mode='r', encoding='utf-8') as csv_file: csv_reader = csv.DictReader(csv_file) ``` **步骤 3:遍历 CSV 文件,统计数据** ```python age_counts = {} for row in csv_reader: age = int(row['Age']) if age in age_counts: age_counts[age] += 1 else: age_counts[age] = 1 ``` **步骤 4:输出统计结果** ```python # 输出 age_counts 数据结构 print(age_counts) ``` **步骤 5:统计字典的缺点和局限性** **缺点:** * 内存占用:字典在内存中存储键值对,当数据量非常大时,它们会占用相当多的内存。 * 稀疏性:如果统计数据非常稀疏,则字典将包含大量的键值对,其中许多值都是1或0。 * 不可排序:字典本身是无序的,尽管在Python 3.7+中插入顺序被保留(但这不应该被用作排序的依据)。 **局限性:** * 无法直接进行数学运算:字典本身不支持数学运算(如加法、减法、乘法等)。 * 支持多维索引:字典只能使用单个键来索引值。

正文

1.用python字典统计CSV数据的步骤和代码示例

为了使用Python字典来统计CSV数据,我们可以使用内置的csv模块来读取CSV文件,并使用字典来存储统计信息。以下是一个详细的步骤和完整的代码示例:

1.1步骤

(1)导入csv模块。

(2)打开CSV文件并读取数据。

(3)初始化一个空字典来存储统计信息。

(4)遍历CSV文件的每一行数据。

(5)对于每一行数据,根据需要选择一列或多列作为键(key),并统计其出现次数(或执行其他类型的统计)。

(6)将统计结果存储在字典中。

(7)关闭CSV文件。

(8)(可选)输出或处理统计结果。

1.2代码示例

假设我们有一个CSV文件data.csv,内容如下:

Name,Age,Gender  
Alice,25,Female  
Bob,30,Male  
Charlie,25,Male  
Alice,26,Female

我们想统计每个年龄(Age)的人数。

import csv  
  
# 初始化一个空字典来存储统计信息  
age_counts = {}  
  
# 打开CSV文件并读取数据  
with open('data.csv', mode='r', encoding='utf-8') as csv_file:  
    csv_reader = csv.DictReader(csv_file)  
      
    # 跳过表头(如果有)  
    next(csv_reader, None)  # 消耗迭代器中的第一行(即表头)  
      
    # 遍历CSV文件的每一行数据  
    for row in csv_reader:  
        age = int(row['Age'])  # 假设年龄是整数,如果不是则需要相应处理  
          
        # 统计每个年龄的人数  
        if age in age_counts:  
            age_counts[age] += 1  
        else:  
            age_counts[age] = 1  
  
# 输出统计结果  
for age, count in age_counts.items():  
    print(f"Age {age}: {count} people")

运行上述代码,我们将得到以下输出:

Age 25: 2 people  
Age 26: 1 people  
Age 30: 1 people

这样,我们就使用Python字典成功地统计了CSV数据中的年龄信息。

2.详细的代码示例例子展示

我们展示几个不同的例子,这些例子展示了如何使用Python字典来统计CSV文件中的数据。

2.1统计每个名字的出现次数

假设我们有一个CSV文件names.csv,内容如下:

Name  
Alice  
Bob  
Charlie  
Alice  
Bob  
David

我们想要统计每个名字的出现次数。

import csv  
  
name_counts = {}  
  
with open('names.csv', mode='r', encoding='utf-8') as csv_file:  
    csv_reader = csv.reader(csv_file)  
    next(csv_reader, None)  # 跳过表头  
  
    for row in csv_reader:  
        name = row[0]  
        if name in name_counts:  
            name_counts[name] += 1  
        else:  
            name_counts[name] = 1  
  
# 输出统计结果  
for name, count in name_counts.items():  
    print(f"Name {name}: {count} occurrences")

2.2统计每个年龄段的用户数量

假设我们有一个CSV文件users.csv,内容如下:

Name,Age  
Alice,25  
Bob,32  
Charlie,18  
David,28  
Eve,19

我们想要统计18-24岁、25-30岁、31岁及以上每个年龄段的用户数量。

import csv  
  
age_groups = {  
    '18-24': 0,  
    '25-30': 0,  
    '31+': 0  
}  
  
with open('users.csv', mode='r', encoding='utf-8') as csv_file:  
    csv_reader = csv.DictReader(csv_file)  
    next(csv_reader, None)  # 跳过表头  
  
    for row in csv_reader:  
        age = int(row['Age'])  
        if 18 <= age <= 24:  
            age_groups['18-24'] += 1  
        elif 25 <= age <= 30:  
            age_groups['25-30'] += 1  
        else:  
            age_groups['31+'] += 1  
  
# 输出统计结果  
for age_group, count in age_groups.items():  
    print(f"Age group {age_group}: {count} users")

2.3统计每个性别在每个年龄段的用户数量

假设我们有一个CSV文件users_advanced.csv,内容如下:

Name,Age,Gender  
Alice,25,Female  
Bob,32,Male  
Charlie,18,Male  
David,28,Male  
Eve,19,Female

我们想要统计每个性别在每个年龄段(18-24岁、25-30岁、31岁及以上)的用户数量。

import csv  
  
age_gender_counts = {  
    '18-24': {'Male': 0, 'Female': 0},  
    '25-30': {'Male': 0, 'Female': 0},  
    '31+': {'Male': 0, 'Female': 0}  
}  
  
with open('users_advanced.csv', mode='r', encoding='utf-8') as csv_file:  
    csv_reader = csv.DictReader(csv_file)  
    next(csv_reader, None)  # 跳过表头  
  
    for row in csv_reader:  
        age = int(row['Age'])  
        gender = row['Gender']  
        if 18 <= age <= 24:  
            age_group = '18-24'  
        elif 25 <= age <= 30:  
            age_group = '25-30'  
        else:  
            age_group = '31+'  
        age_gender_counts[age_group][gender] += 1  
  
# 输出统计结果  
for age_group, gender_counts in age_gender_counts.items():  
    print(f"Age group {age_group}:")  
    for gender, count in gender_counts.items():  
        print(f"  {gender}: {count} users")  
    print()

3.统计字典的缺点和局限

统计字典(即使用Python字典来存储统计信息)在数据分析和处理中是一种非常有效的方法,但它也有一些潜在的缺点和局限性:

(1)内存占用:字典在内存中存储键值对,当数据量非常大时,它们会占用相当多的内存。这可能会导致程序在内存有限的系统上运行缓慢或崩溃。

(2)稀疏性:如果统计的数据非常稀疏(即许多键在字典中只出现一次或根本不出现),则字典将包含大量的键值对,其中许多值都是1或0。这可能导致内存使用效率低下。

(3)不可排序:字典本身是无序的,尽管在Python 3.7+中插入顺序被保留(但这不应该被用作排序的依据)。如果我们需要按照特定的顺序遍历统计结果,我们可能需要额外的步骤来对字典的键或值进行排序。

(4)并发问题:在多线程或多进程环境中,直接修改字典可能会引发并发问题,如数据竞争和不一致的结果。在这种情况下,我们可能需要使用锁或其他同步机制来保护对字典的访问。

(5)不支持快速范围查询:字典不支持像列表或数组那样的范围查询。如果我们需要查找在某个范围内的所有键或值,我们可能需要遍历整个字典,这可能会很慢。

(6)无法直接进行数学运算:字典本身不支持数学运算(如加法、减法、乘法等)。如果我们需要对统计结果进行数学运算,我们可能需要将字典转换为其他数据结构(如NumPy数组或Pandas DataFrame),或者编写额外的代码来处理字典中的值。

(7)不支持多维索引:字典只能使用单个键来索引值。如果我们需要基于多个键来索引值(例如,在多维数据集中),我们可能需要使用嵌套字典或其他数据结构。

(8)可读性和可维护性:对于复杂的统计任务,使用字典可能会导致代码变得难以阅读和维护。在这种情况下,使用更高级的数据结构或库(如Pandas DataFrame)可能会更合适。

尽管有这些缺点,但字典在统计和数据处理中仍然是非常有用的工具。它们提供了灵活且高效的方式来存储和检索数据,并且对于许多常见任务来说已经足够了。然而,在设计我们的程序时,我们应该考虑我们的具体需求和环境,并选择最适合我们的数据结构和方法。

与用python字典统计CSV数据相似的内容:

用python字典统计CSV数据

1.用python字典统计CSV数据的步骤和代码示例 为了使用Python字典来统计CSV数据,我们可以使用内置的csv模块来读取CSV文件,并使用字典来存储统计信息。以下是一个详细的步骤和完整的代码示例: 1.1步骤 (1)导入csv模块。 (2)打开CSV文件并读取数据。 (3)初始化一个空字典

用python用户注册和短信验证码逻辑实现案例

一.写代码前分析(逻辑分析OK了才可以顺利成章的敲代码): A、用户发送请求 1、注册账号(用户名不能重复)--按照需求进行判断 2、短信验证码(有效期5分钟)--对短信验证码进行保存 B、用户注册、短信验证用不同得函数封装实现 d_user={} #存放用户名和密码的数据字典 verificati

用Python脚本迁移MongoDB数据到金仓-kingbase数据库

1、首先需要明确MongoDB与kingbase的对应关系,collection相当于table,filed相当于字段,根据这个对应关系创建表; 此次迁移的MongoDB里的数据字段是:_id(自动生成的objectid),image(转成二进制存储的文档) 所以在金仓里创建表 create tab

Python学习之二:不同数据库相同表是否相同的比较方法

摘要 昨天学习了使用python进行数据库主键异常的查看. 当时想我们有跨数据库的数据同步场景. 对应的我可以对不同数据库的相同表的核心字段进行对比. 这样的话能够极大的提高工作效率. 我之前写过很长时间的shell.昨天跟着同事开始学python. 感觉的确用python能够节约大量的时间. 生活

kettle从入门到精通 第七十一课 ETL之kettle 再谈http post,轻松掌握body中传递json参数

场景: kettle中http post步骤如何发送http请求且传递body参数? 解决方案: http post步骤中直接设置Request entity field字段即可。 1、手边没有现成的post接口,索性用python搭建一个简单的接口,关键代码如下(安装python环境略): fro

[转帖]python字符串如何删除后几位

https://www.python51.com/jc/15070.html 1、首先在jupyter notebook中新建一个空白的python文件: 2、然后定义一个字符串,用字符串截取的方式打印出排除最后三个字符的结果,这里的“s[:-3]”的意思就是从字符串取第0个字符至倒数第三个字符的前

《流畅的Python》 读书笔记 第二章数据结构(1) 231007

第2章 数据结构 ABC语言是Python的爸爸~ 很多点子在现在看来都很有 Python 风格:序列的泛型操作、内置的元组和映射类型、用缩进来架构的源码、无需变量声明的强类型 不管是哪种数据结构,字符串、列表、字节序列、数组、XML 元素,抑或是数据库查询结果,它们都共用一套丰富的操作:迭代、切片

用 Python 脚本实现电脑唤醒后自动拍照 截屏并发邮件通知

背景 背景是这样的, 我的家里台式机常年 休眠, 并配置了 Wake On Lan (WOL) 方便远程唤醒并使用. 但是我发现, 偶尔台式机会被其他情况唤醒, 这时候我并不知道, 结果白白运行了好几天, 浪费了很多电. 所以我的需求是这样的: 🤔 电脑唤醒后(可能是开机, 有可能是从休眠状态唤醒

Python使用socket的UDP协议实现FTP文件服务

用Python的socket,使用UDP协议实现一个FTP服务端、FTP客户端,用来实现文件的传输。在公司内网下,可以不适用U盘的情况下,纯粹使用网络,来实现文件服务器的搭建,进而实现文件的网络传输。同时用来理解Python的socket使用。

如何用python计算不定积分

本文详细介绍了如何用Python计算不定积分的方法,重点SymPy是一个用于符号数学的Python库,支持许多类型的数学对象,包括整数、有理数、实数、复数、函数、极限、积分、微分、方程、几何等,同时本文也介绍了多项式函数、指数函数和三角函数、换元积分、有理函数的不定积分的方法。