【pandas小技巧】--目录(完结)

pandas,技巧,目录,完结 · 浏览次数 : 79

小编点评

**快速创建测试数据** 1. **使用 pandas.read_csv() 函数读取数据**: ```python import pandas as pd # 读取多个文件 data_frames = pd.read_csv("file1.csv", "file2.csv", "file3.csv") # 合并数据帧 merged_df = pd.concat(data_frames, ignore_index=True) ``` 2. **使用 pandas.read_pickle() 函数读取 pickle 文件**: ```python import pandas as pd # 读取 pickle 文件 df = pd.read_pickle("data.pkl") ``` 3. **使用 pandas.generate_data() 函数生成模拟数据**: ```python import pandas as pd # 设置数据大小 n_rows = 100 n_cols = 100 # 生成数据 data = pd.generate_data(n_rows, n_cols, random_state=42) ``` **随机挑选子集** 1. **使用 pandas.sample() 函数随机选择样本**: ```python import pandas as pd # 设置样本大小 n_samples = 100 # 选择样本 sub_df = pd.sample(data, n_samples, random_state=42) ``` **按类型选择列** 1. **使用 pandas.select() 函数根据列名选择列**: ```python import pandas as pd # 选择列名为 "age" 的列 selected_df = pd.select(data, "age") ``` **按类型选择列** 1. **使用 pandas.dtypes 列类型检查数据类型**: ```python import pandas as pd # 检查数据类型 data_types = data.dtypes # 选择数据类型为 "object" 的列 numeric_cols = data_types[data_types == "object"] ``` **修改列的名称** 1. **使用 pandas.rename() 函数修改列名**: ```python import pandas as pd # 修改列名 df = pd.rename(data, columns={"old_name": "new_name"}) ``` **反转行列顺序** 1. **使用 pandas.T 函数进行反转**: ```python import pandas as pd # 反转数据行顺序 reversed_df = pd.T(data) ``` **拆分列** 1. **使用 pandas.DataFrame.split() 方法进行拆分**: ```python import pandas as pd # 拆分列 split_df = pd.DataFrame.split(data, n_splits=3) ``` **缺失值处理** 1. **使用 pandas.fillna() 方法填充缺失值**: ```python import pandas as pd # 填充缺失值 df.fillna(0, inplace=True) ``` **字符串转数字** 1. **使用 pandas.to_numeric() 函数对字符串类型的数据进行转换**: ```python import pandas as pd # 转化字符串类型 df["age"] = pd.to_numeric(df["age"]) ``` **列值的映射** 1. **使用 pandas.map() 函数对列中某些值进行映射**: ```python import pandas as pd # 对 "age" 列中的所有字符串值进行转换 df["age"] = df["age"].map(str) ``` **日期相关处理** 1. **使用 pandas.to_datetime() 函数对日期数据进行转换**: ```python import pandas as pd # 转化日期类型 df["date"] = pd.to_datetime(df["date"]) ``` **数据转置** 1. **使用 pandas.transpose() 函数进行数据转置**: ```python import pandas as pd # 转置数据 transposed_df = pd.transpose(data) ```

正文

pandas小技巧系列是介绍的是使用pandas分析数据时,最常用的一些操作技巧。

具体包括:

  1. 创建测试数据
    学习pandas的过程中,为了尝试pandas提供的各类功能强大的函数,常常需要花费很多时间去创造测试数据。
    本篇介绍如何快速的创建测试数据。

  1. 读取多个文件
    日常分析数据时,只有单一数据文件的情况其实很少见,更多的情况是,
    我们从同一个数据来源定期或不定期的采集了很多数据文件;或者从不同的数据源采集多种不同格式的数据文件。

    本篇介绍读取多个文件的技巧。


  1. 随机挑选子集
    在 pandas 中,如果遇到数据量特别大的情况,随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据,从而更好地进行数据分析和决策。

  1. 按类型选择列
    这次介绍的是按照列的数据类型来选择列,按类型选择列可以帮助你快速选择正确的数据类型,提高数据分析的效率。

  1. 修改列的名称
    重命名 pandas 数据中列的名称是一种常见的数据预处理任务。
    通常是因为原始数据中的列名称可能不够清晰或准确。例如,列名可能包含空格、大写字母、特殊字符或拼写错误。

    本篇介绍修改列名称的技巧。


  1. 反转行列顺序
    反转pandas DataFrame的行列顺序是一种非常实用的操作。

    本篇介绍几种pandas中常用的反转行列顺序的方法。


  1. 拆分列
    拆分列是pandas中常用的一种数据操作,它可以将一个包含多个值的列按照指定的规则拆分成多个新列,方便进行后续的分析和处理。

    本篇简要介绍下pandas拆分列的常用方法。


  1. 缺失值的列
    在实际应用中,数据集中经常会存在缺失值,也就是某些数据项的值并未填充或者填充不完整。
    缺失值的存在可能会对后续的数据分析和建模产生影响,因此需要进行处理。

  1. 字符串转数字
    字符串转数字的用途和场景很多,本篇介绍一些常用的字符串转数值的方法。

  1. 列值的映射
    映射列值是指将一个列中的某些特定值映射为另外一些值,常用于数据清洗和转换。

  1. 日期相关处理
    日期处理相关内容之前pandas基础系列中有一篇专门介绍过,本篇补充两个常用的技巧。

  1. 数据转置
    所谓数据转置,就是是将原始数据表格沿着对角线翻折,使原来的行变成新的列,原来的列变成新的行,从而更方便地进行数据分析和处理。

    本篇介绍几个数据转置常用的场景,感受下转置前后数据展示的区别。


  1. 统计值作为新列
    这次介绍的小技巧不是统计,而是把统计结果作为新列和原来的数据放在一起。

  1. category类型补充
    category类型在pandas基础系列中有一篇介绍数据类型的文章中已经介绍过。
    category类型并不是python中的类型,是pandas特有的类型。

    本篇将补充介绍深入使用category类型时,经常会遇到的两个问题。


  1. DataFrame显示参数
    我们在jupyter notebook中使用pandas显示DataFrame的数据时,
    由于屏幕大小,或者数据量大小的原因,常常会觉得显示出来的表格不是特别符合预期。

    这时,就需要调整pandas显示DataFrame的方式。
    pandas为我们提供了很多调整显示方式的参数,具体参见文末附录中的链接。
    本篇介绍几个我经常用到的参数来抛砖引玉。


  1. DataFrame显示样式
    本篇介绍DataFrame的显示样式的调整,显示样式主要是对表格本身的调整,
    比如颜色,通过颜色可以突出显示重要的值,观察数据时可以更加高效的获取主要信息。

  1. 花哨的DataFrame
    最近github上发现了一个库(plottable),可以用简单的方式就设置出花哨的 DataFrame 样式。

与【pandas小技巧】--目录(完结)相似的内容:

【pandas小技巧】--目录(完结)

`pandas`小技巧系列是介绍的是使用`pandas`分析数据时,最常用的一些操作技巧。 具体包括: 1. [创建测试数据](https://www.cnblogs.com/wang_yb/p/17552748.html) 学习pandas的过程中,为了尝试pandas提供的各类功能强大的函数,常

【pandas小技巧】--日期相关处理

日期处理相关内容之前`pandas基础`系列中有一篇专门介绍过,本篇补充两个常用的技巧。 # 1. 多列合并为日期 当收集来的数据中,年月日等信息分散在多个列时,往往需要先合并成日期类型,然后才能做分析处理。合并多列转换为日期类型,可以直接用 `to_datetime`函数来处理: ```pytho

【pandas小技巧】--数据转置

所谓**数据转置**,就是是将原始数据表格沿着对角线翻折,使原来的行变成新的列,原来的列变成新的行,从而更方便地进行数据分析和处理。 `pandas`中`DataFrame`的转置非常简单,每个`DataFrame`对象都有一个`T`属性,通过这个属性就能得到转置之后的`DataFrame`。下面介

【pandas小技巧】--统计值作为新列

这次介绍的小技巧不是统计,而是把统计结果作为**新列**和原来的数据放在一起。`pandas`的各种统计功能之前已经介绍了不少,但是每次都是统计结果归统计结果,原始数据归原始数据,没有把它们合并在一个数据集中来观察。 下面通过两个场景示例来演示如果把统计值作为新列的数据。 # 1. 成绩统计的场景

【pandas小技巧】--category类型补充

`category`类型在**pandas基础**系列中有一篇介绍数据类型的文章中已经介绍过。`category`类型并不是`python`中的类型,是`pandas`特有的类型。 `category`类型的优势那篇文章已经介绍过,当时只是介绍了如何将某个列的数据转换成`category`类型,以及

【pandas小技巧】--DataFrame的显示参数

我们在`jupyter notebook`中使用`pandas`显示`DataFrame`的数据时,由于屏幕大小,或者数据量大小的原因,常常会觉得显示出来的表格不是特别符合预期。 这时,就需要调整`pandas`显示`DataFrame`的方式。`pandas`为我们提供了很多调整显示方式的参数,具

【pandas小技巧】--DataFrame的显示样式

上一篇介绍了`DataFrame`的显示参数,主要是对`DataFrame`中值进行调整。 本篇介绍`DataFrame`的显示样式的调整,显示样式主要是对表格本身的调整,比如颜色,通过颜色可以突出显示重要的值,观察数据时可以更加高效的获取主要信息。 下面介绍一些针对单个数据和批量数据的样式调整方式

【pandas小技巧】--花哨的DataFrame

最近github上发现了一个库(`plottable`),可以用简单的方式就设置出花哨的 `DataFrame` 样式。 github上的地址:[https://github.com/znstrider/plottable](https://github.com/znstrider/plottabl

【pandas小技巧】--创建测试数据

学习`pandas`的过程中,为了尝试`pandas`提供的各类功能强大的函数,常常需要花费很多时间去创造测试数据。 在`pandas`中,快速创建测试数据可以更快的评估 `pandas` 函数。通过生成一组测试数据,可以评估例如 `read_csv`、`read_excel`、`groupby`等

【pandas小技巧】--读取多个文件

日常分析数据时,只有单一数据文件的情况其实很少见,更多的情况是,我们从同一个数据来源定期或不定期的采集了很多数据文件;或者从不同的数据源采集多种不同格式的数据文件。 在这样的情况下,分析数据之前,需要将不同的数据集合并起来。合并数据一般有两个维度,一是同构的数据集合并后行数增加;一是异构的数据集合并