【pandas基础】--数据拆分与合并

pandas,基础,数据,拆分,合并 · 浏览次数 : 198

小编点评

**数据集拆分和合并** **数据集拆分** * 将一个大型数据集拆分为多个较小的数据集,可以降低数据处理的复杂性。 * 每个子数据集可以单独进行分析和处理。 * 通过拆分数据,可以获得不同主题的全面数据视图。 **数据集合并** * 将多个数据集合合并成一个大的数据集,可以提供更全面的信息。 * 不同主题的数据可以合并到一起,形成一个更完整的数据集。 * 通过合并数据,可以进行更综合的数据分析。 **主要方法** * **数据集拆分** * 行拆分:将数据按行进行拆分。 * 列拆分:将数据按列进行拆分。 * 按条件拆分:根据特定条件进行数据拆分。 * **数据集合并** * 内置合并:使用 `pandas.merge` 方法进行内部合并。 * 外部合并:使用 `pandas.merge` 方法进行外部合并。 * 左合并:使用 `pandas.merge` 方法进行左合并。 * 右合并:使用 `pandas.merge` 方法进行右合并。 **总结** 数据集拆分和合并是数据分析中的基本操作,可以帮助我们高效地处理和分析数据。通过选择合适的拆分和合并方法,我们可以获得更全面的数据分析结果,并进行更复杂的数据分析。

正文

数据集拆分是将一个大型的数据集拆分为多个较小的数据集,可以让数据更加清晰易懂,也方便对单个数据集进行分析和处理。
同时,分开的数据集也可以分别应用不同的数据分析方法进行处理,更加高效和专业。

数据集合并则是将多个数据集合并成一个大的数据集,可以提供更全面的信息,也可以进行更综合的数据分析。
同时,数据集合并也可以减少数据处理的复杂度和时效性,提升数据分析的准确性和结果的可靠性。

1. 数据集拆分

拆分数据集比较简单,之前介绍过数据检索的各种方式,其实检索出的结果就是拆分出来的数据。

1.1 拆分行

拆分单行和多行。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小红", "小明", "小华"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)
first_row = df.loc[0:0, :]
left_rows = df.loc[1:, :]

image.png

1.2 拆分列

拆分单列或者多列。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小红", "小明", "小华"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)

first_col = df[["name"]]
left_cols = df[["age", "gender"]]

image.png

1.3 按条件拆分

下面的示例按照列的值来拆分数据集。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小红", "小明", "小华"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)

males = df[df["gender"] == "男"]
greater13 = df[df["age"] > 13]

image.png

如果有多个条件,可以通过逻辑与(&)逻辑或(|)符号来连接,具体可以参照之前介绍数据检索的文章。

2. 数据集合并

数据集的合并也是比较常用的,因为我们收集来的数据可能来自不同的地方。

2.1 merge 方法

merge方法合并DataFrame时,有两个重要的参数:

  1. how:设置合并的方式,有innerouterleftright四种方式。
  2. on:依据那个列来合并

下面是四种不同合并方式的示例。
inner合并:name值相同的数据才保留下来。

import pandas as pd

df1 = pd.DataFrame(
    {
        "name": ["小红", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小红", "小华"],
        "score": [99, 100],
    }
)

df = pd.merge(df1, df2, how="inner", on="name")
df

image.png

outer合并:两个DataFramename都保留下来,合并后缺失值的填充NaN

df = pd.merge(df1, df2, how="outer", on="name")
df

image.png

left合并:df1name全部保留下来,缺失的值填充NaN

df = pd.merge(df1, df2, how="left", on="name")
df

image.png

right合并:df2name全部保留下来,缺失的值填充NaN

df = pd.merge(df1, df2, how="right", on="name")
df

image.png

2.2 concat 方法

两个DataFrame结构相同时,一般是按行来合并(axis=0)。

df1 = pd.DataFrame(
    {
        "name": ["小红", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小红", "小华"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df = pd.concat([df1, df3], axis=0)
df

image.png

如果两个DataFrame结构不一样时,用列合并(axis=1)。

df1 = pd.DataFrame(
    {
        "name": ["小红", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "score": [100, 90],
        "city": ["nanjing", "beijing"],
    }
)

df = pd.concat([df1, df3], axis=1)
df

image.png

2.3 join 方法

join方法和merge方法类似,主要区别在于joinDataFrame的方法,而mergepandas的方法。
下面请直接看与merge方法相似的四种示例。

inner合并:name值相同的数据才保留下来。

df1 = pd.DataFrame(
    {
        "name": ["小红", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小红", "小华"],
        "score": [99, 100],
    }
)

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="inner")
df.reset_index()

image.png
注意,这里显示了joinmerge的一个区别,join默认是依据索引(index)来合并DataFrame的,
所以,先把name设置为索引之后才合并的,合并之后又通过reset_index重置了索引,得到了和merge同样的结果。

outer合并:两个DataFramename都保留下来,合并后缺失值的填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="outer")
df.reset_index()

image.png
注意,最后的数据虽然和merge一样,但是顺序有些区别。

left合并:df1name全部保留下来,缺失的值填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="left")
df.reset_index()

image.png
left的结果和merge一样。

right合并:df2name全部保留下来,缺失的值填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="right")
df.reset_index()

image.png
right的结果和merge一样。

3. 总结回顾

总的来说,pandas数据集拆分和合并的意义在于高效利用数据,提高数据分析的质量和效率,进一步实现数据驱动的业务增长。

本篇主要介绍了数据集拆分和合并最常用的几种基本方法,根据具体的业务组合这些基本方法,就能够进行更复杂的数据集拆分和合并。

与【pandas基础】--数据拆分与合并相似的内容:

【pandas基础】--数据拆分与合并

数据集拆分是将一个大型的数据集拆分为多个较小的数据集,可以让数据更加清晰易懂,也方便对单个数据集进行分析和处理。 同时,分开的数据集也可以分别应用不同的数据分析方法进行处理,更加高效和专业。 数据集合并则是将多个数据集合并成一个大的数据集,可以提供更全面的信息,也可以进行更综合的数据分析。 同时,数

【pandas基础】--数据读取

数据读取是第一步,只有成功加载数据之后,后续的操作才有可能。 pandas可以读取和导入各种数据格式的数据,如CSV,Excel,JSON,SQL,HTML等,不需要手动编写复杂的读取代码。 1. 各类数据源 pandas提供了导入各类常用文件格式数据的接口,这里介绍3种最常用的加载数据的接口。 1

【pandas基础】--数据整理

pandas进行数据整理的意义在于,它是数据分析、数据科学和机器学习的前置步骤。 通过数据整理可以提前了解数据的概要,缺失值、重复值等情况,为后续的分析和建模提供更为可靠的数据基础。 本篇主要介绍利用pandas进行数据整理的各种方法。 1. 数据概要 获取数据概要信息可以帮助我们了解数据的基本情况

【pandas基础】--数据修改

pandas 作为一种常用的数据分析工具,提供了广泛的数据修改方法。 既可以针对行或者列的数据进行修改,也可以对具体单个元素进行修改,还可以基于条件选择要修改的行或者列的数据。 1. 增加数据 1.1 增加行数据 pandas的DataFrame增加一行或者多行数据之前是使用append方法。 im

【pandas基础】--数据排序

`pandas`的数据排序可以帮助我们更好地理解和分析数据。 通过对数据进行排序,我们可以提取出特定的信息,例如最大值、最小值、中位数、众数等等,从而更准确地识别数据的特征和特点。 此外,数据排序还可以帮助我们更好地进行数据可视化,例如绘制直方图、箱线图等等,进一步帮助我们对数据进行解读和分析。 总

【pandas基础】--数据统计

在进行统计分析时,`pandas`提供了多种工具来帮助我们理解数据。 `pandas`提供了多个聚合函数,其中包括均值、标准差、最大值、最小值等等。 此外,`pandas`还可以进行基于列的统计分析,例如通过`groupby()`函数对数据进行聚合,并计算每组的统计分析结果。 除了基本的统计分析之外

【pandas基础】--日期处理

时间序列数据是数据分析中一类常见且重要的数据。 它们按照时间顺序记录,通常是从某些现象的观察中收集的,比如经济指标、气象数据、股票价格、销售数据等等。 时间序列数据的特点是有规律地随着时间变化而变化,它们的变化趋势可以被分析和预测。时间序列分析是一种用于预测未来值或评估过去值的统计方法,常常被用于预

【pandas基础】--核心数据结构

pandas中用来承载数据的两个最重要的结构分别是: Series:相当于增强版的一维数组 DataFrame:相当于增强版的二维数组 pandas最大的优势在于处理表格类数据,如果数据维度超过二维,一般我们会使用另一个 python的库 numpy。 本篇主要介绍这两种核心数据结构的创建方式。 1

【pandas基础】--数据类型

数据类型是计算机编程中将不同类型的数据值分类和定义的方式。 通过数据类型,可以确定数据的存储方式和内存占用量,了解不同类型的数据进行各种运算的能力。 使用`pandas`进行数据分析时,最常用到的几种类型是: 1. 字符串类型,各类文本内容都是字符串类型 2. 数值类型,包括整数和浮点数,可用于计算

【pandas基础】--索引和轴

在`pandas`中,索引(`index`)是用于访问数据的关键。 它为数据提供了基于标签的访问能力,类似于字典,可以根据标签查找和访问数据。 而`pandas`的轴(`axis`)是指数据表中的一个维度,可以理解为表格中的行和列。 通过指定轴,我们可以对数据进行切片、筛选、聚合等操作。 下面简要介