数据集拆分是将一个大型的数据集拆分为多个较小的数据集,可以让数据更加清晰易懂,也方便对单个数据集进行分析和处理。
同时,分开的数据集也可以分别应用不同的数据分析方法进行处理,更加高效和专业。
数据集合并则是将多个数据集合并成一个大的数据集,可以提供更全面的信息,也可以进行更综合的数据分析。
同时,数据集合并也可以减少数据处理的复杂度和时效性,提升数据分析的准确性和结果的可靠性。
拆分数据集比较简单,之前介绍过数据检索的各种方式,其实检索出的结果就是拆分出来的数据。
拆分单行和多行。
import pandas as pd
df = pd.DataFrame(
{
"name": ["小红", "小明", "小华"],
"age": [13, 15, 14],
"gender": ["男", "女", "男"],
}
)
first_row = df.loc[0:0, :]
left_rows = df.loc[1:, :]
拆分单列或者多列。
import pandas as pd
df = pd.DataFrame(
{
"name": ["小红", "小明", "小华"],
"age": [13, 15, 14],
"gender": ["男", "女", "男"],
}
)
first_col = df[["name"]]
left_cols = df[["age", "gender"]]
下面的示例按照列的值来拆分数据集。
import pandas as pd
df = pd.DataFrame(
{
"name": ["小红", "小明", "小华"],
"age": [13, 15, 14],
"gender": ["男", "女", "男"],
}
)
males = df[df["gender"] == "男"]
greater13 = df[df["age"] > 13]
如果有多个条件,可以通过逻辑与(&)和逻辑或(|)符号来连接,具体可以参照之前介绍数据检索的文章。
数据集的合并也是比较常用的,因为我们收集来的数据可能来自不同的地方。
merge
方法合并DataFrame
时,有两个重要的参数:
inner
,outer
,left
,right
四种方式。下面是四种不同合并方式的示例。
inner
合并:name
值相同的数据才保留下来。
import pandas as pd
df1 = pd.DataFrame(
{
"name": ["小红", "小明"],
"age": [13, 15],
"gender": ["男", "女"],
}
)
df2 = pd.DataFrame(
{
"name": ["小红", "小华"],
"score": [99, 100],
}
)
df = pd.merge(df1, df2, how="inner", on="name")
df
outer
合并:两个DataFrame
的name
都保留下来,合并后缺失值的填充NaN
。
df = pd.merge(df1, df2, how="outer", on="name")
df
left
合并:df1
的name
全部保留下来,缺失的值填充NaN
。
df = pd.merge(df1, df2, how="left", on="name")
df
right
合并:df2
的name
全部保留下来,缺失的值填充NaN
。
df = pd.merge(df1, df2, how="right", on="name")
df
两个DataFrame
结构相同时,一般是按行来合并(axis=0
)。
df1 = pd.DataFrame(
{
"name": ["小红", "小明"],
"age": [13, 15],
"gender": ["男", "女"],
}
)
df2 = pd.DataFrame(
{
"name": ["小红", "小华"],
"age": [13, 15],
"gender": ["男", "女"],
}
)
df = pd.concat([df1, df3], axis=0)
df
如果两个DataFrame
结构不一样时,用列合并(axis=1
)。
df1 = pd.DataFrame(
{
"name": ["小红", "小明"],
"age": [13, 15],
"gender": ["男", "女"],
}
)
df2 = pd.DataFrame(
{
"score": [100, 90],
"city": ["nanjing", "beijing"],
}
)
df = pd.concat([df1, df3], axis=1)
df
join
方法和merge
方法类似,主要区别在于join
是DataFrame
的方法,而merge
是pandas
的方法。
下面请直接看与merge
方法相似的四种示例。
inner
合并:name
值相同的数据才保留下来。
df1 = pd.DataFrame(
{
"name": ["小红", "小明"],
"age": [13, 15],
"gender": ["男", "女"],
}
)
df2 = pd.DataFrame(
{
"name": ["小红", "小华"],
"score": [99, 100],
}
)
df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="inner")
df.reset_index()
注意,这里显示了join
和merge
的一个区别,join
默认是依据索引(index
)来合并DataFrame
的,
所以,先把name
设置为索引之后才合并的,合并之后又通过reset_index
重置了索引,得到了和merge
同样的结果。
outer
合并:两个DataFrame
的name
都保留下来,合并后缺失值的填充NaN
。
df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="outer")
df.reset_index()
注意,最后的数据虽然和merge
一样,但是顺序有些区别。
left
合并:df1
的name
全部保留下来,缺失的值填充NaN
。
df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="left")
df.reset_index()
left
的结果和merge
一样。
right
合并:df2
的name
全部保留下来,缺失的值填充NaN
。
df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="right")
df.reset_index()
right
的结果和merge
一样。
总的来说,pandas
数据集拆分和合并的意义在于高效利用数据,提高数据分析的质量和效率,进一步实现数据驱动的业务增长。
本篇主要介绍了数据集拆分和合并最常用的几种基本方法,根据具体的业务组合这些基本方法,就能够进行更复杂的数据集拆分和合并。