【pandas小技巧】--数据转置

pandas,技巧,数据,转置 · 浏览次数 : 229

小编点评

**数据转置的作用** 数据转置是一种将原始数据表格沿着对角线翻折的技术，使原来的行变成新的列，原来的列变成新的行。这可以更方便地进行数据分析和处理。 **常见场景** 1. **数据结构调整**：某些机器学习算法要求输入特征矩阵的行表示样本，列表示特征值，这时候就需要将原始数据表格进行转置。 2. **数据展示**：在制作某些类型的图表或报告中，将数据表格转置可以更加直观地展示重点数据信息。例如，有如下学生成绩数据： ``` df = pd.DataFrame(np.random.randint(60, 100, (4, 3))) ``` df.columns = [\"语文\", \"数学\", \"英语\"] df.index = [\"学生\"+s for s in list(\"ABCD\")] df.T ``` 这个视图以学生为主要视角，可以绘制各个学生的成绩情况。 **其他用途** 除了数据结构调整和数据展示之外，数据转置还可以用于： * 将数据转换为特定格式的表格，例如，将pandas DataFrame转换为NumPy数组。 * 计算数据中的最大值、最小值、平均值等统计指标。 * 对数据进行分组和聚合。

正文

所谓数据转置，就是是将原始数据表格沿着对角线翻折，使原来的行变成新的列，原来的列变成新的行，从而更方便地进行数据分析和处理。

pandas中DataFrame的转置非常简单，每个DataFrame对象都有一个T属性，通过这个属性就能得到转置之后的DataFrame。
下面介绍几个数据转置常用的场景，感受下转置前后数据展示的区别。

1. 数据结构调整

有时候原始数据在行列方向上不太适合某些数据分析和处理需求，需要将其调整为合适的数据结构。
某些机器学习算法要求输入特征矩阵的行表示样本，列表示特征值，这时候就需要将原始数据表格进行转置。

比如，随机生成10个样本数据，每个样本有200个特征值：

import pandas as pd

df = pd.DataFrame(np.random.rand(200, 10))
df.columns = [
    "SAMPLE_"+s for s in list("ABCDEFGHIJ")
]
df
复制

每列代表一个样本的所有特征的值，样本名称是按字母顺序生成的。
每行代表所有样本的一种特征值。

如果要让列显示各个特征值，行代表一个个样本的话，就需要转置操作。

df.T
复制

转置之后，每行代表一个样本的所有特征的值，更有利于观察每个样本的特征。

2. 数据展示效果

有时候为了更好地呈现数据，需要将原始数据表格进行转置。
在制作某些类型的图表或者报告中，将数据表格转置可以更加直观地展示重点数据信息。

比如，有如下学生成绩数据：

df = pd.DataFrame(
    np.random.randint(60, 100, (4, 3))
)
df.columns = ["语文", "数学", "英语"]
df.index = ["学生"+s for s in list("ABCD")]
df
复制

这样的视图适合查看每个学生的成绩情况。
这样的结构以学生为主要视角，可以绘制各个学生的学科堆叠柱状图等。

转置之后如下：

df.T
复制

这样的视图以学科为主要视角，方便查看每个学科的学习情况。
这样的结构适合绘制每个学科的学生成绩堆叠柱状图等。

此外，查看DataFrame概况信息时，也常常会转置之后查看。

df = pd.DataFrame(np.random.rand(200, 10))
df.columns = [
    "SAMPLE_" + s for s in list("ABCDEFGHIJ")
]

df.describe()
复制

转置之后是这样的，可以体会在不同的视角下，数据给我们的感觉。

df.describe().T
复制

【pandas小技巧】--数据转置

小编点评

正文

1. 数据结构调整

2. 数据展示效果

与【pandas小技巧】--数据转置相似的内容：

【pandas小技巧】--数据转置

【pandas小技巧】--category类型补充

【pandas小技巧】--列值的映射

【pandas小技巧】--字符串转数值

【pandas小技巧】--日期相关处理

【pandas小技巧】--读取多个文件

【pandas小技巧】--修改列的名称

【pandas小技巧】--缺失值的列

【pandas小技巧】--按类型选择列

【pandas小技巧】--DataFrame的显示参数

# 热门排行