【pandas小技巧】--列值的映射

pandas,技巧,映射 · 浏览次数 : 140

小编点评

**映射列值** **1. map** ```python df.sex = df.sex.map({ 'female': 0, 'male': 1 }) ``` **2. factorize** ```python df.grade = df.grade.factorize()[0] ``` **3. dffactorize** ```python df.grade = df.grade.factorize()[0] ``` **小技巧** * 如果需要对多个值进行映射，可以使用列表 comprehension。 * 如果需要将数字类型转换为字符串，可以使用 `astype("str")` 方法。

正文

映射列值是指将一个列中的某些特定值映射为另外一些值，常用于数据清洗和转换。

使用映射列值的场景有很多，以下是几种常见的场景：

将字符串类型的列中的某些值映射为数字。例如，将“男”和“女”分别映射为 0 和 1，以便进行机器学习算法的训练和预测。
将缩写替换为全称。例如，将“USA”和“UK”分别替换为“美国”和“英国”，使得数据更加易读。
将错误拼写的单词替换为正确的单词。例如，将“Cocacola”替换为“Coca-Cola”，以避免错误的统计和分析。

本篇介绍几个常用的映射小技巧。

1. map 映射

map映射是最简单也是最直接的，比如下面的示例，将性别映射成0和1。

import pandas as pd

df = pd.DataFrame({
    "name": ["Lily", "Harry", 
             "Annie", "Joe","Tom"],
    "sex": ["female", "male", 
            "female", "male","male"],
    "grade":["A", "E", "B", "F", "A"],
})

df.sex = df.sex.map({
    "female": 0, 
    "male": 1,
})
df
复制

2. factorize 映射

用map函数映射列的值是最直观的方式，不过如果列的值种类比较多的时候，一个一个映射比较麻烦。
比如下面示例中的 grade 列，不像 sex 列只有两种值。

这时，可以用 factorize 方法来映射。

df = pd.DataFrame({
    "name": ["Lily", "Harry",
             "Annie", "Joe","Tom"],
    "sex": ["female", "male",
            "female", "male","male"],
    "grade":["A", "E", "B", "F", "A"],
})

df.sex = df.sex.factorize()[0]
df.grade = df.grade.factorize()[0]
df
复制

factorize函数返回的是一个二元元组，第一个元素是映射之后的数字数组，
第二个元素是索引类型，索引的值就是列中各个不同的值。

df.grade.factorize()
复制

所以代码中用的是 factorize()[0]。

这里还有一个小技巧，如果映射后想把得到的值二元化，
比如上面的 grade 列，映射之后有4种不同的值，代表不同的成绩等级。
如果我们只想要不及格（F）和及格（非F）两种情况，那么

df.grade = df.grade.factorize()[0]
df.grade = (df.grade == 3).astype("int")
df
复制

【pandas小技巧】--列值的映射

小编点评

正文

1. map 映射

2. factorize 映射

与【pandas小技巧】--列值的映射相似的内容：

【pandas小技巧】--列值的映射

【pandas小技巧】--缺失值的列

【pandas小技巧】--拆分列

【pandas小技巧】--统计值作为新列

【pandas小技巧】--DataFrame的显示样式

【pandas小技巧】--修改列的名称

【pandas小技巧】--按类型选择列

【pandas小技巧】--数据转置

【pandas小技巧】--日期相关处理

【pandas小技巧】--category类型补充

# 热门排行