【matplotlib 实战】--折线图

matplotlib,实战,折线图 · 浏览次数 : 26

小编点评

**折线图介绍** 折线图是一种用于可视化数据变化趋势的图表,它可以用于表示任何数值随着时间或类别的变化。 **主要元素** * **数据点**:每个折线图都包含多个数据点,每个数据点代表着一个时间点或一个数值。 * **折线**:折线图中的一条折线代表着数据的变化趋势。 * **X轴**:一般是有序变量,表示数据点的变化区间。 * **Y轴**:数据点在不同时刻的值。 **适用的场景** 折线图适用于以下分析场景: * **趋势分析**:折线图可以用于展示数据的增长、下降、波动等趋势,帮助分析人员了解数据的变化趋势。 * **问题诊断**:折线图可以用于数据异常检测,帮助分析人员快速发现数据的异常情况。 **不适用的场景** 折线图不适用于以下分析场景: * **数据分类和分组**:折线图不适用于数据分类和分组分析,因为折线图主要用于展示数据的变化趋势,而不是数据的分类和分组情况。 * **数据回归分析**:折线图不适用于数据回归分析,因为回归分析需要建立在数据样本中的线性关系,而折线图主要用于展示数据的变化趋势,不能很好地反映数据的线性关系。 **分析实战** ```python import pandas as pdp import matplotlib import pyplot as plt import matplotlib.ticker as MultipleLocator # 数据来源 fp = "d:/share/A0301.csv" # 读取数据 df = pd.read_csv(fp) # 统计类别数量 df["zbCN"] = df["zbCN"].nunique() # 分组数据 groups = df.groupby(by="zbCN") # 创建画布 fig, ax = plt.subplots() # 显示数据 for k, v in dict_group.items(): ax.plot(v["sjCN"], v["value"], label=k) # 设置坐标轴 ax.xaxis.set_major_locator(MultipleLocator(4)) ax.xaxis.set_minor_locator(MultipleLocator(2)) # 设置图例 ax.legend() # 显示图 plt.show() ```

正文

折线图是一种用于可视化数据变化趋势的图表,它可以用于表示任何数值随着时间或类别的变化。

折线图由折线段和折线交点组成,折线段表示数值随时间或类别的变化趋势,折线交点表示数据的转折点。

折线图的方向表示数据的变化方向,即正变化还是负变化,折线的斜率表示数据的变化程度。

1. 主要元素

折线图主要由以下四个元素组成:

  1. 数据点:折线图中的每个数据点都代表着一个时间点或一个数值。
  2. 折线:折线图中的线条代表着数据的变化趋势。
  3. X轴:一般是有序变量,表示数据点的变化区间。
  4. Y轴:数据点在不同时刻的值。

image.png

2. 适用的场景

折线图适用于以下分析场景:

  • 趋势分析:折线图可以用于展示数据的增长、下降、波动等趋势,帮助分析人员了解数据的变化趋势。
  • 问题诊断:折线图可以用于数据异常检测,帮助分析人员快速发现数据的异常情况。

3. 不适用的场景

折线图不适用于以下分析场景:

  • 数据分类和分组:折线图不适用于数据分类和分组分析,因为折线图主要用于展示数据的变化趋势,而不是数据的分类和分组情况。
  • 数据回归分析:折线图不适用于数据回归分析,因为回归分析需要建立在数据样本中的线性关系,而折线图主要用于展示数据的变化趋势,不能很好地反映数据的线性关系。

4. 分析实战

4.1. 数据来源

数据来源国家统计局公开数据,已经整理好的csv文件在:https://databook.top/nation/A03

本次分析使用其中的 A0301.csv 文件(总人口数据)。

下面的文件路径 fp 要换成自己实际的文件路径。

import pandas as pd

fp = "d:/share/A0301.csv"

df = pd.read_csv(fp)
df

image.png

4.2. 数据清理

首先看看 zbCN 字段中有多少种不同的人口统计类别。

df.groupby(by="zbCN").count()

image.png

这个数据集中一共有5种不同维度的人口统计:

  1. 年末总人口
  2. 男性人口
  3. 女性人口
  4. 城镇人口
  5. 乡村人口

按照类别,将它们分离成5个不同的数据集,为了绘制折线图做准备。

groups = df.groupby(by="zbCN")

dict_group = {}
for g in groups:
    dict_group[g[0]] = g[1]

for k, v in dict_group.items():
    print("key = {}, value type = {}".format(k, type(v)))

image.png

groupby 函数按照 by 参数指定的字段将数据集分组,每个group是一个二元的元组。
第一个元素是用来分组的字段值,第二个元素是分组之后的数据集。

4.3. 分析结果可视化

拆分好数据集之后,最就是可视化展示。

首先封装一个函数,用来显示2个数据:
(直接使用上面分割好的数据集dict_group

import pandas as pd

import matplotlib
import matplotlib.pyplot as plt
from matplotlib.ticker import MultipleLocator

%matplotlib inline

#为了显示中文
matplotlib.rcParams["font.sans-serif"] = ["Microsoft YaHei Mono"]
matplotlib.rcParams["axes.unicode_minus"] = False

#根据key显示两个数据集
def draw(key1, key2):
    with plt.style.context("seaborn-v0_8"):
        fig = plt.figure()
        ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
        ax.xaxis.set_major_locator(MultipleLocator(4))
        ax.xaxis.set_minor_locator(MultipleLocator(2))

        data = dict_group[key1]
        ax.plot(data["sjCN"], data["value"], "b--o", label=key1)

        data = dict_group[key2]
        ax.plot(data["sjCN"], data["value"], "g:d", label=key2)
        ax.legend()

首先看下男女人口的变化趋势:

key1 = "女性人口(万人)"
key2 = "男性人口(万人)"
#男性人口和女性人口的变化趋势
dict_group[key1] = dict_group[key1].sort_values("sj")
dict_group[key2] = dict_group[key2].sort_values("sj")

draw(key1, key2)

image.png

看这个趋势变化,男女人口的差距长期都在几千万上下,所以找不到女朋友也许不是你的责任 : )

再看看城镇和乡村的人口变化。

key1 = "乡村人口(万人)"
key2 = "城镇人口(万人)"
#乡村人口和城镇人口的变化趋势
dict_group[key1] = dict_group[key1].sort_values("sj")
dict_group[key2] = dict_group[key2].sort_values("sj")

draw(key1, key2)

image.png

从图中可以看出,1994年左右,乡村人口开始进入城镇;
2010年左右,城镇人口开始超越乡村人口,且人口差距越来越大。

折线图最适合的场景就是展示这类有趋势变化的数据。

与【matplotlib 实战】--折线图相似的内容:

【matplotlib 实战】--折线图

折线图是一种用于可视化数据变化趋势的图表,它可以用于表示任何数值随着时间或类别的变化。 折线图由折线段和折线交点组成,折线段表示数值随时间或类别的变化趋势,折线交点表示数据的转折点。 折线图的方向表示数据的变化方向,即正变化还是负变化,折线的斜率表示数据的变化程度。 1. 主要元素 折线图主要由以下

【matplotlib 实战】--平行坐标系

平行坐标系是一种统计图表,它包含多个垂直平行的坐标轴,每个轴表示一个字段,并用刻度标明范围。通过在每个轴上找到数据点的落点,并将它们连接起来形成折线,可以很容易地展示多维数据。随着数据增多,折线会堆叠,分析者可以从中发现数据的特性和规律,比如发现数据之间的聚类关系。 尽管平行坐标系与折线图表面上看起

【matplotlib 实战】--面积图

面积图,或称区域图,是一种随有序变量的变化,反映数值变化的统计图表。 面积图也可用于多个系列数据的比较。这时,面积图的外观看上去类似层叠的山脉,在错落有致的外形下表达数据的总量和趋势。面积图不仅可以清晰地反映出数据的趋势变化,也能够强调不同类别的数据间的差距对比。 面积图的特点在于,折线与自变量坐标

如何利用 Seaborn 实现高级统计图表

本文分享自华为云社区《使用 Seaborn 实现高级统计图表从箱线图到多变量关系探索》 ,作者:柠檬味拥抱。 在数据科学和数据可视化领域,Seaborn 是一个备受欢迎的 Python 可视化库。它建立在 Matplotlib 的基础之上,提供了更简洁、更美观的图形界面,同时也具备了一些高级统计图表

【matplotlib 实战】--饼图

饼图,或称饼状图,是一个划分为几个扇形的圆形统计图表。在饼图中,每个扇形的弧长(以及圆心角和面积)大小,表示该种类占总体的比例,且这些扇形合在一起刚好是一个完全的圆形。 饼图最显著的功能在于表现“占比”。习惯上,人们通过比较饼图扇形的大小来获得对数据的认知。 使用饼图时,须确认各个扇形的数据加起来等

【matplotlib 实战】--百分比柱状图

百分比堆叠式柱状图是一种特殊的柱状图,它的每根柱子是等长的,总额为100%。柱子内部被分割为多个部分,高度由该部分占总体的百分比决定。 百分比堆叠式柱状图不显示数据的“绝对数值”,而是显示“相对比例”。但同时,它也仍然具有柱状图的固有功能,即“比较”——我们可以通过比较多个柱子的构成,分析数值之间的

【matplotlib 实战】--堆叠柱状图

堆叠柱状图,是一种用来分解整体、比较各部分的图。与柱状图类似,堆叠柱状图常被用于比较不同类别的数值。而且,它的每一类数值内部,又被划分为多个子类别,这些子类别一般用不同的颜色来指代。 柱状图帮助我们观察“总量”,堆叠柱状图则可以同时反映“总量”与“结构”。也就是说,堆叠柱状图不仅可以反映总量是多少?

【matplotlib 实战】--直方图

直方图,又称质量分布图,用于表示数据的分布情况,是一种常见的统计图表。 一般用横轴表示数据区间,纵轴表示分布情况,柱子越高,则落在该区间的数量越大。构建直方图时,首先首先就是对数据划分区间,通俗的说即是划定有几根柱子(比如,1980年~2020年的数据,每5年划分一个区间的话,共8个区间)。接着,对

【matplotlib 实战】--柱状图

柱状图,是一种使用矩形条,对不同类别进行数值比较的统计图表。在柱状图上,分类变量的每个实体都被表示为一个矩形(通俗讲即为“柱子”),而数值则决定了柱子的高度。 1. 主要元素 柱状图是一种用长方形柱子表示数据的图表。它包含三个主要元素: 横轴(x轴):表示数据的类别或时间。 纵轴(y轴):表示数据的

【matplotlib 实战】--堆叠面积图

堆叠面积图和面积图都是用于展示数据随时间变化趋势的统计图表,但它们的特点有所不同。面积图的特点在于它能够直观地展示数量之间的关系,而且不需要标注数据点,可以轻松地观察数据的变化趋势。而堆叠面积图则更适合展示多个数据系列之间的变化趋势,它们一层层的堆叠起来,每个数据系列的起始点是上一个数据系列的结束点