NumPy 二项分布生成与 Seaborn 可视化技巧

numpy,seaborn · 浏览次数 : 0

小编点评

**二项分布简介** 二项分布是一种离散概率分布,用于描述在固定次数的独立试验中,事件“成功”的次数的概率分布。它通常用于分析诸如抛硬币、做选择题等具有两个结果(成功或失败)的事件。 **参数** * **n:试验次数**:表示重复相同实验的次数。 * **p:每次试验中成功事件发生的概率**。 * **k:成功事件发生的次数**,范围为 0 到 n。 **概率质量函数 (PMF)** P(k) = C(n, k) p^k (1 - p)^(n - k) 其中: * C(n, k) 是组合数,表示从 n 个元素中选取 k 个元素的方案数。 * p^k 表示 k 次成功的概率。 * (1 - p)^(n - k) 表示 n - k 次失败的概率。 **生成二项分布数据的方法** * **random.binomial() 函数**:生成服从二项分布的随机数。 * **Seaborn 库** 提供 **distplot** 函数可视化分布。 **二项分布与正态分布的关系** 当 **n** 很大, **p** 接近 0.5 时,二项分布可以近似为正态分布。 **练习** ```python import numpy as np import seaborn as sns # 模拟成功次数并绘制分布图 data = np.random.binomial(n=50, p=0.2, size=1000) sns.distplot(data) plt.show() # 比较不同试验次数下二项分布形状的变化 n_values = [10, 50, 100, 500] for n in n_values: data = np.random.binomial(n=n, p=0.5, size=1000) sns.distplot(data, label=f\"n={n}\") plt.legend() plt.show() # 模拟考试成绩并计算平均分和及格率 scores = np.random.binomial(n=10, p=0.7, size=1000) average_score = np.mean(scores) percentage_above_60 = np.sum(scores >= 60) / 1000 * 100 print(f"平均分:{average_score}") print(f"及格率:{percentage_above_60}") ```

正文

二项分布

简介

二项分布是一种离散概率分布,用于描述在固定次数的独立试验中,事件“成功”的次数的概率分布。它通常用于分析诸如抛硬币、做选择题等具有两个结果(成功或失败)的事件。

参数

二项分布用三个参数来定义:

n:试验次数,表示重复相同实验的次数。
p:每次试验中成功事件发生的概率。
k:成功事件发生的次数,范围为 0 到 n。

公式

二项分布的概率质量函数 (PMF) 给出了在 n 次试验中恰好获得 k 次成功的概率,计算公式为:

P(k) = C(n, k) p^k (1 - p)^(n - k)

其中:

C(n, k) 是组合数,表示从 n 个元素中选取 k 个元素的方案数。
p^k 表示 k 次成功的概率。
(1 - p)^(n - k) 表示 n - k 次失败的概率。

生成二项分布数据

NumPy 提供了 random.binomial() 函数来生成服从二项分布的随机数。该函数接受以下参数:

n:试验次数。
p:每次试验中成功事件发生的概率。
size:输出数组的形状。

示例:生成 10 次试验中,每次成功概率为 0.5 的事件的成功次数:

import numpy as np

data = np.random.binomial(n=10, p=0.5, size=10)
print(data)

可视化二项分布

Seaborn 库提供了便捷的函数来可视化分布,包括二项分布。

示例:绘制 100 次试验中,每次成功概率为 0.6 的事件的成功次数分布:

import seaborn as sns
import numpy as np

data = np.random.binomial(n=100, p=0.6, size=1000)
sns.distplot(data)
plt.show()

正态分布与二项分布的关系

当试验次数 n 很大,成功概率 p 接近 0.5 时,二项分布可以近似为正态分布。其均值 μ 为 np,标准差 σ 为 sqrt(np(1 - p))。

示例:比较二项分布和正态分布的形状:

import seaborn as sns
import numpy as np

n = 100
p = 0.5

# 生成二项分布数据
data_binomial = np.random.binomial(n=n, p=p, size=1000)

# 生成正态分布数据
mu = n p
sigma = np.sqrt(n p (1 - p))
data_normal = np.random.normal(loc=mu, scale=sigma, size=1000)

sns.distplot(data_binomial, label="Binomial")
sns.distplot(data_normal, label="Normal")
plt.legend()
plt.show()

练习

  1. 在 50 次试验中,每次成功概率为 0.2 的事件,模拟成功次数并绘制分布图。
  2. 比较不同试验次数下二项分布形状的变化。
  3. 利用二项分布来模拟一次 10 道选择题的考试,每题答对的概率为 0.7,并计算平均分和及格率(60 分及格)。

解决方案

import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

# 1. 模拟成功次数并绘制分布图
data = np.random.binomial(n=50, p=0.2, size=1000)
sns.distplot(data)
plt.show()

# 2. 比较不同试验次数下二项分布形状的变化
n_values = [10, 50, 100, 500]
for n in n_values:
    data = np.random.binomial(n=n, p=0.5, size=1000)
    sns.distplot(data, label=f"n={n}")
plt.legend()
plt.show()

# 3. 模拟考试成绩并计算平均分和及格率
scores

最后

为了方便其他设备和平台的小伙伴观看往期文章:

微信公众号搜索:Let us Coding,关注后即可获取最新文章推送

看完如果觉得有帮助,欢迎点赞、收藏、关注

与NumPy 二项分布生成与 Seaborn 可视化技巧相似的内容:

NumPy 二项分布生成与 Seaborn 可视化技巧

二项分布是描述固定次数独立试验中成功次数的概率分布,常用于分析二元结果的事件,如抛硬币。分布由参数 n(试验次数)、p(单次成功概率)和 k(成功次数)定义。概率质量函数 P(k) = C(n, k) * p^k * (1 - p)^(n - k)。NumPy 的 `random.binomial(...

多项分布模拟及 Seaborn 可视化教程

多项分布是二项分布的推广,描述了在n次试验中k种不同事件出现次数的概率分布。参数包括试验次数n、结果概率列表pvals(和为1)和输出形状size。PMF公式展示了各结果出现次数的概率。NumPy的`random.multinomial()`可生成多项分布数据。练习包括模拟掷骰子和抽奖活动。解决方案...

NumPy 差分、最小公倍数、最大公约数、三角函数详解

NumPy 助你处理数学问题:计算序列的差分用`np.diff()`,示例返回`[5, 10, -20]`;找最小公倍数(LCM)用`np.lcm()`,数组示例返回`18`;最大公约数(GCD)用`np.gcd.reduce()`,数组示例返回`4`;三角函数如`np.sin()`,`np.deg...

NumPy 舍入小数、对数、求和和乘积运算详解

NumPy 提供五种舍入小数的方法:`trunc()`, `fix()`, `around()`, `floor()`, `ceil()`。此外,它还支持对数运算,如 `log2()`, `log10()`, `log()`,以及自定义底数的对数。NumPy 的 `sum()` 和 `prod()`...

NumPy 简单算术:加减乘除及其他运算

NumPy 中的简单算术运算可以通过 `add`, `subtract`, `multiply`, `divide`, `power`, `mod`, `remainder` 等函数实现,这些函数支持条件运算,并接受 `where` 参数。例如,`add()` 实现加法,`subtract()` 表...

机器学习算法(一):1. numpy从零实现线性回归

系列文章目录 机器学习算法(一):1. numpy从零实现线性回归 机器学习算法(一):2. 线性回归之多项式回归(特征选取) @目录系列文章目录前言一、理论介绍二、代码实现1、导入库2、准备数据集3、定义预测函数(predict)4 代价(损失)函数5 计算参数梯度6 批量梯度下降7 训练8 可视

数据分析---numpy模块

前戏 NumPy(Numerical Python) 是 Python 语言中做科学计算的基础库。重在于数值计算,也是大部分Python科学计算库的基础,多用于在大型、多维数组上执行的数值运算。 快捷键的使用: 添加cell:a或者b 删除:x 修改cell的模式: m:修改成markdown模式

NumPy 数组排序、过滤与随机数生成详解

本文介绍了NumPy中的数组排序和过滤功能。`np.sort()`函数用于对数组进行升序排序,对二维数组则按行排序。示例展示了如何对一维和二维数组排序。此外,还讲解了使用布尔索引来过滤数组,以及直接在条件中操作数组以创建过滤后的数组。最后,介绍了NumPy的随机数生成,包括整数、浮点数及特定分布的随...

NumPy 分割与搜索数组详解

NumPy 分割数组 NumPy 提供了 np.array_split() 函数来分割数组,将一个数组拆分成多个较小的子数组。 基本用法 语法: np.array_split(array, indices_or_sections, axis=None) array: 要分割的 NumPy 数组。 i

NumPy 数组迭代与合并详解

NumPy 数组迭代 NumPy 数组迭代是访问和处理数组元素的重要方法。它允许您逐个或成组地遍历数组元素。 基本迭代 我们可以使用 Python 的基本 for 循环来迭代 NumPy 数组。 一维数组迭代: import numpy as np arr = np.array([1, 2, 3,