数据分析---numpy模块

numpy · 浏览次数 : 0

小编点评

## 1.级联操作理解问题: 级联操作是指将多个数组按行或列进行拼接,并将结果存储在一个新的数组中。由于数组的维度不同,拼接后的结果的维度也会发生变化。 **行列个数相同情况下,拼接的顺序会影响结果:** - 若矩阵 A 的行数等于矩阵 B 的列数,则按行拼接的结果将被分配到矩阵 C 中。 - 若矩阵 A 的行数小于矩阵 B 的列数,则按列拼接的结果将被分配到矩阵 C 中。 **示例:** ```python arr_1 = arr.reshape((30,)) arr_2 = np.array([[37, 57, 26, 92, 91, 34], [13, 16, 93, 54, 87, 34], [54, 63, 20, 11, 94, 88]]) # 按行拼接 arr_3 = np.concatenate((arr_1,arr_2),axis=1) # 按列拼接 arr_4 = np.concatenate((arr_1,arr_2),axis=0) ``` ## 2.常用的聚合操作: - `numpy.sum(axis=1)`: 行相加 - `numpy.max(axis=1)`: 行最大值 - `numpy.min(axis=1)`: 行最小值 - `numpy.mean(axis=1)`: 行平均值 - `numpy.std(axis=1)`: 行标准差 - `numpy.median(axis=1)`: 行中位数 **示例:** ```python arr = np.array([[69, 80, 7, 90, 31, 91]]) print(np.mean(arr, axis=1)) # 59 print(np.max(arr, axis=1)) # 90 print(np.min(arr, axis=1)) # 31 print(np.std(arr, axis=1)) # 18.2 print(np.median(arr, axis=1)) # 59 ``` ## 3.矩阵相关Operations: `numpy.matlib.identity()`函数返回给定大小的单位矩阵,其形状为 (m, n),其中 m 是矩阵的行数,n 是矩阵的列数。 **示例:** ```python np.eye(6) # 该函数会返回一个 6x6 的单位矩阵 ``` ## 4.矩阵相乘: 矩阵相乘是指将两个矩阵按行或列进行乘积,并将结果存储在新的矩阵中。 ```python a1 = np.array([[2,1],[4,3]]) a2 = np.array([[1,2],[1,0]]) np.dot(a1,a2) # 该函数会返回一个 2x3 的矩阵 ``` **总结:** 理解矩阵级联操作和常用聚合操作对于数据处理非常重要,能够帮助我们将多个数组进行按行或列的拼接和组合。矩阵相关操作则在线性代数中非常常用,用于计算矩阵之间的乘积。

正文

前戏

NumPy(Numerical Python) 是 Python 语言中做科学计算的基础库。重在于数值计算,也是大部分Python科学计算库的基础,多用于在大型、多维数组上执行的数值运算。

快捷键的使用:

  • 添加cell:a或者b
  • 删除:x
  • 修改cell的模式:
    • m:修改成markdown模式
    • y:修改成code模式
  • 执行cell:
    • shift+enter
  • tab:自动补全
  • 代开帮助文档:shift+tab

1. numpy模块的创建

点击查看代码
import numpy as np
arr = np.array()
arr

# 输出结果<details>

array([1, 2, 3])

2.使用numpy创建一个一维数组

点击查看代码
import numpy as np
arr = np.array([1,2,3])
arr

# 输出结果
array([1, 2, 3])

3.numpy创建一个多维数组

点击查看代码
import numpy as np
arr = np.array([[1,2,3],[4,5,6]])
arr

# 输出结果
array(
[[1, 2, 3],
[4, 5, 6]])

4.数组和列表的区别

  • 数组中存储的数据元素类型必须是统一类型
  • 优先级;
    • 字符串 > 浮点数 > 整数

举例:将外部的一张图片加载到numpy数组中,然后尝试改变数组元素的数值查看原始图片的影响

点击查看代码
import matplotlib.pyplot as plt
img_arr = plt.imread('./1.jpg')
img_arr # 这里生成的是图片的数组
plt.imshow(img_arr) # 将图片数组i女性可视化展示

5.numpy 5个基本功能

  • zeros()
  • ones()
  • linespace()
  • arange()
  • random()系列
点击查看代码
import numpy as np 
arr = np.zeros(shape=(3,4)) # 创建一个3行4列的数组,并用0来填充
arr1 = np.ones(shape=(2,3)) # 创建一个2行3列的数组,并用1来填充
arr2 = np.linespace(0,100,num=20) # 创建一个0到100之间,20个数字但他们是等差数列的数组
arr3 = np.arange(10,50,step=2) # 创建一个10-50之间的,d为2的等差数列数组
arr4 = np.random.randint(0,100,size=(5,3)) # 创建一个0到100之间,5行3列的随机数字数组

6.numpy的常用属性

  • shape
  • ndim
  • size
  • dtype
点击查看代码
import numpy as np
arr = np.random.randint(0,100,size = (3,4)) # 创建一个0到100之间,3行4列的随机数字数组
arr.shape # 获取arr这个数组的几行几列(返回的是数组的形状)

arr.ndim # 返回的是数组的维度

arr.size # 返回的是数组元素的个数

arr.dtype #返回的是数组元素的类型
arr.dtype = 'uint8' #修改数组的元素类型

7.numpy的索引(重点)

点击查看代码
import numpy as np
arr = np.random.randint(1,100,size=(5,6))
arr
  - array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])

arr[1]  # 取出了numpy数组中的下标为1的行数据
  - array([37, 57, 26, 92, 91, 34])

arr[[1,3,4]] # 取出多行
  - arr[[1,3,4]] #取出多行


8.numpy的切片操作

  • 切片操作
    • 切出前两列数据
    • 切出前两行数据
    • 切出前两行的前两列的数据
    • 数组数据翻转
    • 练习:将一张图片上下左右进行翻转操作
    • 练习:将图片进行指定区域的裁剪
点击查看代码
array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])

# 切出arr数组的前两行的数据
arr[0:2] #arr[行切片]
- array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34]])

# 切出arr数组中的前两列
arr[:,0:2] #arr[行切片,列切片]
- array([[69, 80],
       [37, 57],
       [13, 16],
       [ 5, 16],
       [54, 63]])

# 切出前两行的前两列的数据
arr[0:2,0:2]
- array([[69, 80],
       [37, 57]])


array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])


#将数组的行倒置
arr[::-1]
- array([[54, 63, 20, 11, 94, 88],
       [ 5, 16, 47, 66, 51, 12],
       [13, 16, 93, 54, 87, 34],
       [37, 57, 26, 92, 91, 34],
       [69, 80,  7, 90, 31, 44]])

#将数组的列倒置
arr[:,::-1]
- array([[44, 31, 90,  7, 80, 69],
       [34, 91, 92, 26, 57, 37],
       [34, 87, 54, 93, 16, 13],
       [12, 51, 66, 47, 16,  5],
       [88, 94, 11, 20, 63, 54]])

#所有元素倒置
arr[::-1,::-1]
- array([[88, 94, 11, 20, 63, 54],
       [12, 51, 66, 47, 16,  5],
       [34, 87, 54, 93, 16, 13],
       [34, 91, 92, 26, 57, 37],
       [44, 31, 90,  7, 80, 69]])


# 将一张图片进行左右翻转
img_arr = plt.imread('./1.jpg')
plt.imshow(img_arr)
img_arr.shape
- (300, 450, 3)

# 左右翻转
plt.imshow(img_arr[:,::-1,:]) #img_arr[行,列,颜色]

# 图片上下翻转
plt.imshow(img_arr[::-1,:,:])

#图片裁剪的功能
plt.imshow(img_arr[66:200,78:300,:])

9.变形reshape

点击查看代码
arr **是一个5行6列的二维数组**
array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])

#将二维的数组变形成1维
arr_1 = arr.reshape((30,))

#将一维变形成多维
arr_1.reshape((6,5))

10.级联操作

  • 将多个numpy数组进行横向或者纵向的拼接
    • axis轴向的理解
      • 0:列
      • 1:行
    • 问题:
      • 级联的两个数组维度一样,但是行列个数不一样会如何?
点击查看代码
# 将两个数组级联,行级联
np.concatenate((arr,arr),axis=1)
- array([[69, 80,  7, 90, 31, 44, 69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34, 37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34, 13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12,  5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88, 54, 63, 20, 11, 94, 88]])

# 将三张图片进行级联,列级联
arr_3 = np.concatenate((img_arr,img_arr,img_arr),axis=0)
plt.imshow(arr_3)

11.常用的聚合操作

  • sum,max,min,mean
点击查看代码
array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])

# 行相加
arr.sum(axis=1)
- array([321, 337, 297, 197, 330])

# 每行的最大值
arr.max(axis=1)
- array([90, 92, 93, 66, 94])

12.常用的数学函数

  • NumPy 提供了标准的三角函数:sin()、cos()、tan()
  • numpy.around(a,decimals) 函数返回指定数字的四舍五入值。
    • 参数说明:
      • a: 数组
      • decimals: 舍入的小数位数。 默认值为0。 如果为负,整数将四舍五入到小数点左侧的位置
点击查看代码
np.sin(2.5)
0.5984721441039564

np.around(3.84,2)
3.84

13.常用的统计函数

  • numpy.amin() 和 numpy.amax(),用于计算数组中的元素沿指定轴的最小、最大值。
  • numpy.ptp():计算数组中元素最大值与最小值的差(最大值 - 最小值)。
  • numpy.median() 函数用于计算数组 a 中元素的中位数(中值)
  • 标准差std():标准差是一组数据平均值分散程度的一种度量。
    • 公式:std = sqrt(mean((x - x.mean())**2))
    • 如果数组是 [1,2,3,4],则其平均值为 2.5。 因此,差的平方是 [2.25,0.25,0.25,2.25],并且其平均值的平方根除以 4,即 sqrt(5/4) ,结果为 1.1180339887498949。
  • 方差var():统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,即 mean((x - x.mean())** 2)。换句话说,标准差是方差的平方根。
点击查看代码
arr[1].std()
26.66718749491384

arr[1].var()
711.138888888889

12.矩阵相关

  • NumPy 中包含了一个矩阵库 numpy.matlib,该模块中的函数返回的是一个矩阵,而不是 ndarray 对象。一个 的矩阵是一个由行(row)列(column)元素排列成的矩形阵列。
  • numpy.matlib.identity() 函数返回给定大小的单位矩阵。单位矩阵是个方阵,从左上角到右下角的对角线(称为主对角线)上的元素均为 1,除此以外全都为 0。
点击查看代码
# eye返回一个标准的单位矩阵
np.eye(6)
- array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

- 转置矩阵
    - .T

arr.T
- array([[69, 37, 13,  5, 54],
       [80, 57, 16, 16, 63],
       [ 7, 26, 93, 47, 20],
       [90, 92, 54, 66, 11],
       [31, 91, 87, 51, 94],
       [44, 34, 34, 12, 88]])

13.矩阵相乘

  • 矩阵相乘
    • numpy.dot(a, b, out=None)
      • a : ndarray 数组
      • b : ndarray 数组
    • 第一个矩阵第一行的每个数字(2和1),各自乘以第二个矩阵第一列对应位置的数字(1和1),然后将乘积相加( 2 x 1 + 1 x 1),得到结果矩阵左上角的那个值3。也就是说,结果矩阵第m行与第n列交叉位置的那个值,等于第一个矩阵第m行与第二个矩阵第n列,对应位置的每个值的乘积之和。
    • 线性代数基于矩阵的推导:
点击查看代码
a1 = np.array([[2,1],[4,3]])
a2 = np.array([[1,2],[1,0]])

np.dot(a1,a2)

array([[3, 4],
       [7, 8]])

与数据分析---numpy模块相似的内容:

数据分析---numpy模块

前戏 NumPy(Numerical Python) 是 Python 语言中做科学计算的基础库。重在于数值计算,也是大部分Python科学计算库的基础,多用于在大型、多维数组上执行的数值运算。 快捷键的使用: 添加cell:a或者b 删除:x 修改cell的模式: m:修改成markdown模式

pandas模块

为什么要学习pandas? numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢? numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列),那么pandas就可以帮我们很好的处理除了数值型的其他数据! 什么是p

NumPy 随机数据分布与 Seaborn 可视化详解

本文介绍了数据分布的概念,它是统计学和数据科学的基础,描述了数据可能出现的频率。NumPy的`random`模块支持生成不同分布的随机数,如`choice`用于离散分布,`randn`和`rand`等用于连续分布。此外,还介绍了数组的随机洗牌和排列。通过Seaborn库,可以创建统计图表,如`dis...

NumPy 泊松分布模拟与 Seaborn 可视化技巧

泊松分布是描述单位时间间隔内随机事件发生次数的离散概率分布,参数λ表示平均速率。公式为 P(k) = e^(-λ) (λ^k) / k!。NumPy 的 `random.poisson()` 可生成泊松分布数据。当 λ 很大时,泊松分布近似正态分布。练习包括模拟顾客到达、比较不同 λ 下的分布及模拟...

使用人工神经网络训练手写数字识别模型

博客地址:https://www.cnblogs.com/zylyehuo/ 效果展示 下载数据集(共四个) http://yann.lecun.com/exdb/mnist/ 目录结构 整体流程图 dataloader.py import numpy as np import struct imp

多项分布模拟及 Seaborn 可视化教程

多项分布是二项分布的推广,描述了在n次试验中k种不同事件出现次数的概率分布。参数包括试验次数n、结果概率列表pvals(和为1)和输出形状size。PMF公式展示了各结果出现次数的概率。NumPy的`random.multinomial()`可生成多项分布数据。练习包括模拟掷骰子和抽奖活动。解决方案...

NumPy 正态分布与 Seaborn 可视化指南

正态分布(高斯分布)是重要的概率模型,具有钟形曲线特征,由均值μ和标准差σ描述。NumPy的`random.normal()`可生成正态分布随机数,Seaborn库方便绘制分布图。正态分布广泛应用于统计学、机器学习、金融和工程等领域。练习包括生成正态分布数据、比较不同标准差影响及模拟考试成绩计算平均...

Pytorch入门—Tensors张量的学习

Tensors张量的学习 张量是一种特殊的数据结构,与数组和矩阵非常相似。在PyTorch中,我们使用张量来编码模型的输入和输出,以及模型的参数。 张量类似于NumPy的ndarrays,只是张量可以在GPU或其他硬件加速器上运行。事实上,张量和NumPy数组通常可以共享相同的底层内存,从而无需复制

numpy -- 处理数值型数据 -- 数据分析三剑客

博客地址:https://www.cnblogs.com/zylyehuo/ NumPy(Numerical Python) 是 Python 语言中做科学计算的基础库。重在于数值计算,也是大部分Python科学计算库的基础,多用于在大型、多维数组上执行的数值运算。 开发环境 anaconda 集成

【numpy基础】--数组过滤

在`numpy`中,数组可以看作是一系列数值的有序集合,可以通过下标访问其中的元素。处理数组的过程中,经常需要用到数组过滤功能。 过滤功能可以在处理数据时非常有用,因为它可以使数据更加干净和可读性更强。例如,在进行数据分析时,通常需要去除异常值,过滤掉不必要的元素可以使数据更加易于分析和处理。 `n