机器学习-周志华

机器,学习,周志华 · 浏览次数 : 19

小编点评

1.明确参数:\\(p=\\frac{m_{+}}{m}\\)(正例占比)2、代价曲线基本思路:目的:对于一个模型,根据p不同,找到使得代价总期望最小的模型的阈值。模型算法固定,阈值不固定,找到阈值从而使得模型固定下来,即固定模型的代价总期望,从而对比不同模型。横轴:归一化的正概率代价期望 2.二项检验 3.假设检验 4.McNemar检验 5.Friedman检验 6.Nemenyi检验

正文

第一章 绪论

机器学习: 致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据“形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生”模型“的算法,即”学习算法“。有了学习算法,我们把经验数据提供给它,他就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。可以说机器学习时研究关于”学习算法“的学问。

1.1 基本术语:

数据集(data set):记录的集合。其中每条记录是关于一个事件或对象的描述,称为“示例”,“样本”
 eg.总共100个西瓜

属性\特征(attribute\feature):反映事件或对象在某方面的表现或性质的事项。
 eg.西瓜的特征:色泽、根蒂、敲声等

属性值(attribute value):属性上的取值。其张成的空间称为“属性空间(attribute space)”\“样本空间(sample space)”\“输入空间(sample space)”。
 eg.西瓜的色泽有青绿、乌黑等。
 eg.属性空间是属性值的全体集合,比如西瓜的三个属性(色泽、根蒂、敲声),张成3维空间,每个西瓜都在该空间中找到自己的坐标,每个点也对应一个"坐标向量",也称"特征向量"

数学表述
数学表述

学习\训练(learning\training):从数据中学得模型的过程。是假设不断逼近真实的过程。
训练数据(training data):训练过程所使用的数据。
训练样本(training sample):训练所使用的样本。
训练集(training set):训练样本的集合。
假设(hypothesis):学得模型对应了关于数据的某种潜在规律。
真相\真实(ground truth):潜在规律自身。

标记(label):训练样本的“结果”信息,是判断,预测。
样例(example):带有标记的样本。

分类(classification):预测的是离散值的学习任务。
二分类(binary classification):只涉及两个类别。
多分类(multi-class classification):涉及多个类别。

回归(regression):预测的是连续值的学习任务

聚类(clustering):将训练集中的样本分为若干组,机器自己分组。每个组称为一个"簇"。

监督学习(supervised learning):知道样本的结果。
 比如:分类+回归
无监督学习(unsupervised learning):不知道样本的结果。
 比如:聚类
测试(testing):对学得模型,对其进行预测的过程。

泛化能力:学得模型适用在新样本上的能力。

1.2 假设空间

归纳:从特殊到一般的“泛化”过程,从具体的事实归结出一般性规律。
 狭义:从训练数据中得到概念
 广义:从样本中学习
演绎:从一般到特殊的"特化"过程,从基础原理推演出具体状况。

机器学习,是从样例中学习的过程。是归纳的过程。

机器学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,

版本空间:存在与训练集一致的假设集合。

1.3 归纳偏好

同一个数据集训练出了不同的模型,如何选择模型?
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。
 引导算法确立偏好的一般性原则:

奥卡姆剃刀(Occam's razor):若有多个假设与观察一致,则选最简单的那个

 学习算法的期望性能相同:

没有免费的午餐定理(NFL:No free Lunch Theorem):脱离具体问题,空谈哪个算法更好,无意义

第二章 模型评估与选择

2.1 经验误差与过拟合

错误率分类错误的样本数样本总数的比例。

如果在m个样本中有a个样本分类错误,则错误率\(E=a/m\)

精度(accuarcy):精度=1-错误率

\(1-a/m\)

误差(error)\训练误差\经验误差:学习器的实际预测输出与样本的真实输出之间的差异。

泛化误差:在新样本上的误差。

过拟合(overfitting):把训练样本学得太好了,可能把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,导致泛华性能下降。

造成因素:1、学习能力过于强大,将训练样本的自身特性学到。
解决:无法避免,只能减小

欠拟合(underfittinig):对训练样本的一般性质尚未学好。

造成因素:1、学习能力低下,没有学习到训练样本的一般特征。
解决:1、决策树中扩展分支;2、增加该训练轮数;

模型选择问题:算法、参数都会产生不同的模型,如何选模型?

理想方案:对模型的泛化误差进行评估,然后选择泛化误差最小的模型;但泛化误差没法直接获得,而训练误差又有过拟合现象;
利用测试集来测试学习群对新样本的判别能力,然后以测试集上的"测试误差"作为泛化误差的近似。

2.2 评估方法

测试集:测试学习器对新样本的判别能力。

测试集的选择

1.留出法(hold-out)

  "留出法"直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T. \(D=S∪T,S∩T=∅\).在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计.
 分层采样:保留类别比例的采样方式。

该方法需要多次重复试验,取平均值

2.交叉验证法(cross validation)/k折交叉验证(k-fold cross validation)

  "交叉验证法" (cross alidation) 将数据D分为k个大小相似的互斥子集,\(D= D1∪D2∪...Dk, Di∩Dj = ø(i≠j)\),每个子集Di尽可能保持数据分布的一致性,即从D通过分层采样得到。然后,每次用k-1 子集的并集作为训练集,余下的那个子集作测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是k个测试结果的均值。

s

注意:将数据集D划分为k个子集同样存在多种划分方式.为减小因样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值。

特别地:
  假定数据集D中包含 m样本,令 k=m 则得到了交叉验证法的一个特例:留一法(Leave-One-Out,简称LOO).显然,留一法不受随机样本划分方式的影响,因为m个样本只有唯一的方式划分为m个子集一一每个子集包含一个样本;留一法使用的训练集与初始数据集相比只少了一个样本,这就使得在绝大多数情况下,留一法中被实际评估的模型与期望评估的用D训练出的模型很相似.因此,留一法的评估结果往往被认为比较准确.

3.自助法(bootstrapping)

留出法和交叉验证法,使用评估模型的训练集比D小,必然会引入一些因样本规模不同而导致的估计偏差。
留一法手训练样本规模的影响比较小,但计算复杂度太高

  “自助法”以自助采样法(bootstrap sampling)为基础.给定包含m个样本的数据集D,我们对它进行采样产生数据集D': 每次随机从D中挑选一个样本,将其拷贝放入D',然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D',这就是自助采样的结果。

可见,D中有一部分样本会在 D'中多次出现,而另一部分样本不出现.

注意
  自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处.然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差.因此,在初始数据量足够时,留出法和交叉验证法更常用一些.

4.调参与最终模型

什么是调参(parameter tuning)?
  学习算法都有参数的设定,参数不同,学得模型的性能有着显著差别。因此,在模型评估与选择时,除了要选择合适的学习算法,还要对算法参数进行设定,即"参数调节"、"调参".

调参和算法选择的区别?如果采用性能最好的模型的参数作为结果不就行了。这样的考虑基本正确。

最终模型:在模型评估和选择过程中,预留了一部分数据作评估测试。在模型选择完成后,学习算法和参数配置已选定,此时应该用数据集D重新训练模型。这个模型在训练过程中使用了所有样本,这才是我们提交给用户的模型。

验证集(validation set):在模型评估与选择中,用于评估测试的数据集称为验证集.

测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据划分训练集和验证集,基于验证集上额性能来进行模型选择和调参

训练集相当于上课学知识
验证集相当于课后的的练习题,用来纠正和强化学到的知识
测试集相当于期末考试,用来最终评估学习效果

2.3 性能度量

性能度量(performance management):模型泛化能力的评价标准

描述:在预测任务中,给定样例集\(D=\{(x_{1},y_{1}),...,(x_{m},y_{m})\}\)其中\(y_{i}\)是示例\(x_{i}\)的真实标记。要评估学习器\(f\)的性能,就预测学习器预测结果\(f(x)\)与真实标记\(y\)进行比较。

补充:
1、回归任务最常用的性能度量是“均方误差”(mean squared error)

\[mean\space squared\space error \space 均方误差: \begin{cases} E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2},\space\space (2.2) \\ 对于数据分布D和概率密度函数p(·),均方误差可描述为: \\ E(f;D)=\int_{x\in D}(f(x)-y)^{2}p(x)dx.\space\space (2.3) \end{cases} \]

1.错误率与精度

分类任务中最常用的两种性能度量:错误率+精度
 对样例集\(D=\{(x_{1},y_{1}),...,(x_{m},y_{m})\}\)来说,
  错误率

\[E(f;D)=\frac{1}{m} \sum_{i=1}^{m}\mathbb{I}(f(x_{i})\neq y_{i}) \]

\(\mathbb{I}\)(.)是指示函数,若·为真则取值1,否则取值0.

  精度

\[\begin{align} acc(f;D)=&\frac{1}{m} \sum_{i=1}^{m}\mathbb{I}(f(x_{i})= y_{i}) \\=&1-E(f;D) \end{align}\]

注意:精度不一定是准确的,受样本数据分布的影响。

2.查准率、查全率和F1

混淆矩阵(confusion matrix):预测结果和真实值之间的对比。

TP:真正例;FP:假正例;TN:真反例;FN:假反例
右边P\N代表预测值,左边T\F是对预测值的判断;比如TN 预测反例,真实反例

查准率Percision

\[P=\frac{TP}{TP+FP} \]

查全率Recall

\[R=\frac{TP}{TP+FN} \]

举个形象的例子:
查准率:预测到的结果中有多少是匹配的;
查全率:匹配的结果中有多少是预测到的;

P-R曲线

案例:手写数字识别,分类器,二分类:是5 vs 不是5

1、混淆矩阵:

2、P-R反向变动关系原理

单独阈值下,查准、查全率分析

3、阈值-PR图像

各种阈值情况下,查准、查全率曲线

4、P-R图像

5、最优阈值的确定

  • 方法一:使用平衡点Break-Even Point(BEP):P=R时,P与R的值
  • 方法二:F1度量
  • 方法三:\(F_{β}\)度量
  • 注意部分

方法一:BEP(平衡点)

阈值-PR图像中,P线与R线相交的点
PR图像中,P=R直线与曲线相交点

方法二:F1度量-调和平均

想要P和R的比例更合理

视P,R如下:
\(P=\frac{1}{1+3}\),\(R=\frac{1}{1+2}\)

\[\begin{align} \frac{1}{F_{1}}=&\frac{1}{2}(\frac{1}{P}+\frac{1}{R}) \\ =&\frac{1}{2}(\frac{1+3}{1}+\frac{1+2}{1}) \\ =&\frac{1}{2}(\frac{(1+3)+(1+2)}{1}) \\ F_{1}=&\frac{1}{(1+3)+(1+2)} \end{align} \]

方法三:\(F_{β}\)度量-加权调和平均

\[ \begin{align} \frac{1}{F_{β}}=&\frac{1}{1+β^{2}}(\frac{1}{P}+\frac{β^{2}}{R}) \\ =&\frac{1}{1+β^{2}}(\frac{1+3}{1}+\frac{β^{2}(1+2)}{1}) \\ =&\frac{1}{1+β^{2}}(\frac{(1+3)+β^{2}(1+2)}{1}) \\ F_{β}=&\frac{1+β^{2}}{(1+3)+β^{2}(1+2)} \end{align} \]

其中\(β>0\)度量了查全率对查准率的相对重要性.
\(β=1\)时退化为标准的\(F_{1}\);
\(β>1\)时查全率有更大的影响;
\(β<1\)时查准率有更大的影响。

注意部分

\(F_{1}\)是基于查准率与查全率的调和平均(harmonic mean)定义的:

\[\frac{1}{F_{1}}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R}) \]

\(F_{β}\)则是加权调和平均:

\[\frac{1}{F_{β}}=\frac{1}{1+β^{2}}(\frac{1}{P}+\frac{β^{2}}{R}) \]

与算数平均\(\frac{P+R}{2}\)和几何平均\(\sqrt{P×R}\)相比,调和平均更重视较小值

n个二分类实现的多分类问题

  • 先分别计算,再求平均值
  • 先平均在计算

1、先分别计算,再求平均值

\((P_{1},R_{1}),(P_{2},R_{2}),(P_{3},R_{3})...,(P_{n},R_{n})\)

\[macro_P$宏查准率:$macro_P=\frac{1}{n}\sum_{i=1}^{n}P_{i} \]

\[macro_R$宏查全率:$macro_R=\frac{1}{n}\sum_{i=1}^{n}R_{i} \]

\[macro_{F_1}$宏$F_{1}$:$macro_{F_{1}}=\frac{2×macro_P×macro_R}{macro_P+macro_R} \]

2、先求平均值再计算

\(\overline{TP},\overline{FP},\overline{TN},\overline{FN}\)

\[micro_P$宏查准率:$micro_P=\frac{\overline{TP}}{\overline{TP}+\overline{FP}} \]

\[micro_R$宏查全率:$micro_R=\frac{\overline{TP}}{\overline{TP}+\overline{FN}} \]

\[micro_{F_1}$宏$F_{1}$:$micro_{F_{1}}=\frac{2×micro_P×micro_R}{micro_P+micro_R} \]

3.ROC与AUC

1、ROC(Receiver Operation Characteristic):全称“受试者工作特征”曲线。根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了ROC曲线。

ROC曲线的纵轴是真正率(TPR),横轴是假正率(FPR)

\[ TPR=\frac{TP}{TP+FN}或\frac{①}{①+②} (TP在横向中占比) \\ \\ FPR=\frac{FP}{TN+FP}或\frac{③}{③+④}(FP在横向中占比) \]

还是得用到混淆矩阵,给出理解

混淆矩阵 P N
T TP(真正例) ① FN(假反例) ②
F FP(假正例) ③ TN(真反例) ④
注:①②③④,是相应的指代,在公式中方便理解。

ROC曲线下分析

ROC示意图:

2、AUC(Area under ROC Curve):ROC曲线下的面积

\[ AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_{i})(y_{i}+y_{i+1}) \]

形式化看,AUC考虑的是样本预测的排序质量,因此它与排序误差有紧密连续,给定\(m^{+}\)个正例和\(m^{-}\)个反例,令\(D^{+}\)\(D^{-}\)分别表示正、反例集合,则排序“损失”(loss)定义为:

\[ l_{rank}=\frac{1}{m^{+}m^{-}}\sum_{x^{+}\in D^{+}}\sum_{x^{-}\in D^{-}}(\mathbb{I}\{f(x^{+})<f(x^{-}\}+\frac{1}{2}\mathbb{I}\{f(x^{+})=f(x^{-}\}) \]

\(l_{rank}计算\)举例分析:

D(正反例集合) m(正例、反例) P N
+ D+(正例集合)[5,5,5,5,5,5] m+(6个)
- D-(反例例集合)[8,7,3,9,2,6] m-(6个)

\(l_{rank}\)计算过程:

  考虑每一对正反例,若正例的预测值小于反例,则记一个“罚分”,若相等,则记0.5个“罚分”。容易看出,\(l_{rank}\)对应的是ROC曲线上的面积:一个正例在ROC曲线上对应标记点的坐标是(x,y)则x恰是排序在其之前的反例所占的比例,即假正例率.因此有:

\[ AUC=1-l_{rank} \]

AUC公式分析:

ROC\阈值点 0 1 2 3 4 5 6 7 8 9 10 11 12
TPR 0/6 1/6 2/6 3/6 3/6 4/6 5/6 5/6 6/6 6/6 6/6 6/6 6/6
FPR 0/6 0/6 0/6 0/6 1/6 1/6 1/6 2/6 2/6 3/6 4/6 5/6 6/6

将表格中的数值,绘制成ROC曲线:

4.代价敏感错误率与代价曲线

1、为权衡不同类型错误所造成的不同损失,可为错误赋予“非均等代价”(unequal cost)
2、在非均等代价下,我们所希望的不再是简单地最小化错误次数,而是希望最小化“总体代价”(total cost)

二分类代价矩阵:

“代价敏感”错误率(Error)为

\[ E(f;D;cost)=\frac{1}{m}(\sum_{x_{i}\in D^{+}} \mathbb{I}(f(x_{i})\neq y_{i})×cost_{01}+\sum_{x_{i}\in D^{-}} \mathbb{I}(f(x_{i})\neq y_{i})×cost_{10}) \]

相当于:

代价曲线:

参考:https://www.zhihu.com/question/63492375

在非均等代价下,ROC曲线不能直接反映出学习器的期望总体代价,但代价曲线可达该目的。
解释:
1、明确参数:\(p=\frac{m_{+}}{m}\)(正例占比)
2、代价曲线基本思路:
目的:对于一个模型,根据p不同,找到使得代价总期望最小的模型的阈值。

模型算法固定,阈值不固定,找到阈值从而使得模型固定下来,即固定模型的代价总期望,从而对比不同模型。

横轴:归一化的正概率代价期望

\[ P(+)cost=\frac{p×cost_{01}}{p×cost_{01}+(1-p)×cost_{10}} \\ p=0,P(+)cost=0 \\ p=1,p(+)cost=1 \]

纵轴:归一化的总代价期望

\[ cost_{norm}=\frac{FNR×p×cost_{01}+FPR×(1-p)×cost_{10}}{p×cost_{01}+(1-p)×cost_{10}} \\ p=0,cost_{norm}=FPR \\ p=1,cost_{norm}=FNR \]

过程:

给定p,给定模型
根据归一化代价期望的最小值,确定圈1圈2圈3圈4的比例
之前我们通过例子看出,阈值决定了这个比例
反过来说,这个比例确定了,阈值也就确定了
所以这时模型的阈值也对应确定下来了

代价曲线:
真棒

代码实践
https://github.com/Gievance/Python-MachineLearning/blob/master/Machine Learning note/代价曲线.ipynb

真棒

2.4比较检验

1、二项检验

有了评估方法和性能度量,可以对学习器的性能进行比较了吗?

不能,理由如下:
1、测试集上的性能与真正的泛化性能未必相同
2、测试集上的性能和测试集本身有很大关系,即使使用相同测试集,测试的结果也会有不同。
3、很多机器学习算法本身具有一定的随机性,即便用相同的参数设置在同一测试集上,其结果也会不同。

适当的方法对学习器的性能进行比较:统计假设检验(hypothesis test)

本节默认以错误率为性能度量,用\(\epsilon\)表示
真棒

\(即:P(\hat{\epsilon};\epsilon)=(\begin{matrix}m\\\hat{\epsilon×m}\end{matrix})\epsilon^{\hat{\epsilon}×m}(1-\epsilon)^{m-\hat{\epsilon}×m}\)

真棒

实践代码:https://github.com/Gievance/Python-MachineLearning/blob/master/Machine Learning note/假设检验-二项检验.ipynb

\(\alpha\):不可置信度
所以:

使用“二项检验(binomial test)”对"\(\epsilon \leq 0.3\)"(即泛化是否不大于0.3)这样的假设进行检验。


更一般的,考虑假设"\(\epsilon \leq \epsilon_{0}\)",则在\(1-\alpha\)的概率内所能观测到的最大错误率如下计算。这里的\(1-\alpha\)反映了结论的"置信度"(confidence),直观地来看,相应与二项分布示意图非阴影区域

\[ \overline{\epsilon}=max(P(\hat{\epsilon},\epsilon))<\alpha \]

若测试错误率\(\hat{\epsilon}\)小于临界值\(\overline{\epsilon}\),则在\(1-\alpha\)置信度下,认为\(\epsilon \leq \epsilon_{0}\)

小结:
 假设泛化错误率为\(\epsilon \leq \epsilon_{0}\),在测试集样本中,以泛化错误率为测试集错误率,对测试集不同错误数的情况检验其概率,得到二项分布图,当真实测试集的错误样本数在\(1-\alpha\)区域内,则称有\(1-\alpha\)的置信度说,泛化错误率小于\(\epsilon_{0}\)

2、t检验

很多时候并非进行一次测试,而是通过多次重复留出法或是交叉验证法等进行多次测试,得到多个测试错误率,此时使用"t-检验".
假定我们得到k个测试错误率,\(\hat{\epsilon}_{1},\hat{\epsilon}_{2},...,\hat{\epsilon}_{k}\)
则平均测试错误率和方差为:

平均测试错误率\(\mu\)

\[ \mu=\frac{1}{k}\sum_{i=1}^{k}\hat{\epsilon_{i}} \]

方差\(\sigma^{2}\):

\[ \sigma^{2}=\frac{1}{k-1}\sum_{i=1}^{k}(\hat{\epsilon}_{i}-\mu)^{2} \]

考虑k个测试错误率可看作泛化错误率\(\epsilon_{0}\)的独立采样,则变量:$ \tau_{t}=\frac{\sqrt{k}(\mu-\epsilon_{0})}{\sigma}$服从自由度为k-1的t分布:

对于假设"\(\mu=\epsilon_{0}\)"和显著度\(\alpha\),当测试错误率为\(\epsilon_{0}\)时,\(|\mu-\epsilon_{0}|\)位于置信区间(\(1-\alpha\))内,则假设成立,即可认为泛化错误率为\(\epsilon_{0}\).否则,假设不成立。

3、交叉验证t检验

4、McNemar检验

5、Friedman检验和Nemenyi检验

2.5偏差和方差

小结:假设检验

下接:3-4章线性模型

与机器学习-周志华相似的内容:

机器学习-周志华

第一章 绪论 机器学习: 致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据“形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生”模型“的算法,即”学习算法“。有了学习算法,我们把经验数据提供给它,他就能基于这些数据产生模型;在面对新

[机器学习] 低代码机器学习工具PyCaret库使用指北

PyCaret是一个开源、低代码Python机器学习库,能够自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具,极大地加快了实验周期,提高了工作效率。PyCaret本质上是围绕几个机器学习库和框架(如scikit-learn、XGBoost、LightGBM、CatBoost、spaCy

基于神经网络的呼吸音分类算法

简介 在过去的几十年里,许多机器学习(ML)方法被引入来分析呼吸周期的声音,包括爆裂声、咳嗽声和喘息声[1-6]。然而,几乎所有传统的ML模型都完全依赖于手工制作的功能。此外,需要高度复杂的预处理步骤来利用设计的特征[4-6]。因此,仅仅基于ML的模型可能对肺部声音中的外部/内部噪声不具有鲁棒性,并

一种新的基于机器学习的示波法血压估计方法,开源、低功耗、低成本的人工智能软硬件提供者

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能 血压的测量和预测是心脏病患者和有心脏问题的人的一个重要条件,应该保持持续的控制。在这项研究中,基于从使用袖带的个体获得的振荡波形,振荡波形分为三个周期。第一个周期是从起点到收缩压(SBP),第二个

算法金 | 吴恩达:机器学习的六个核心算法!

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 人工智能领域的权威吴恩达教授,在其创立的《The Batch》周报中发表了一篇博文,概述了机器学习领域六种基础算法的历史和重要性。他强调了在这一领域不断学习和更新知识的必要性。 这些算法

人大金仓学习之一_kwr的简单学习

# 人大金仓学习之一_kwr的简单学习 ## 摘要 ``` 周末在家想着学习一下数据库相关的内容. 网上找了不少资料, 想着直接在本地机器上面进行一下安装与验证 理论上linux上面应该更加简单. windows 上面可能不如linux方便 主要是记录一下使用和注意事项. ``` ## ISO下载

kafka学习之五_多个磁盘的性能验证

# kafka学习之五_多个磁盘的性能验证 ## 背景 ``` 周末在家学习kafka 上午验证了grafana+kafka_exporter的监控 下午想着验证一把性能相关. kafka学习之三里面,有成套的脚本. 我这边想起来之前还有一个机器, 是四个单盘HDD, 我可以直接进行使用和验证. `

一次OOM事故的学习过程

事故过程 周二下午得到消息, 希望帮忙分析dump文件. 告知dump大小为42G大小. 一般机器没这么大的内存进行处理. 建议现场上传到百度云盘, 然后我这边进行下载. 时间进度为: 11.57创建的dump 现场打包压缩, 拉取上传百度云盘. 速度大概只有500KB/S. 压缩后文件6G, 时间

机器学习(四)——Lasso线性回归预测构建分类模型(matlab)

Lasso线性回归(Least Absolute Shrinkage and Selection Operator)是一种能够进行特征选择和正则化的线性回归方法。其重要的思想是L1正则化:其基本原理为在损失函数中加上模型权重系数的绝对值,要想让模型的拟合效果比较好,就要使损失函数尽可能的小,因此这样

机器学习(三)——K最临近方法构建分类模型(matlab)

K最临近(K-Nearest Neighbors,KNN)方法是一种简单且直观的分类和回归算法,主要用于分类任务。其基本原理是用到表决的方法,找到距离其最近的K个样本,然后通过K个样本的标签进行表决,预测结果给出的标签是表决多的一方。 在使用K最临近方法的时候,有两个方面可调: 一是K值的大小,K一