基于间隔密度的概念漂移检测算法mdm-DDM

基于,间隔,密度,概念,漂移,检测,算法,mdm,ddm · 浏览次数 : 154

小编点评

**概念漂移** 概念漂移是一种现象,即目标领域的统计属性随着时间的推移以一种任意的方式变化。 **mdm-DDM背景** mdm-DDM 解决了基于错误率的漂移检测算法必须及时获取标记数据标签的问题。 **间隔密度的概念漂移检测算法** 间隔密度的概念漂移检测算法mdm-DDM 利用间隔密度作为检测漂移的度量,然后结合McDiarmid 不等式来进行显著性检验,以此判断是否产生概念漂移。 **margin** margin 是一个定义阈值,表示间隔区域,默认值为0.15。 **MD表示间隔密度** MD 表示间隔密度,用于计算样本点落入间隔区域的比例。 **基于 McDiarmid 不等式的阈值设计** 当样本点落入间隔区域,该样本点会被Sign函数标为1,否则为0。 **ε的计算公式** ε 的计算公式用于控制算法的置信度。 **v的计算公式** v 的计算公式用于根据滑动窗口中数据流实例的权重来调整间隔密度的范围。 **权重计算公式** 权重计算公式根据数据流的时效性定义最近到来的数据应具有较高的权重。

正文

概念漂移

​ 概念漂移是数据流挖掘领域中一个重要的研究点。传统的机器学习算法在操作时通常假设数据是静态的,其数据分布不会随着时间发生变化。然而对于真实的数据流来说,由于数据流天生的时间性,到达的数据的分布可能会随着时间的推移不断改变。这使得传统的批处理模型不适合对数据流的进行挖掘分析,模型更是需要有检测和适应数据分布变化的能力。例如,在服装店销售预测的例子中,如果季节性因素导致服装销售额在夏季月份较高,那么在冬季该预测模型可能就不管用了

​ 如果要对概念漂移下定义的话,它的定义是:概念漂移是一种现象,即目标领域的统计属性随着时间的推移以一种任意的方式变化。

​ 如果用一句话来描述概念漂移的话,它就是:数据分布不均匀,使得过去训练的表现不能保证将来的结果

基于间隔密度的概念漂移检测算法mdm-DDM

背景

​ 参考论文:https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C475KOm_zrgu4lQARvep2SAkaWjBDt8_rTOnKA7PWSN5MEdRZ4_Punz3wA-1d-2-our_XnGz-hr7Ar5EH4I5MWNB&uniplatform=NZKPT

​ mdm-DDM解决了基于错误率的漂移检测算法必须及时获取标记数据标签的问题。mdm-DDM利用间隔密度作为检测漂移的度量,然后结合McDiarmid 不等式来进行显著性检验,以此判断是否产生概念漂移。

​ 本文只考虑了没有明确决策边界的mdm-DDM,在有标签情况下,用集成分类器来进行预测。

定义

  • 间隔区域
    • 预测空间中最容易分类错误的部分
  • 间隔密度
    • 分类器不确定区域中的样本密度,即具有不确定性的数据样本占总体样本的密度

间隔密度计算

  1. 对于每一个样本x来说:

\[margin = P_E(y = trueclass|x) - P_E(y \neq trueclass|x) \]

​ 其中E指的是集成分类器。被减数指的是样本经过分类器预测后,集成分类器预测标签为样本标签的概率。减数的是样本经过分类器预测后,集成分类器预测标签不为样本标签的概率。

  1. 间隔密度的计算方式:

\[S_{(w,b)} = \begin{cases} 1,if\ margin \leq \theta_{margin\ of\ uncertainty}\\ 0, 其他\end{cases} \]

\[MD_{svm} = \frac{\sum{S_{(w,b)}(x)}}{|X|},\forall x\in X \]

​ 其中𝜃是定义阈值,表示间隔区域,默认值为0.15,X 表示样本集,x 是样本集中的样本点,𝑚𝑎𝑟𝑔𝑖𝑛表示样本点距离决策面的距离。当样本点落入间隔区域,该样本点被Sign函数标为1,否则为0。MD表示间隔密度。

基于 McDiarmid 不等式的阈值设计

​ 当集成分类器的间隔密度开始以一种不寻常的方式增加的时候,概念漂移的可能性将会增加。因此随着数据流中的数据一个接一个的被处理,算法将不断更新,两个滑动窗口之间的加权平均值的显著差异意味着概念漂移的产生

​ 其中置信度δ的默认值为0.000001。

​ ε的计算公式如下:

\[\varepsilon_w = \sqrt{\frac{\sum_{i=1}^{n}{v^2_i}}{2}ln\frac{1}{\delta_w}} \]

​ v的计算公式如下:

\[v_i = \frac{w_i}{\sum_{i=1}^{n}{w_i}} \]

​ w𝑖表示滑动窗口中数据流实例中第i个数据的权重。由于数据流具有时效性这个特点,算法定义最近到来的数据应具有较高的权重,w𝑖 < w𝑖+1,其中w𝑖表示第 i 个实例的权重。权重的计算方法如下:

\[w_i = 1 + (i-1)*d \]

​ 权重随时间增加的d默认值为0.01。

漂移算法整体流程

与基于间隔密度的概念漂移检测算法mdm-DDM相似的内容:

基于间隔密度的概念漂移检测算法mdm-DDM

概念漂移 ​ 概念漂移是数据流挖掘领域中一个重要的研究点。传统的机器学习算法在操作时通常假设数据是静态的,其数据分布不会随着时间发生变化。然而对于真实的数据流来说,由于数据流天生的时间性,到达的数据的分布可能会随着时间的推移不断改变。这使得传统的批处理模型不适合对数据流的进行挖掘分析,模型更是需要有

Llama2-Chinese项目:1-项目介绍和模型推理

Atom-7B与Llama2间的关系:Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢?因为原子生万物,Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型,如下所示: FlagAlpha/Atom-7BFlagAlpha/Llama2

山歌寥哉!生产制造系统需要新治理框架

基于统一的数据与应用平台底座构建一体化的业务应用同时在框架层面进行分层扩展,可真正解决MES/MOM类生产系统不同业务模块间可高效紧密协同,以及系统可快速定制、低成本可持续升级运维的问题。

「指间灵动,快码加编」:阿里云通义灵码,再次降临博客园

目前园子的主要收入来源是会员、周边、广告,在当前会员与周边收入很少的情况下,随着今年广告业务的回暖,广告收入成为维持生存的新希望。 虽然因为被百度降权失去了巨大的搜索流量,但如果找到长期合作的广告单子,基于园子高质量的用户群,依靠现有的流量,努力做好推广,通过广告收入维持基本生存是可行的。 但残酷的

[转帖]字节跳动开源 Shmipc:基于共享内存的高性能 IPC

https://maimai.cn/article/detail?fid=1780832041&efid=WeW8ji-LiPaXA8QER_Q1YQ 简介 CloudWeGo - Shmipc 是字节跳动服务框架团队研发的高性能进程间通讯库,它基于共享内存构建,具有零拷贝的特点,同时它引入的同步机

【numpy基础】--数组索引

数组索引是指在`numpy`数组中引用特定元素的方法。`numpy`的数组索引又称为`fancy indexing`,比其他编程语言的索引强大很多。 # 1. 选取数据 numpy的索引除了像其他语言一样选择一个元素,还可以间隔着选取多个元素,也可以用任意的顺序选取元素。 比如一维数组: ```py

从0到1构建基于自身业务的前端工具库

在实际项目开发中无论 M 端、PC 端,或多或少都有一个 utils 文件目录去管理项目中用到的一些常用的工具方法,比如:时间处理、价格处理、解析url参数、加载脚本等,其中很多是重复、基础、或基于某种业务场景的工具,存在项目间冗余的痛点以及工具方法规范不统一的问题

[转帖]Unix Domain Socket– IPC通信机制

什么是Unix Domain Socket 基于socket的框架上发展出一种IPC机制,就是UNIX Domain Socket。虽然网络socket也可用于同一台主机的进程间通讯(通过loopback地址127.0.0.1),但是UNIX Domain Socket用于IPC 更有效率 : 不需

驱动开发:内核使用IO/DPC定时器

本章将继续探索驱动开发中的基础部分,定时器在内核中同样很常用,在内核中定时器可以使用两种,即IO定时器,以及DPC定时器,一般来说IO定时器是DDK中提供的一种,该定时器可以为间隔为N秒做定时,但如果要实现毫秒级别间隔,微秒级别间隔,就需要用到DPC定时器,如果是秒级定时其两者基本上无任何差异,本章将简单介绍`IO/DPC`这两种定时器的使用技巧。

VTable——不只是高性能的多维数据分析表格

导读 VTable: 不只是高性能的多维数据分析表格,更是行列间创作的方格艺术家! VTable是字节跳动开源可视化解决方案 VisActor 的组件之一。 在现代应用程序中,表格组件是不可或缺的一部分,它们能够快速展示大量数据,并提供良好的可视化效果和交互体验。VTable是一款基于可视化渲染引擎