正文
大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」
机器学习本质上和数据科学一样都是依赖概率统计,今天整整那些听起来让人头大的机器学习江湖黑话
A - C
A/B Testing (A/B 测试) A/B测试是一种在线实验,通过对比测试两个版本的不同效果,来找出哪个更符合我们的需求。
- Accuracy (准确率) 在统计学中,准确率是指分类正确的样本数占总样本数的比例。
- Adaboost (Adaboost 算法) Adaboost是一种提高机器学习模型性能的方法,它通过组合多个弱分类器来构建一个强分类器。
- Algorithm (算法) 算法是解决特定问题的一系列步骤。
- AIOps (Artificial Intelligence for IT Operations, 人工智能运维) AIOps是利用人工智能来自动化和增强IT运维的工具和方法。
- Analytics (分析学) 分析学是对我们收集的数据进行深入研究,以提取有价值的信息和洞察的过程。
- Anomaly Detection (异常检测) 异常检测是识别数据集中的异常或不寻常模式的过程。
- ANOVA (Analysis of Variance, 方差分析) 方差分析是一种统计方法,用于分析数据中的变异性,并确定不同组之间的差异是否具有统计学意义。
- API (Application Programming Interface, 应用程序编程接口) API是软件之间的桥梁,它允许不同的程序之间相互通信,共享数据和功能。
- AUC-ROC (Area Under the ROC Curve, 接收者操作特征曲线下面积) AUC-ROC是一个衡量分类模型好坏的指标,它表示模型在所有可能的分类阈值下的性能。
- Batch Gradient Descent (批量梯度下降) 批量梯度下降是一种优化算法,通过在整个数据集上计算误差梯度来更新模型的参数。
- Bayesian Statistics (贝叶斯统计) 贝叶斯统计是一种统计学方法,它使用概率来更新对一个假设的信念。
- BI (Business Intelligence, 商业智能) 商业智能是使用数据、数据分析和业务洞察来支持商业决策的一系列方法。
- Bias (偏差) 偏差是指模型预测值与真实值之间的系统性差异。
- Bias-Variance Tradeoff (偏差-方差权衡) 偏差-方差权衡是机器学习中的一个基本概念,描述了模型复杂度与泛化能力之间的平衡。
- Big Data (大数据) 大数据指的是数据量巨大、类型多样、处理速度快的数据集合。
- Binary Classification (二元分类) 二元分类是将数据分为两个类别的任务。
- Bootstrap Sampling (自助采样法) 自助采样法是一种统计方法,通过从数据集中随机抽取样本并重复这个过程来估计统计量。
- Categorical data (分类数据) 分类数据是将数据分为不同的类别或组,这些类别是互斥的。
- Chi-Square Test (卡方检验) 卡方检验是一种统计检验,用于判断分类变量之间是否独立。
- Classification (分类) 分类是将数据点分配到预定义类别的过程,是监督学习的一种。
- Clustering (聚类) 聚类是将数据点分组的过程,使得同一组内的数据点比其他组的数据点更相似。
- Confidence Interval (置信区间) 置信区间是一个区间估计,用于表示对一个参数的估计有多可靠。
- Confusion Matrix (混淆矩阵) 混淆矩阵是一个表格,用于描述分类模型的性能,包括真正例、假正例、真负例和假负例。
- Correlation (相关性) 相关性是衡量两个变量之间关系强度和方向的统计指标。
- Covariance (协方差) 协方差是衡量两个随机变量变化趋势的统计量。
- Cross-Entropy Loss (交叉熵损失) 交叉熵损失是一个常用于分类问题的损失函数,用于衡量模型预测的概率分布与真实分布之间的差异。
- Cross-Validation (交叉验证) 交叉验证是一种将数据集分成多个子集,然后在每个子集上进行训练和验证的方法。
- Cost Function (成本函数) 成本函数是衡量模型预测与实际值差异的函数,优化算法通过最小化成本函数来训练模型。
D - F
- Data Warehouse (数据仓库) 数据仓库是一个集中的数据存储系统,用于报告和数据分析。
- Data Cleaning (数据清洗) 数据清洗是识别并修正数据中的错误或不一致的过程。
- Data Lake (数据湖) 数据湖是一个存储原始数据的大型仓库,通常是非结构化的。
- Data Mining (数据挖掘) 数据挖掘是从大量数据中通过算法和统计分析来发现模式和知识的过程。
- Data Preprocessing (数据预处理) 数据预处理是将原始数据转换成适合进行分析的格式的过程。
- Data Visualization (数据可视化) 数据可视化是将数据以图形或视觉格式展示出来,以帮助理解数据。
- Decision Boundary (决策边界) 决策边界是决策模型中用来区分不同类别的界限。
- Decision Tree (决策树) 决策树是一种直观的决策支持工具,通过树状结构来表示决策过程。
- Dimensionality Reduction (降维) 降维是从数据中减少变量数量的技术,同时尽可能保留原始数据的信息。
- Eigenvalue and Eigenvector (特征值和特征向量) 特征值和特征向量是线性代数中的概念,常用于降维技术如主成分分析。
- Elastic Net (弹性网络) 弹性网络是一种正则化方法,结合了L1和L2正则化。
- Ensemble Learning (集成学习) 集成学习是通过构建并结合多个学习器来提高模型的性能。
- Exploratory Data Analysis (EDA, 探索性数据分析) 探索性数据分析是在没有明确假设的情况下对数据集进行的一种分析,旨在发现数据的内在规律。
- F1 Score (F1 分数) F1分数是精确度和召回率的调和平均,用于衡量分类器的性能。
- False Positive and False Negative (假阳性和假阴性) 在分类问题中,假阳性是指错误地将负类判为正类,而假阴性是指错误地将正类判为负类。
- Feature (特征) 特征是数据集中的一个可测量的属性,用于帮助机器学习模型做出决策。
- Feature Engineering (特征工程) 特征工程是创建新特征或修改现有特征以提高模型性能的过程。
- Feature Extraction (特征提取) 特征提取是从原始数据中提取出有助于模型理解的关键信息。
- Feature Importance (特征重要性) 特征重要性是指一个特征对于模型预测的贡献程度。
- Feature Selection (特征选择) 特征选择是从所有特征中选择对模型最有用的特征的过程。
G - J
- Gaussian Distribution (高斯分布) 高斯分布,也称为正态分布,是一种在自然和社会科学中常见的连续概率分布。
- Geospatial Analysis (地理空间分析) 地理空间分析是分析和解释地理数据的模式和关系。
- Gradient Boosting (梯度提升) 梯度提升是一种集成学习技术,通过组合多个弱预测模型来提高预测性能。
- Gradient Descent (梯度下降) 梯度下降是一种优化算法,通过调整参数来最小化损失函数。
- Grid Search (网格搜索) 网格搜索是一种超参数优化方法,通过遍历给定的参数网格来寻找最佳的参数组合。
- Heteroscedasticity (异方差性) 异方差性是指数据中误差项的方差不相等。
- Hierarchical Clustering (层次聚类) 层次聚类是一种创建层次结构的聚类方法,可以生成一个聚类树。
- Hyperparameter (超参数) 超参数是在训练开始之前设置的参数,用于控制学习过程。
- Hypothesis Testing (假设检验) 假设检验是一种统计方法,用于基于样本数据判断某个假设是否成立。
- Imputation (插补) 插补是处理缺失数据的方法,通过估计来填补缺失的值。
- Inferential Statistics (推断统计学) 推断统计学是统计学的一个分支,它使用样本数据来推断总体的特征。
- Information Gain (信息增益) 信息增益是在决策树算法中用来评估特征对分类结果的贡献大小的一种指标。
- Interquartile Range (IQR, 四分位数范围) 四分位数范围是描述统计学中衡量数据分散程度的一个方法。
- Joint Plot (联合图) 联合图是一种数据可视化技术,用于展示两个变量之间的关系以及它们的边际分布。
- Joint Probability (联合概率) 联合概率是指两个或多个事件共同发生的概率。
- Jupyter Notebook (Jupyter 笔记本) Jupyter Notebook 是一个交互式的计算环境,支持超过40种编程语言。
K - N
- K-Means Clustering (K-均值聚类) K-均值聚类是一种将数据分为K个集群的无监督学习算法。
- K-Nearest Neighbors (KNN, K-最近邻) K-最近邻是一种监督学习算法,根据一个点的K个最近邻居进行预测。
- L1 Regularization (L1 正则化) L1正则化是一种在损失函数中加入正则项的方法,促使模型稀疏化。
- L2 Regularization (Ridge, L2 正则化) L2正则化是另一种正则化方法,通过惩罚系数的平方来防止模型过拟合。
- Linear Regression (线性回归) 线性回归是一种统计学方法,用于建立自变量与因变量之间的线性关系。
- Log Likelihood (对数似然) 对数似然是在统计学中用于估计模型参数的一种方法,特别是在最大似然估计中。
- Logistic Function (逻辑函数) 逻辑函数是一种S形曲线,常用于逻辑回归中将线性回归的结果映射到概率上。
- Logistic Regression (逻辑回归) 逻辑回归是一种分类方法,它预测事件发生的概率。
- Loss function (损失函数) 损失函数是衡量模型预测值与实际值差异的函数,模型训练的目标是最小化损失函数。
- Machine Learning (机器学习) 机器学习是人工智能的一个分支,它使计算机能够从数据中学习并做出决策或预测。
- Mean Absolute Error (MAE, 平均绝对误差) 平均绝对误差是衡量预测值与实际值之间差异的指标之一。
- Mean Squared Error (MSE, 均方误差) 均方误差是另一种衡量预测误差的方法,它计算预测值与实际值之差的平方的平均。
- Mean (平均值) 平均值是所有数据点的总和除以数据点的数量。
- Median (中位数) 中位数是将一组数据排序后位于中间位置的数值。
- Metrics (指标) 指标是用于评估机器学习模型性能的标准。
- Model Evaluation (模型评估) 模型评估是使用各种指标来评价模型的性能。
- Multicollinearity (多重共线性) 多重共线性是指模型中的两个或多个预测变量高度相关。
- Multi-Label Classification (多标签分类) 多标签分类是为每个实例分配一个以上的类别标签的分类方法。
- Multivariate Analysis (多变量分析) 多变量分析是涉及两个或更多变量的统计分析方法。
- Naive Bayes (朴素贝叶斯) 朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器。
- Normalization (标准化) 标准化是一种将数据按比例缩放,使之落入一个小的特定区间的数据处理方法。
- Null Hypothesis (零假设) 零假设是在假设检验中预先设定的假设,通常表示没有效应或者没有差异。
O - Z
- One-Hot Encoding (独热编码) 独热编码是一种将分类变量转换为机器学习算法可以更好处理的形式的方法。
- Ordinal Variable (序数变量) 序数变量是一种不仅包含类别信息,还包含类别顺序的信息的变量。
- Outlier (异常值) 异常值是数据集中显著偏离其他数据点的值。
- R-squared (R², 决定系数) 决定系数是回归分析中衡量模型拟合优度的一个统计指标。
- Sampling Bias (抽样偏差) 抽样偏差是指由于抽样方法不当导致的样本不能代表总体的情况。
- Sampling (抽样) 抽样是从大量数据中选择一部分数据进行分析的过程。
- Scalability (可扩展性) 可扩展性是指系统能够适应增长的用户数量或数据量的能力。
- Sigmoid Function (Sigmoid 函数) Sigmoid函数是一种常用于二分类问题的数学函数,它将线性输出映射到(0,1)区间。
- Silhouette Score (轮廓系数) 轮廓系数是一种衡量聚类效果的指标,基于样本与自身聚类和其他聚类之间的距离。
- Singular Value Decomposition (SVD, 奇异值分解) 奇异值分解是一种数学方法,用于将矩阵分解为三个特定的矩阵。
- Spearman Rank Correlation (斯皮尔曼秩相关) 斯皮尔曼秩相关是一种非参数的相关性度量,用于衡量两个变量的单调关联性。
- Standard Deviation (标准差) 标准差是衡量数据集中数值分散程度的一个统计量。
- Stationarity (平稳性) 平稳性是指时间序列数据的统计特性在时间上保持不变的特性。
- Stratified Sampling (分层抽样) 分层抽样是一种抽样技术,它将总体分为不同的子群,然后从每个子群中进行简单随机抽样。
- Supervised Learning (监督学习) 监督学习是一种机器学习类型,模型从标记的训练数据中学习。
- Support Vector Machine (SVM, 支持向量机) 支持向量机是一种强大的分类算法,通过找到最优的分割超平面来最大化样本的分类边界。
- t-Distribution (t 分布) t分布是一种在统计学中用于小样本数据的分布。
- Time Series Analysis (时间序列分析) 时间序列分析是一种分析按时间顺序排列的数据点的方法。
- t-test (t 检验) t检验是一种统计检验,用于比较两组数据的均值是否有显著差异。
- Two-sample t-test (双样本 t 检验) 双样本t检验是用来比较两个独立样本群体的均值是否相等的检验方法。
- Underfitting (欠拟合) 欠拟合是指模型过于简单,无法捕捉到数据中的复杂特征。
- Univariate Analysis (单变量分析) 单变量分析是只涉及单个变量的统计分析。
- Unsupervised Learning (无监督学习) 无监督学习是机器学习的一种,它从未标记的数据中发现模式和结构。
- Validation Set (验证集) 验证集是机器学习过程中用于评估模型性能的独立数据集。
- Variance (方差) 方差是衡量数据点与均值之间差异的统计量。
- XGBoost (XGBoost) XGBoost是一种高效的梯度增强框架,用于解决各种机器学习任务。
- Zero-shot Learning (零样本学习) 零样本学习是一种机器学习技术,它允许模型在没有直接的样本学习的情况下识别新的类别。
- Z-Score (标准分数) 标准分数表示一个数据点与数据集均值的距离,用标准差的单位来衡量。
[ 抱个拳,总个结 ]
欢迎留言区补充
日更时间紧任务急,难免有疏漏之处,还请各位大侠海涵
本篇内容仅供学习交流之用,部分素材来自网络,侵联删
[ 算法金,碎碎念 ]
南京特种部队训练
梅花山上梅花鹿
“金陵狮子林” - 愚园
全网同名,日更万日,让更多人享受智能乐趣
如果觉得内容有价值,烦请大侠多多 分享、在看、点赞,助力算法金又猛又持久、很黄很 BL 的日更下去;
同时邀请大侠 关注、星标 算法金,围观日更万日,助你功力大增、笑傲江湖