统计建模基础

· 浏览次数 : 0

小编点评

建模是指从收集、分析、展示到解释数据的整个过程。在统计学中,我们通常关注三种类型的变量:横截面数据、纵向数据和分类数据。 1. 横截面数据:在某一时间点上收集的数据,例如某个月份的销售额。 2. 纵向数据:在不同时间点收集的数据,例如一段时间内的销售数据。 3. 分类数据:表示事物类别的数据,例如病人的性别(男或女)。 在建立模型时,我们需要根据问题的背景来确定一个合适的参数模型或算法。这通常是通过探索性数据分析来实现的。在建模过程中,我们不能仅仅依赖统计方法,还需要考虑问题的实际背景。 统计模型的评估方法包括t检验、方差分析和回归分析等。当我们无法拒绝原假设时,只能说目前没有足够的证据来拒绝原假设,而不能简单地认为模型是正确的。此外,统计指标显著并不意味着模型就是正确的,而统计指标不显著则可能表明模型存在错误。 在实际应用中,我们可以将统计模型与算法模型相结合,相互验证。例如,可以使用回归模型来拟合数据,并通过分类模型对结果进行预测。这种结合使用的方法可以提高模型的准确性和可靠性。 最后,我们需要了解一些常见的统计概念,如置信区间、大样本定义和汇总数据与原始数据的优缺点。通过归纳总结这些内容,我们可以更好地理解和应用统计学原理来解决实际问题。

正文

什么是建模?

  • 问题——>数据——>模型——>结论

统计建模的本质

收集、分析、展示、解释数据

统计问题

  • 回归:
    横截面数据、纵向数据
  • 分类:
    横截面数据、分类数据
  • 我们观测不到真值,观测到的数据一定有误差。
    image

如何确定模型?

1.根据探索性数据分析主观确定一个参数模型或者一个算法。
2.根据已知数据训练/学习出参数或者算法模型的程序。
模型是被训练出来的

注意:

1.统计方法不能单独使用,必须有问题的背景在
2.统计指标如果显著,不能证明模型正确,但统计指标不显著,则能证明模型错误。例如:某海滩上溺水死亡的人与冰激凌的销量正相关,但他们之间不能简单的划等号。必须有背景在。
在例如:公鸡打鸣太阳上升,注意因果关系与相关关系。建模时不能再没有任何理论依据,背景等的情况下设置假设变量。要根据文献,尊重事件的本质规律。

纵向数据

在计量经济学中普遍存在。空间溢出效应,经济发展的空间溢出效应是指由具有时间和空间特征的区域间要素流动及其衍生的文化扩散及制度环境演化导致的地区经济活动状态和效率发生变化的现象,当一个地区经济发展对另一地区有利时称为正的溢出效应,反之则是负向溢出。

分类问题

去医院看病就是一个分类问题,就是医生在对我们的病进行归类。
奖学金评定也是分类问题。
考古学也是分类问题。

参数模型

所有模型都是错的,但是有一些模型是有用的。

算法模型

一定能算。
没有任何模型假设,也就没有模型假设的错误。好算,快。
与统计模型相比,黑匣子问题。

  • 可以两者结合使用,相互验证。

R软件英文参考资料

1.Vincent Zoonekynd编写的Statistics with R
2.Modern Applied Statistics with S

国内统计教学课本的若干误区

假设检验的错误:不能拒绝就接受

当P值被认为不够小而不能拒绝原假设时,只能说“目前没有足够证据拒绝原假设”,而不能说是“接受原假设”

P值小于0.05即显著

p值是由一个样本算出来的,不能对其含义夸大或过分理解

置信区间问题

如果根据公式

\[\bar{x}\pm t_{\alpha/2}*\frac{s}{\sqrt{n}} \]

算出来\(\mu\)的置信区间是\([a,b]\),也不能说区间[a,b]以概率 $1 -\alpha覆盖\mu $
只能说对于无穷多个不同样本,根据公式算出来无穷多个区间中大概有\(1-\alpha\)比例的置信区间覆盖\(\mu\).
置信区间的前提是样本服从独立正态同分布的。

大样本,小样本

n>30即为大样本的定义是荒唐的,该界限不好确定。

汇总数据与原始数据

能用原始观测数据就不要用汇总数据了,汇总数据会丢失一些东西。

与统计建模基础相似的内容:

统计建模基础

什么是建模? 问题——>数据——>模型——>结论 统计建模的本质 收集、分析、展示、解释数据 统计问题 回归: 横截面数据、纵向数据 分类: 横截面数据、分类数据 我们观测不到真值,观测到的数据一定有误差。 如何确定模型? 1.根据探索性数据分析主观确定一个参数模型或者一个算法。 2.根据已知数据训

Jupyter Notebook入门指南

Jupyter Notebook是一套基于web的交互式开发环境。用户可以在线开发和分享包含代码和输出的交互式文档,支持实时代码,数学方程,可视化和 markdown等。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。

研发运维双管齐下!Seal AppManager的正确打开方式

新一代应用统一部署管理平台 Seal AppManager 采用平台工程的理念,通过降低基础设施操作的复杂度为研发和运维团队提供易用、一致的应用管理和部署体验。Seal AppManager 帮助研发和运维团队实现关注点分离,即运维工程师负责基础建设,研发可以在零基础设施知识的情况下实现应用部署管理

ElasticSearch必知必会-基础篇

定义: 相同文档结构(Mapping)文档的结合 由唯一索引名称标定 一个集群中有多个索引 不同的索引代表不同的业务类型数据 注意事项: 索引名称不支持大写 索引名称最大支持255个字符长度 字段的名称,支持大写,不过建议全部统一小写

探究Presto SQL引擎(4)-统计计数

本篇文章介绍了统计计数的基本原理以及Presto的实现思路,精确统计和近似统计的细节及各种优缺点,并给出了统计计数在具体业务使用的建议。

Python和PyTorch深入实现线性回归模型:一篇文章全面掌握基础机器学习技术

# 1. 简介 ## 1.1 线性回归模型概述 ![file](https://img2023.cnblogs.com/other/488581/202307/488581-20230728153949582-615920927.png) 线性回归是一种统计学中的预测分析,该方法用于建立两种或两种以

中小企业建设数字化工厂,选择集成老路还是整体重构?

基于统一的数字化平台,重构PLM、ERP、MES、WMS系统,构建柔性化的数字化系统,实现端到端的数据源统一,可以提高协同效率和降低生产成本。

10分钟了解Flink SQL使用

Flink 是一个流处理和批处理统一的大数据框架,专门为高吞吐量和低延迟而设计。开发者可以使用SQL进行流批统一处理,大大简化了数据处理的复杂性。本文将介绍Flink SQL的基本原理、使用方法、流批统一,并通过几个例子进行实践。 1、Flink SQL基本原理 Flink SQL建立在Apache

大数据 - DWM层 业务实现

DWM 建表,需要看 DWS 需求。 DWS 来自维度(访客、商品、地区、关键词),为了出最终的指标 ADS 需求指标 DWT 为什么实时数仓没有DWT,因为它是历史的聚集,累积结果,实时数仓中不需要 DWD 不需要加工 DWM 需要加工的数据 统计主题 需求指标【ADS】输出方式计算来源来源层级

几个题

PKUWC 2024 D1T2 很牛的题,想到了在笛卡尔树上统计,没想到可以做区间 dp。 把原序列 \(f\) 建一个笛卡尔树,会发现有 \(f'=\sum_{j} f_j\times(sz_j-1)\)。具体而言,遍历这棵笛卡尔树,当前节点的子树代表的区间为 \([l,r]\),最小值位置在 \