统计建模基础

· 浏览次数 : 0

小编点评

建模是指从收集、分析、展示到解释数据的整个过程。在统计学中,我们通常关注三种类型的变量:横截面数据、纵向数据和分类数据。 1. 横截面数据:在某一时间点上收集的数据,例如某个月份的销售额。 2. 纵向数据:在不同时间点收集的数据,例如一段时间内的销售数据。 3. 分类数据:表示事物类别的数据,例如病人的性别(男或女)。 在建立模型时,我们需要根据问题的背景来确定一个合适的参数模型或算法。这通常是通过探索性数据分析来实现的。在建模过程中,我们不能仅仅依赖统计方法,还需要考虑问题的实际背景。 统计模型的评估方法包括t检验、方差分析和回归分析等。当我们无法拒绝原假设时,只能说目前没有足够的证据来拒绝原假设,而不能简单地认为模型是正确的。此外,统计指标显著并不意味着模型就是正确的,而统计指标不显著则可能表明模型存在错误。 在实际应用中,我们可以将统计模型与算法模型相结合,相互验证。例如,可以使用回归模型来拟合数据,并通过分类模型对结果进行预测。这种结合使用的方法可以提高模型的准确性和可靠性。 最后,我们需要了解一些常见的统计概念,如置信区间、大样本定义和汇总数据与原始数据的优缺点。通过归纳总结这些内容,我们可以更好地理解和应用统计学原理来解决实际问题。

正文

什么是建模?

  • 问题——>数据——>模型——>结论

统计建模的本质

收集、分析、展示、解释数据

统计问题

  • 回归:
    横截面数据、纵向数据
  • 分类:
    横截面数据、分类数据
  • 我们观测不到真值,观测到的数据一定有误差。
    image

如何确定模型?

1.根据探索性数据分析主观确定一个参数模型或者一个算法。
2.根据已知数据训练/学习出参数或者算法模型的程序。
模型是被训练出来的

注意:

1.统计方法不能单独使用,必须有问题的背景在
2.统计指标如果显著,不能证明模型正确,但统计指标不显著,则能证明模型错误。例如:某海滩上溺水死亡的人与冰激凌的销量正相关,但他们之间不能简单的划等号。必须有背景在。
在例如:公鸡打鸣太阳上升,注意因果关系与相关关系。建模时不能再没有任何理论依据,背景等的情况下设置假设变量。要根据文献,尊重事件的本质规律。

纵向数据

在计量经济学中普遍存在。空间溢出效应,经济发展的空间溢出效应是指由具有时间和空间特征的区域间要素流动及其衍生的文化扩散及制度环境演化导致的地区经济活动状态和效率发生变化的现象,当一个地区经济发展对另一地区有利时称为正的溢出效应,反之则是负向溢出。

分类问题

去医院看病就是一个分类问题,就是医生在对我们的病进行归类。
奖学金评定也是分类问题。
考古学也是分类问题。

参数模型

所有模型都是错的,但是有一些模型是有用的。

算法模型

一定能算。
没有任何模型假设,也就没有模型假设的错误。好算,快。
与统计模型相比,黑匣子问题。

  • 可以两者结合使用,相互验证。

R软件英文参考资料

1.Vincent Zoonekynd编写的Statistics with R
2.Modern Applied Statistics with S

国内统计教学课本的若干误区

假设检验的错误:不能拒绝就接受

当P值被认为不够小而不能拒绝原假设时,只能说“目前没有足够证据拒绝原假设”,而不能说是“接受原假设”

P值小于0.05即显著

p值是由一个样本算出来的,不能对其含义夸大或过分理解

置信区间问题

如果根据公式

\[\bar{x}\pm t_{\alpha/2}*\frac{s}{\sqrt{n}} \]

算出来\(\mu\)的置信区间是\([a,b]\),也不能说区间[a,b]以概率 $1 -\alpha覆盖\mu $
只能说对于无穷多个不同样本,根据公式算出来无穷多个区间中大概有\(1-\alpha\)比例的置信区间覆盖\(\mu\).
置信区间的前提是样本服从独立正态同分布的。

大样本,小样本

n>30即为大样本的定义是荒唐的,该界限不好确定。

汇总数据与原始数据

能用原始观测数据就不要用汇总数据了,汇总数据会丢失一些东西。

与统计建模基础相似的内容: