shevonWang's Blog

多元统计分析的一些小知识

什么是多元统计分析

  • 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。
  • 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。

    多元统计分析的内容和方法

    简化数据结构(降维问题)

    将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。

  • 主成分分析

  • 因子分析
  • 对应分析
  • ……

    什么是主成分分析

    主成分分析:将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法。

    什么是主成份

    主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。

    主成分与原始变量之间的关系

  • 主成分保留了原始变量绝大多数信息。
  • 主成分的个数大大少于原始变量的数目。
  • 各个主成分之间互不相关。
  • 每个主成分都是原始变量的线性组合。

    主成分的数学模型

    F1 = U11X1 + U12X2 + …+ U1nXn
    F2 = U21X1 + U22X2 + …+ U2nXn
    ……
    Fm = Um1X1 + Um2X2 + …+ UmnXn

满足如下条件:

  • 每个主成分的系数平方和为1。
  • 主成分之间相互独立,即无重叠的信息。
  • 主成分的方差依次递减,重要性依次递减。

    主成分分析的几何意义

    主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。

    什么是因子分析

    因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法。

    因子分析的基本思想

    根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量之间的相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子
    因子分析将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子

注:原始变量是可观测的,而公共因子是不可观测的潜在变量。我们需要计算每个公共因子得分,从而替代原始变量。

因子分析的数学模型

Xi = ai1F1 + ai2F2 + … +aimFm +ei
F1,F2,…,Fm 称为公共因子,是不可观测的变量,其系数 ai1,ai2,…aim 称为因子载荷。 ei 是特殊因子,是不能被前 m 个公共因子包含的部分。

因子分析模型中的几个重要统计量的意义

  • 因子载荷:公共因子与原始变量的相关程度。反映公共因子对原始变量的贡献度。
  • 共同度:反映每个变量方差能被提取公共因子解释的部分。它是变量与每个公共因子之负荷量的平方总和。
  • 特殊因子方差或剩余方差:是各原始变量方差不能被公共因子解释的部分。即特殊因子方差等于原始变量方差减去原始变量共同度;在原始变量标准化的情况下,各变量的特殊因素影响大小就是1减掉该变量共同度的值。

主成分分析分析与因子分析的联系

  • 因子分析是主成分分析的推广,是主成分分析的逆问题。
  • 二者都是以‘降维’为目的,都是从协方差矩阵或相关系数矩阵出发。

    主成分分析分析与因子分析的差异

  • 主成分分析模型是原始变量的线性组合,是将原始变量加以综合、归纳;而因子分析是将原始变量加以分解。
  • 主成分分析中,主成分载荷是唯一确定的;因子分析中因子载荷不是唯一的。
  • 因子分析中因子载荷的不唯一性有利于对公因子进行有效解释;而主成分分析对提取的主成分的解释能力有限。

分类与判别

对所考察的变量按相似程度进行分类。

  • 聚类分析
  • 判别分析

    聚类分析的基本思想

    是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕。
    注:相似样本或指标的集合称为类。

    聚类分析的类型

  • 对样本分类,称为Q型聚类分析
  • 对变量分类,称为R型聚类分析

    聚类分析的方法

  • 系统聚类(又称为层次聚类Hierarchical cluster):凝聚方式聚类、分解方式聚类。

  • 非系统聚类(又称为非层次聚类non- hierarchical cluster ):模糊聚类法、K-均值法(快速聚类法)等。

    相似性度量

  • 相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-1,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。
  • 距离:变量或样本间的距离越近,说明其相似性越高,应归为一类;距离越远则说明相似性越弱,应归为不同的类。

注:样本分类(Q型聚类)常以距离刻画相似性;指标分类(R型聚类)常以相似系数刻画相似性。

什么是判别分析

判别分析:根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。

判别分析的要求和假设条件

  • 变量属性:
    被解释变量是属性变量(nonmetric variables) ;解释变量是度量变量(metric variables )

  • 判别分析最基本的要求:
    (1)分组类型在两组以上;(2)已知分类的样本中,每组案例的规模必须至少在一个以上;(3)解释变量必须是可测量的,才能计算其平均值和方差,使其合理地应用于统计函数。

  • 假设条件:
    (1)每一个判别变量(解释变量)不能是其他判别变量的线性组合(避免多重共线性问题)。否则,参数估计的标准误将很大,以至于参数估计统计上不显著。(2)各组变量的协方差矩阵相等。在此假设下,可以使用很简单的公式计算判别函数和进行显著性检验。(3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在此条件下,可精确计算显著性检验值和分组归属的概率。

变量间的相关关系

  • 回归分析:分析一个或几个变量的变化是否依赖另一些变量的变化。
  • 典型相关分析:两组变量间的相互关系。

统计推断

统计推断