统计分析方法学习总结

时间：2020-10-24 08:00:51　来源：柠檬阅读网本文已影响人

　统计分析方法学习总结 S201505158 陈丹妮统计的描述一般采用以下几种图形描述数据：直方图：表示几个变量的数据，使人们能够看出这些数目的大体分布或“形状”；盒形图：比直方图简单一些的是盒形图(boxplot，又称箱图、箱线图、盒子图)；茎叶图：既展示了数据的分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字，叶为较小位数的数字；散点图：描述的数据有两对连续变量；定型变量的图：定性变量（或属性变量，分类变量）不能点出直方图、散点图或茎叶图，但可以描绘出它们各类的比例，如：饼图、条形图。汇总统计量表示位置的汇总统计量：均值(mean)：样本值的算术平均值；中位数(median)：中间大小的数（一半样本点小于中位数）；(第一或第三)（下、上）四分位数(点) (first quantile, third quantile )（分别有1/4或3/4的数目小于它们）；k-百分位数(k-percentile)；a分位数(a centile)： k-百分位数=k%分位数：有k%的数目小于它；众数(mode)：样本中出现最多的数。表示尺度的汇总统计量：极差（range)：极端值之差；四分位间距(四分位极差) (interquantile range) 四分位数之差；标准差(standard deviation) 方差平方根；方差(variance) 各点到均值距离平方的平均。相关的分布相关的分布包括：离散分布、连续分布、抽样分布：我们能够利用样本统计量中的（描述样本的）信息, 比如样本均值和样本标准差中的信息，来对（描述总体的）总体参数（比如总体均值和总体标准差）进行推断（估计、检验等）。大数定律：阐述大量随机变量的平均结果具有稳定性的一系列定律的总称。其中又分为独立同分布大数定律（提供了用样本平均数估计总体平均数的理论依据）和贝努力大数定律（提供了频率代替概率的理论依据）。中心极限定理：阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。独立同分布中心极限定理（不论总体服从何种分布，只要它的数学期望和方差存在，从中抽取容量为n的样本，当n充分大时，则这个样本的总和或平均数是服从正态分布的随机变量）和德莫佛－拉普拉斯中心极限定理（提供了用正态分布近似计算二项分布概率的方法）。均值的假设检验包括对于正态总体均值的检验、对于比例的检验各种分析方法列联表分析列联表变量中每个都有两个或更多的可能取值，称为水平，比如收入有三个水平，观点有两个水平，性别有两个水平等。列联表的中间各个变量不同水平的交汇处，就是这种水平组合出现的频数或计数（count）。二维的列联表又称为交叉表（cross table）。列联表可以有很多维。维数多的叫做高维列联表。注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。方差分析方差分析（analysis of variance，ANOVA）是分析各个自变量对因变量影响的一种方法。这里的自变量就是定性变量的因子及可能出现的称为协变量（covariate）的定量变量。分析结果是由一个方差分析表表示的。原理为：把因变量的值随着自变量的不同取值而得到的变化进行分解，使得每一个自变量都有一份贡献，最后剩下无法用已知的原因解释的则看成随机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较（F检验），以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是F-值和检验的一些p-值。相关和回归分析发现变量之间的统计关系，并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说，统计可以根据目前所拥有的信息（数据）来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型（model）。假如用Y表示感兴趣的变量，用X表示其他可能与Y有关的变量（X也可能是若干变量组成的向量）。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependent variable, response variable)，而X称为自变量，也称为解释变量或协变量(independent variable, explanatory variable, covariate)。建立这种关系的过程就叫做回归(regression)。一旦建立了回归模型，除了对变量的关系有了进一步的定量理解之外，还可以利用该模型（函数）通过自变量对因变量做预测（prediction）。这里所说的预测，是用已知的自变量的值通过模型对未知的因变量值进行估计；它并不一定涉及时间先后。主成分分析和因子分析主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量，就有几个主成分。而因子分析是事先确定要找几个成分，这里叫因子（factor）（比如两个），那就找两个。这使得在数学模型上，因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点，它还多一道工序：因子旋转（factor rotation）；这个步骤可以使结果更好。对于计算机，因子分析并不费事。从输出的结果来看，因子分析也有因子载荷（factor loading）的概念，代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。因子分析也给出了二维图；其解释和主成分分析的载荷图类似。可以看出，因子分析和主成分分析都依赖于原始变量，也只能反映原始变量的信息。所以原始变量的选择很重要。另外，如果原始变量都本质上独立，那么降维就可能失败，这是因为很难把很多独立变量用少数综合的变量概括。数据越相关，降维效果就越好。在得到分析的结果时，并不一定会都得到如我们例子那样清楚的结果。这与问题的性质，选取的原始变量以及数据的质量等都有关系。聚类分析物以类聚、人以群分；但根据什么分类呢？如要想把中国的县分类，就有多种方法可以按照自然条件来分，比如考虑降水、土地、日照、湿度等，也可考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。对一个数据，既可以对变量(指标)进行分类(相当于对数据中的列分类)，也可以对观测值(事件，样品)来分类(相当于对数据中的行分类)。当然，不一定事先假定有多少类，完全可以按照数据本身的规律来分类。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。它们在数学上是无区别的。k-均值聚类（k-means cluster，也叫快速聚类，quick cluster）却要求先说好要分多少类。然后，根据和这三个点的距离远近，把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来 “种子”就没用了)，再重新按照距离分类。如此叠代下去，直到达到停止叠代的要求（比如，各类最后变化不大了，或者叠代次数太多了）。显然，前面的聚类种子的选择并不必太认真，它们很可能最后还会分到同一类中呢。另一种聚类称为分层聚类或系统聚类（hierarchical cluster）。开始时，有多少点就是多少类。它第一步先把最近的两类（点）合并成一类，然后再把剩下的最近的两类合并成一类；这样下去，每次都少一类，直到最后只有一大类为止。越是后来合并的类，距离就越远。判别分析在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。在判别分析中，至少有一个已经明确知道类别的“训练样本”，并利用该样本来建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。训练样本中必须包含所有要判别的类型，分类必须清楚，不能有混杂。

　要选择好可能用于判别的预测变量。这是最重要的。当然，在应用中，选择余地不见得有多大。

　要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的；这可以用单变量方差分析（ANOVA）和相关分析来验证。判别分析是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果作解释。

　在计算中需要看关于各个类的有关变量的均值是否显著不同的。典型相关分析由于一组变量可以有无数种线性组合（线性组合由相应的系数确定），因此必须找到既有意义又可以确定的线性组合。典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量（和其他线性组合相比）之间的相关系数最大。目的：研究多个变量之间的相关性。方法：利用主成分思想,可以把多个变量与多个变量之间的相关化为两个变量之间的相关. 即找一组系数(向量)l和m, 使新变量U=l`X(1)和V=m`X(2)有最大可能的相关关系。对应分析在因子分析中，或者只对变量（列中的变量）进行分析，或者只对样品（观测值或行中的变量）进行分析；而且利用载荷图来描述各个变量之间的接近程度。典型相关分析也只研究列中两组变量之间的关系。然而，在很多情况下，所关心的不仅仅是行或列本身变量之间的关系，而是行变量和列变量的相互关系；对应分析方法被普遍认为是探索性数据分析的内容，处理列联表的问题仅仅是对应分析的一个特例。一般地，对应分析常规地处理连续变量的数据矩阵；这些数据具有如在主成分分析、因子分析、聚类分析等时所处理的数据形式。在对应分析中，根据各行变量的因子载荷和各列变量的因子载荷之间的关系，行因子载荷和列因子载荷之间可以两两配对。如果对每组变量选择前两列因子载荷，则两组变量就可画出两因子载荷的散点图。由于这两个图所表示的载荷可以配对，于是就可以把这两个因子载荷的两个散点图画到同一张图中，并以此来直观地显示各行变量和各列变量之间的关系。由于列联表数据形式和一般的连续变量的数据形式类似，所以也可以用对应分析的数学方法来研究行变量各个水平和列变量各个水平之间的关系。时间序列分析人们对统计数据往往可以根据其特点从两个方面来切入，以简化分析过程。一个是研究所谓横截面(cross section)数据，也就是对大体上同时，或者和时间无关的不同对象的观测值组成的数据。另一个称为时间序列(time series)，也就是由对象在不同时间的观测值形成的数据。时间序列分析也是一种回归。回归分析的目的是建立因变量和自变量之间关系的模型；并且可以用自变量来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样分布。而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。也就是说，时间序列的因变量为变量未来的可能值，而用来预测的自变量中就包含该变量的一系列历史观测值。当然时间序列的自变量也可能包含随着时间度量的独立变量。一个时间序列可能有趋势、季节、循环这三个成分中的某些或全部再加上随机成分。因此，如果要想对一个时间序列本身进行较深入的研究，把序列的这些成分分解出来、或者把它们过虑掉则会有很大的帮助。如果要进行预测，则最好把模型中的与这些成分有关的参数估计出来。如果我们不仅仅满足于分解现有的时间序列，而且想要对未来进行预测，就需要建立模型。首先，这里介绍比较简单的指数平滑(exponential smoothing)。指数平滑只能用于纯粹时间序列的情况，而不能用于含有独立变量时间序列的因果关系的研究。指数平滑的原理为：当利用过去观测值的加权平均来预测未来的观测值时（这个过程称为平滑），离得越近的观测值要给以更多的权。而“指数”意味着：按照已有观测值“老”的程度，其上的权数按指数速度递减。

相关热词搜索： 高三生物系统化学习的方法总结 统计分析 方法学习

统计分析方法学习总结

最新文章

热门文章