统计和数据

第一章统计和数据复习要点

一、基本含义

1．统计就是用来处理数据的，它是关于数据的一门学问。

2．统计学是用以收集数据，分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据的方法大体上可分为描述统计和推断统计两大类。

描述统计是研究数据搜集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据。如何用图表形式对数据进行处理和展示，如何通过对数据的综合、概括与分析，得出所关心的数据特征。

推断统计则是研究如何利用样本数据来推断总体特征的统计学方法，内容包括参数估计和假设检验两大类。

3．统计的应用。

几乎所有的领域都应用统计，但是在应用中应注意分辨被误用与滥用的现象。

二、数据类型

统计数据是对客观现象特征的反映，而由于客观现象的复杂性，在反映这些现象特征时可从不同的角度进行采集，从而得到不同类型的数据。

1．定性变量（数据）与定量变量（数据）

（1）定性变量的观察结果称为定性数据。这类数据的最大特点是它只能反映现象的属性特点，而不能说明具体量的大小和差异，只有分类特征，没有量的特征；这种只能反映现象分类特征的变量又称为分类变量，分类变量的观察结果就是分类数据。如果类别具有一定的顺序，这样的变量称为顺序变量，相应的观察结果就是顺序数据。

分类变量没有数值特征，所以不能对其数据进行数学运算。由此可见，定性数据只能用来区分事物，而不能用来表明事物之间的大小、优劣关系。

顺序变量比分类变量向前进了一步，它不仅能用来区分客观现象的不同类别，而且还可以表明现象之间的大小、高低、优劣关系。显然，顺序数据的功能比分类数据要强一些，对事物的划分也更精细了一些。

（2）具有明确的数值含义，不仅能分类而且能测量出来具体大小和差异的变量就是定量变量，也称为数值变量，定量变量的观察结果成为定量数据。

作为统计研究的主要资料，数值型数据的特征在于它们都是以数值的形式出现的，有些数值型数据只可以计算数据之间的绝对差（绝对距离），而有些数值型数据不仅可以计算数据之间的绝对差，还可以计算数据之间的相对差（相对距离）。显然，数值型数据的计量功能要远大于前面介绍的两种定性数据，其计量精度也远远高于定性数据。因此，在统计研究中，数值型数据有着最广泛

的用途。

2．观测数据和实验数据

观测数据是对客观现象进行实地观测所取得的数据，在数据取得的过程中一般没有人为的控制和条件约束。在社会经济问题研究中，观测是取得数据最主要的方法。

实验数据一般是在科学实验环境下取得的数据。在实验中，实验环境是受到严格控制的，数据的产生一定是某一约束条件下的结果。自然科学研究中所用的数据多为实验数据。

三、数据的来源

从使用者的角廑看。统计数据资料的来源主要有两种渠道：一种是通过直接的调查或实验获得的原始数据，这是统计数据的直接来源，一般称之为原始或第一手统计数据；

另一种是别人调查的数据，并将这些数据进行加工和汇总后公布的数据，通常称之为次级数据或第二手间接的统计数据．一切间接的统计数据都是从原始的、第一手数据过渡而来的。

1．原始数据。搜集数据最基本的形式就是进行统计调查或进行实验活动，统计调查或进行实验就是统计数据的直接来源。

统计调查是指根据统计研究预定的目的、要求和任务，运用科学的方法，有计划、有组织地向容观实际搜集资料的过程。通过统计调查得到的数据，一般称为观测数据。

实验法是通过实验法得到的数据就是实验数据。运用实验法要注意的是，首先，实验组和对照组的产生应当是随机的，研究对象的不同单位应当被随机地分配到实验组或对照组，而不应是经过有意识的挑选的。其次，实验组和对照组还应当是匹配的，也就是研究对象的背景资料应当是大体相同的，至少不要差异太大。

不论是统计调查还是实验，所搜集的数据都是原始数据，这是统计数据最基本的来源。

2．次级数据。次级数据（第二手数据）是指由其他人搜集和整理得到的统计数据，这种自他人调查整理基础上的数据我们把它称为数据的间接来源。

数据的间接来源常用的有以下一些：①公开出版的统计数据，主要来自官方的统计部门和政府、组织、学校、科研机构。②尚未公开发表的统计数据，如各企业的经营报表数据、专业调查咨询机构未公开发布的调查结果数据。

需要注意的是，如果公开引用未公开发表的数据需要征得数据所有者的同意，同时要为自己发布的数据负责。

在应用时要注意：①是否了解并正确理解了间接数据中变量的含义、计算口径、计算方法，以防止误用、错用他人的数据。②引用间接数据时要注明数据来源，尊重他人的劳动成果和知识产权。

四、统计调查

统计调查是根据调查的目的与要求，运用科学的调查方法，有计划、有组织地搜集统计数据资料的过程。

1．普查是专门组织的一次性的全面调查，用来调查属于一定时点上或一定时期内的社会现象总量。它适于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料，以摸清重大的国情、国力。普查的特点为：它是一种全面调查，具有资料包括范围全面、详尽、系统的优点；它是一次性的专门调查，因为普查的工作量大，耗资也多，时间周期较长，一般不宜经常举行。

目前，我国通过普查进行的统计调查内容和时间周期已经规范化、制度化，具体包括：

（1）人口普查。每10年进行一次，逢“0”的年份进行；

（2）农业普查，每l0年进行一次，逢“7”的年份进行；

（3）经济普查，2004年进行了中国第一次经济普查。

2．抽样调查

抽样调查是一种非全面调查，它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究，以抽样样本的指标去推算总体指标的一种调查。随机原则要求所有调查单位都有一定的概率被抽取。

抽样调查具有的特点：第一，样本单位按随机原则抽取，排除了主观因素对选取样本单位的影响。第二，能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断，从而达到对调查总体的认识。第三，在抽样调查中会存在抽样误差，但是这个误差可以事先计算并加以控制。抽样调查既能节省人力、物力、财力，又可以提高资料的时效性，而且能取得比较正确的全面统计资料，具有许多优点。抽样调查是一种非全面的、一次性的或经常性的专门调查，这种调查方法在市场经济条件下，使用非常广泛。

抽样两种主要方法：概率抽样和非概率抽样。

概率抽样是根据一个已知的概率随机选取被调查者。常用的概率抽样形式有：简单随机抽样、分层抽样、整群抽样和系统抽样。

非概率抽样是没有完全按照随机原则选取样本单位。

3．统计报表

统计报表是按照国家统一规定的调查要求与文件（指标、表格形式、计算方法等）自下而上地提供统计资料的一种调查方式。

按照报送范围，统计报表分为全面报表和非全面报表。全面报表要求调查对象种的每一个单位均要填报，非全面报表则只要求一部分调查单位填报；

按照报送周期，统计报表主要有月报、季报、年报组成，月报内容简单，时效性强，年报则内容比较全面。

统计报表的内容包括表式和填表说明。

4．重点调查：是在调查对象中选择一部分重点单位进行的一种非全面调查。这些重点单位虽然数目不多，但它们具有所研究现象的总量在总体总量中占据绝大部分的特点。

5．典型调查：是一种非全面的专门调查，它是根据调查的目的与要求，在对被调查对象进行全面分析的基础上，有意识地选择若干具有典型意义的或有代表性的单位进行的调查。

第二章数据描述

复习要点

本章重点介绍如何简单地利用统计图表和少数数据来概括某些事物的基本特征。

一、定性数据的图表展示

定性效据包括分类数据和顺序数据，通常可以用频数分布表和图形来描述。

1．生成频数分布表

定性数据本身就是对事物的一种分类，因此，只要先把所有的类别都列出来，然后统计出每一类别的频数，就得到一张频数分布表。频数分布表中落在某一特定类别的数据个数称为频数。通过频数分布可以观察不同类型数据的分布情况。

注意运用Excel 生成频数分布表的过程。

2．定性数据的图形表示

（1）饼图：又称圆饼图、圆形图等，它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。

（2）条形图：条形图是用宽度相同的条形的高度或长度来表述数据多少的图形，用于观察不同类别数据的多少或分布情况．绘制时，各类别可以放在纵抽，也可以故在横轴。

（3）环形图：环形图可以用来比较不同变量之间的结构差异。

二、定量数据用图表展示．

1．生成频数分布表

生成定量数据的频数分布表时，首先，要对数据进行分组。以能够适当观察数据的分布特征为准。一般的分组个数在5—15之间。

其次，要确定组距。所谓组距是指每个组变量值中的最大值与最小值之差。若将最大值称为上限，最小值称为下限，则组距等于上限与下限之差，即“组距＝上限一下限”。确定组距，一是要考虑各组的划分是否能区分总体肉部各个组成部分的性质差别，二是要能准确地清晰地反映总体单位的分布特征。

在确定组距时，在研究的现象变动比较均匀的情况下，可以采用等距分组；而当研究的现象变动很不均匀时，一般采用不等距分组。

最后，统计出各组的频数及频数分布表。在统计各组频数时，恰好等于某一组的组限时，则采取上限不在内的原则，即将该频数计算在与下限相同的组内。

2．定量数据的图形表示

（1）直方图：用横坐标代袁变量分组，纵坐标代表各变量值出现的频数，这样，各组与相应的频数就形成了一个矩形，即直方同。

（2）折线图：折线图是利用线段的升降来说明显向变动的一种统计图，它主要朋于表示现象在现象的分配情况、现象在时间上的变化和两个现象之间的依存关系等。

（3）散点图：散点图也可以反映两个变量的关系。

应特别注意各种图表的生成方式和运用。

三、用统计表来表示数据

统计表是一种用密集的形式归纳数据的方法。它主要是利用行和列中的数据来表述现象特征。人们利用统计表主要出于两种目的：一是在文章中使用它以支持自己的观点；二是利用它组织数据。统计表一般由五个部分组成，即表头、行标题；列标题、数字资料和表外附加构成。表头应该放在表的上方，它说明的是表的主要内容；

行标题和列标题一般放在表的第一行和第一列，它表示的是所研究的问题类别的名称和指标名称；

表的其余部分是具体的数字资料：

表外附加通常放在统计表的下方，用来说明资料来源、指标注释和必要的说明等内容。通常情况下，统计表的左右两边不能封口。

四、用数字来概括数据

针对一组数据的分布特征，可以从两个方面来考查它：一是该组数据的集中趁势，即该组数据的数值向其中心值的靠拢程度。二是该组数据的离散程度，它反映的是该组数据的各个数值远离其中心值的趋势和程度。这两个方面反映了数据分布特征的不同侧面，从不同视角来分析统计数据，以达到分析和运用统计数据的目的。

1．定性数据的数字特征

对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。

中位数，是数据按照大小排列之后位于中间的那个数（如果样本重为奇数），或者中间两个数目的平均（如果样本重为偶数）。

众数，就是数据中出现次教或出现频率最多的数值，在定性数据中，由于记录的是频数，因此众数用得多些。

2．定量数据的数字特征

常用的反映定量数据特征的统计量有：

反映数据集中趁势的水平度量：平均数、中位数、众数和分位数等；

反映数据离散程度的差异度量：极差、四分位差、标准差和方差。

（1）水平的度量

平均数也称为均值，是把某一组数据进行算术平均，用以表述某一事物的平均水平，它在统计中叫做均值。注意简单平均数和加权平均数的应用。中位数和众数的应用比较简单，结合前边概念学习即可。

（2）差异的度量

极差又称全距，是一组数据中最夫的标志值和最小的标志值之差。它的特点是简单直观，但是容易受数据中极端值的影响，因此，不能准确地描述数据的分散程度。

方差是将各个变量值和其均值离差平方的品军数，它反映了样本中各个观测值到其均值的平均离散程度。标准差是方差的平方根，它更具量纲性，而且与变量值的计量单位相同，使用的范同更广泛。

离散系数也称为便变异系数、标准差系数，足将一组数据的标准差除以其均值，用来测度离散程度的相对数。

标准分数也称作标准化值或Z 分数，是变量值与其平均数的离差除以标准差后的值，用以测定某一数据在该组数据中的相对位置。

第三章参数估计

复习要点

一、抽样分布

1．总体分布与总体参数

总体分布是总体中所有观察值所形成的分布。

总体参数是对总体特征的某个概括性的度量。通常有总体平均数（μ）、总体方差（σ2）、总体比例（π）等。

2．统计量与抽样分布

统计量是根据样本数据计算的用于推断总体的某些量，是对样本特征的某个概括性度量。统计量是样本的函数．如样本均值、样本方差（s2）、样本比例（p ）等。

构成统计量的函数中不能包括未知因素。

抽样分布是样本统计量所形成的概率分布，如样本均值的分布、样本比例的分布等。抽样分布是一种理论分布。抽样分布构成了推断总体参数的理论基础。

根据统计量来推断总体参数具有某种不确定性。不同的样本可以计算出不同的统计量值。

（1）样本均值的抽样分布当总体服从正态分布时，样本均值一定服从正态分布，即有X ～N （μ，σ2）

若总体为未知的非正态分布时，只要样本容量n 足够大（通常要求n≥30），样本均值仍会接近正态分布。

如果总体不是正态分布，当n 为小样本时（通常n

（2）样本比例的抽样分布

比例是指具有某种属性的单位占全部单位数的比重。

总体比例（通常用π表示）是总体中具有某种属性的单位数占全部总体单位数的比例，是一个参数，通常是未知的。

样本比例（通常用P 表示）是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例，是一个样本统计量，是随机变量，是可以观察到的。

样本比例的抽样分布，是描述所有可能样本比例的概率分布。

当样本容量比较大时，样本比例P 近似服从正态分布，在重置抽样时，P 的分布为

在不重置抽样时，P 的分布为P ～N

一般讲，当np≥5，n （1一P ） ≥5时，就可以认为样本容量足够大。随着样本容量的增大，样本比例的方差愈来愈小。

3．统计量的标准误差

统计量的标准误差也称为标准误，是指样本统计量分布的标准差。可用于衡量样本统计量的离散程度。

在参数估计中，它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。

样本均值的标准误计算公式为

样本比例的标准误计算公式为

二、参数估计

参数估计就是用样本统计量去倍计总体的参数。

用样本统计量来估计总体参数有两种方法：点估计和区间估计

1．点估计与区间估计

点估计，是用样本统计量的实现值来近似相应的总体参数。

区间估计，是根据估计可靠程度的要求，利用随机抽取的样本的统计量值确定能够覆盖总体参数的可能区间的一种估计方法。

以68．73%的置信水平推断总体参数肛的置信区间为

以95．45%的置信水平推断总体参数肛的置信区间为

以99．73%的置信水平推断总体参数肛的置信区间为

2．评价估计量的标准无偏性，是指估计量抽样分布的期望值等于被估计的总体参数。无偏估计量的定义。设总体参数为0，所选择的估计量为如果

χ，P ，S 2分别是总体均值、总体比例、总体方差的无偏估计量。

有效性，是指估计量的方差尽可能小。

有效估计量的定义。对同一个总体参数的两个无偏估计量，有更小方差的估计量更有效。有效估计量。一致性，是指随着样本量的增大，点估计量的值越来越接近被估计总体的参数。一致估计量。样本均值是总体均值的一个一致估计量。

3．一个总体均值的区间估计，在对总体均值进行区间估计时，需要考虑总体是否为正态分布、总体方差是否已知，用于估计的样本是大样本还是小样本等情况。

（1）大样本的估计

大样本（n≥30）情况下，当总体方差σ2已知时，总体均值μ在1—α置信水平下的置信区间为

大样本情况下，当总体方差σ2未知时，总体均值μ在1一α置信水平下的置信

区间为则称为θ的无偏估计量。

（2）小样本的估计小样本（n

时，总体均值μ在1一n 置信水平下的置信区间为

样本均值和估计误差两部分组成的。

4．一个总体比例的区间估计大样本条件下，当总体比例π已知时，在1一α的置信水平下，总体比例的置信区间为

时，在1一α的置信水平下，总体比例的置信区间为

比例的置信区间是由样本比例和估计误差两部分组成的。

三、样本量的确定

在进行参数估计时，样本量要适当。

样本量过大会增加调查费用，花费更多的人力；样本量过小，样本没有足够的代表性，统计量的标准误差会增大，对总体参数的估计会不准确。

1．估计总体均值时样本量的确定

在重置抽样条件下，设E 代表允许的估计误差，则样本量计算公式为：在大样本条件下．当总体比例π未知总体小样本（n

如果总体标准差盯未知，可以用样本标准差s 来代替；也可以用试验调查的办法，选择一个初始样

本，以该样本的标准差s 作为总体标准差盯的估计值。

样本量与置信水平成正比，与总体方差成正比，与允许的估计误差的平方成反比。

2．估计总体比例时样本量的确定

在重置抽样条件下。设E 代表允许的估计误差，则样本量计算公式为：

样本量越大，估计误差就越小，估计的精度就越高。估计洪差由使用者预先确定。

大多数情况下，估计误差的取值一般应小于0．1。

如果总体比例π的值不知道，可以用样本比例s 来代替，或者取π＝0．5，使得π（1一π）达到最大。

第四章假设检验

复习要点

一、假设检验

假设检验是先对总体参数或分布形式提出某种假设，然后利用样本信息和相关统计量的分布特征去检验这个假定，做出是否拒绝原来假设的结论。

参数估计是依据样本信息推断未知的总体参数。

1、为什么要进行假设检验：找出样奉均值与总奉均值之间存在误差的原因。

2．如何进行假设检验：小概率事件，是指在一次事件中几乎不可能发生的事件。一般称之为“显著性水平”，用α表示。显著性水平一般取值为α＝0．05或α＝5%。

3．假设检验的过程；

首先，要提出一个原假设和备择假设。原假设（或零假设）H 0，备择假设（或备选假设）H 1 第二，确定检验统计量。计算z 统计量或计算t 统计量

第三，确定显著性水平α．第一类错误和第二类错误

第四，根据数据计算检验统计量值和与这个统计量值对应的概率值，并进行决策。

4．检验决策准则：

双侧检验：︳统计量的值︳>临界值，拒绝原假设

左侧检验：统计量的值

右侧检验：统计量的值>临界值，拒绝原假设

5．假设检验总结：假设检验依据的是小概率原理。

小概率标准在抽样前依需要确定。假设检验的结果只能是拒绝或不拒绝原来假设，而不能证明原假设成立。统计假设检验的结果不是绝对正确。

二、总体均值的假设检验

在对总体均值进行假设检验时，采用什么检验统计量取决于所抽取的样本是否是大样本还是小

样本，还需要考虑总体是否为正态分布、总体方差是否已知等。

1．大样本（n>30）的检验当总体方差已知时，总体均值检验的统计量为

当总体方差未知时，总体均值检验的统计量为

2．小样本（n

当总体方差未知时，总体均值检验的统计量为

三、总体比例的假设检验

生活中经常需要对总体的某些比例进行检验，以证明某种观点能否被否定。

一个总体比例的检验，基本形式有以下三种：

双侧检验：H 0：π＝π0，H 1≠π。

左侧检验：H 0：π≥π0，Hl#：π

右侧检验：H 0：π≤π0，Hl ：π>π0在大样本时，样本比例会近似服从正态分布。检验统计量用Z 统计量，其基本形式为

第五章相关分析和回归分析

复习要点

一、相关关系

变量之间存在着密切的联系但又不是严格的、确定的关系称为相关关系。相关分析的主要内容包括以下几个方面：

（一）确定现象之间有无关系，这是相关分析的起点；

（二）确定相关关系的表现形式；

（三）测定相关关系的密切程度。

二、相关表和散点图

对于两个变量戈和Y ，通过观察或实验，我们可以得到若干组数据，记为（xi ，Yi ）（i ＝1，2，„，n ），将这些数据按x 值由大到小（或由小到大）以序列表表示，即构成相关表。

将一一对应的（xi ，Yi ）描点于坐标系上，即构成散点图，又称为相关图。通过散点图所反映出的坐标点的分布状况可以直观地判断变量之间是否存在相关关系，以及相关的形态、方向。

三、相关的形态（线性相关和非线性相关）

若变量Y 与变量x 的相关关系表现为线性组合，或绘制的散点图近似地表现为一条直线或直线带，则称之为线性相关。

若变量Y 与变量x 是非线性组合，或绘制的散点图近似地表现为一条曲线，则称之为非线性相关或曲线相关。

四、相关的方向（正相关和负相关）

当两个变量的变动方向总体上相同，即一个变量增加，另一个变量也相应地增加，或一个变量减少，另一个变量也相应地减少时，两个变量之间的关系属于正相关。

若两个变量变动的方向总体上相反，即一个变量增加的同时，另一个变量随之减少时，两个变量之间的关系属于负相关。

五、Pearson 相关系数

相关系数是测定变量之间关系密切程度的量，它能够以数字准确地描述变量之间的相关程度。要反映不同类型变量数据的相关程度，有不同的相关系数。重点介绍Pear —son 相关系数。

1．定义：Pearson 相关系数是用来度量两个定量变量x 和Y 之间的线性相关程度，如人均可支配收入与消费支出的相关程度、身高与体重之间的相关程度等等。

2．公式：

3．性质：（1）r 的取值范围在一1～1，即一1≤r ≤1。r>0表明x 与Y 之间存在正线性相关关系；r

（2）r 具有对称性。x 与Y 之间的相关系数rxy 和y 与x 之间的相关系数ryx 相等，即rxy ＝r yx 。

（3）r 数值大小与x 和Y 的数据原点及计量尺度无关。改变x 和Y 的数据原点或计量尺度，并不改变r 数值大小。

（4）r 仅仅是X 与Y 之间线性关系的一个度量，它不能用于描述非线性关系。这意味着，r ＝0只表示两个变量之间不存在线性关系，并不表明变量之间没有任何关系，比如他们之间可能存在非线性关系。

（5）r 虽然是两个变量之间线性关系的一个度量，却不一定意味着X 与Y 一定有因果关系。检验：相关系数的检验可以用t 分布检验进行。检验的具体步骤如下：

首先确定原假设

编：两变量之间不存在线性关系（H0：ρ＝0）瑟。：两变量之间存在线性关系（H 。：ρ≠0）其次，计算统计量t 值

最后，利用其对应的概率值进行判断，如果概率值小于或等于指定的显著性水平（一般α＝0．0

5），则我们可以拒绝原假设，接受备择假设，即两变量之间存在线性相关关系。否则不能拒绝原假设，可以认为两变量之间不存在显著的相关关系。

六、一元线性回归分析

1．相关分析和回归分析的区别：

相关分析旨在测度变量之间关系的密切程度，它所实用的测定工具就是相关系数。而回归分析则是考察若干自变量X 与因变量Y 之间的数量变化规律的统计方法和技术。

2．回归分析的主要内容：

（1）从样本数据出发，确定变量之间的数学关系式；

（2）估计回归模型参数；

（3）对所确定的关系式进行各种统计检验，并从影响某一特定变量的诸多变量中找出影响显著的变量。

3．一元线性回归模型

理论回归模型：Y ＝βo ＋β1x ＋ε

估计的回归方程：ý＝b0＋b1x

4．参数的最小二乘估计

用普通最小二乘法得到参数估计值的具体计算公式为：

5．回归系数的含义：Y ＝b0＋b1x 中的b0是直线的结局，表示当解释变量为零时Y 的平均值。回归系数b1是直线的斜率，表示解释变量x 每增加一个单位，被解释变量将相应地平均变化b1个单位。

6．回归系数的检验和评价

（1）经济意义检验利用相关的经济学原理及我们所积累的丰富的经验，对所估计的回归方程的回归系数进行分析与判断，看其能否得到合理的解释。

（2）同归方程的统计检验

包括回归方程的显著性检验（F 检验）和对同归系数的检验（t 检验）。一冗线性回归分析时，由于只有一个解释变量，因此t 检验与F 检验的结果是一致的。

（3）回归方程的评价（拟合程度分析）

判定系数R2的公式为：

判定系数R2的取值范围是[0，1]，R2越接近于l ，表明回归平方和占总变差平方和的比重越大，回归直线于个观测点越接近，回归直线的拟合程度就越好。反之，R2越接近于0，回归直线的拟合程度越差。

估计标准误差是残差平方和的均方根，用Se 来表示，其计算公式为：估计标准误差是度量各观测点在直线周围分散程度的一个统计量，反映了实际观测值Yi 与回归估计值ýi 之间的差异程度。若各观测点全部落在直线上，则Se ＝0，此时用自变量来预测因变量是没有误差的。

七、多元线性回归分析

1．回归模型与回归方程

多元线性回归模型：Y ＝βo ＋β1x1＋„ ＋βkxk ＋ε

估计的线性经验回归方程：ý＝bo ＋b1x1＋„＋bk#xk#

2．参数的最小二乘估计，使残差的平方和最小，即

求解b0，b1，„bk 的标准程组，即可得到b0，b1，„bk 。

3．评价与检验多元线性回国方程的评价可以根据多重判定系数、估计标准误差等统计量来完成。判定系数的公式为： R2越接近于l ，回归直线的拟合程度越好，反之，R2越接近于0，回归直线的拟合程廑越差。

多元线性回归中的估计标准误差是对多元回归模型中误差项ε方差的一个估计，公式为：式中，k 是自变量的个数。其判定情况同一元线性回归模型。

多元回归中，t 检验和F 检验不再等价。线性回归方程的显著性检验主要是检验因变量同多个自变量的整体线性关系是否显著。回归系数的检验则是对每个回归系数分别进行单独的检验，以判断每个自变量对因变量的影响是杏显著。

第六章时间序列分析

复习要点

一、时间序列分析的基本概念

时间序列是指反映社会、经济、自然现象的数据按时间先后顺序记录行成的数列。

时间序列分析是对一定时间间隔（如1年分为l2个月，或l 年分为4个季度、或1年）所发生的行为（如每月产品销售额、某地区居民每季用煤炭消耗量、或某国家的逐月失业率等），进行动态的跟踪分析，进而研究某些时间序列随时间变化是否有数量上的变化、有无统计上的显著性意义。

时间序列数据是指把某一现象的数据按时间先后顺序排列而行成的序列。

二、时间序列的分析指标

1．增长量分析指标：发展水平、增长量和平均增长量

（1）发展水平是时间数列中对应某个时期（或时点）的指标数值，说明现象在各个时期（或时点）上所达到的规模和水平，一般用符号Yt （t ＝1，2，„，n ）来表示，其中t 表示所对应的时间。

（2）增长量是指时间数列中两个不同时期的发展水平之差，反映社会经济现象报告期比基期增加或减少的数量，即：增长量＝报告期水平一基期水平。增长量又根据基期水平的不同分为逐期增长量和累计增长量。

（3）平均增长量是某种社会经济现象在一定时期内平均每期增长（或减少）的绝对数量。一般用累计增长量除以增长的时期数目计算。

2．增长率分析：发展速度、增长速度、平均发展速度和平均增长速度

（1）发展速度是表明现象发展程度的动态相对指标，它是两个不同时期的发展水平对比的结果。

计算公式为：发展速度＝报告期水平/基期水平*100%

由于采用的基期不同，发展速度可分为环比发展速度和定基发展速度。环比发展速度是报告期水平与前一期水平之比，反映了现象逐期发展变化速度；而定基发展速度是报告期水平同某一固定时期水平之比，表明现象在较长时期内总的发展变化速度，又称总速度。

（2）增长速度是表明现象增长程度的动态相对指标。它是增长量与基期发展水平相除的结果。公式为：增长速度＝增长量/基期发展水平．增长速度也根据采用的基期不同，分为环比增长速度和定基增长速度。

增长速度＝发展速度一1

（3）平均发展速度是一定时期内各个环比发展速度的平均数，它说明某种现象在一个较长时期内逐期平均发展变化的程度。

（4）平均增长速度是各个环比增长速度的平均数，但它不是根据各环比增长速度计算的，而是根据平均发展速度计算的。它说明某种现象在一个较长时期内逐期平均增长变化的程度。平均增长速度＝平均发展速度一l

三、时间数列影响因素分析

一般将社会经济现象时间数列的总变动分解为下列4个主要因素：

a ）长期趋势（T ，Trend ）

长期趋势是指时间数列在一段长时期的变动，若将其用图形表现，可得一长期趋势线。 b ）季节变动（S ，Seasonal variation ）

季节变动是时间数列由季节性原因而引起的周期性变动，许多经济领域的时间数列都受这种变动的支配。季节变动有三个特点：一是季节变动每年重复进行；二是季节变动按照一定的周期进行；三是每个周期变化强度大体相同。

c ）循环变动（C ，Cyclical variation ）

循环变动是以年度记录的时间数列所表现出来的某种周期性变动。他与季节变动不同，循环的幅度和周期都可以不很规则。d ）不规则变动（1，Irregular variation ）不规则变动是时间数列除去长期趋势、季节变动和循环变动之后余留下来的变动。这种变动分为两种类型。一是严格的随机变动，它是由许多细小的原因综合引起的，二是不经常出现的某些孤立的或不规则的、但却是强有力的突发性活动引起的。

这四种因素的变化构成事物在一定时期的变动。在对时间数列分析时，首先要明确的是这四种类型因素变动的构成形式，即它们是如何结合及相互作用的。对此，通常有两种分解形式：加法模

式和乘法模式。

加法模式是假定四种变动因素是相互独立的，则时间数列各期发展水平是各个影响因素相加的总和，即有

Yt ＝Tt ＋St ＋Ct ＋It

乘法模式是假定四种变动因素存在着某种相互影响关系，互不独立。因此，时间数列各期发展水平是各个影响因素相乘之积，即

Yt ＝Tt ·Ct ·It

四、长期趋势分析方法

测定长期趋势分析的方法主要有三种：

1．回归方程法

回归方程法就是利用回归分析方法，将时间作为解释变量，建立现象随时间变化的趋势方程。对于直线趋势方程，我们可以建议一般公式为：

T ＝a ＋bt

式中：T 表示时间数列的长期趋势；

t 表示时间数列中指标所属的时间；

a 、b 为待定参数。

参数a 、b 的确定可以用最小二乘法进行估计。

2．简单移动平均法

移动平均法是将时间数列的数据逐项移动，依次计算包含一定期数的序时平均数，形成一个新的时间数列的方法。通过这种移动，它消弱或消除了短期偶然性因素的影响，从而显示出现象发展的基本趋势。

采用移动平均法分析时间数列的长期趋势，关键在于平均期数或称步长的选择。一般地讲，被平均的项数越多，修匀的作用就越大，但得到的平均数就越少；反之，被平均的项数越少，修匀的作用就越小，而所得的移动平均数就越多。

3．指数平滑法

指数平滑法是对时间数列由近及远采取具有逐步衰减性质的加权处理，对移动平均法做了改进。

一次指数平滑也称简单指数平滑，其公式为：

St ＋1＝αxt ＋（1－α）St

其中，St 表示第t 期的一次指数平滑值；

Xt 表示第t 期的观测值；

α表示平滑系数，0

使用指数平滑法的关键是确定一个合适的平滑系数α．因为不同的平滑系数α对预测结果有直接影响。α取值越接近1时，近期数据作用最大，各期历史数据的作用迅速减弱。实际应用中α的大小需要反复比较确定，确定的依据是α的取值要使计算得到的各期预测值与实际观察值之间的误差达到最小。

五、季节变动分析方法

季节变动分析的方法很多，主要有：一是不考虑长期趋势的季节指数法；二是考虑长期趋势的回归方程法消除法。

1．不考虑长期趋势一季节指数法

季节指数法是一种通过计算各月（或季）的季节指数（又称季节比率），来反映季节变动的一种分析方法。季节比率的计算方法是：首先计算出各年同期发展水平的序时平均数，然后将各年同期平均数与全时期总平均数对比即得到季节比率。

这种计算方法有两个缺陷，第一，没有考虑长期趋势的影响；第二，季节比率的高低受各年数值大小的影响。

2．考虑长期趋势一回归方程法消除法

注意到一般经济现象都存在一定的长期趋势，为准确反映现象随季节变动的特征，应先消除长期趋势的影响，消除的方法很多，这里仅介绍回归方程法消除法。

步骤如下：

第一，利用最小二乘法，求出回归拟合值；

第二，用观察值除以拟合值，剔除原时间数列中的长期趋势；

第三，计算季节指数。

第七章统计指数

复习要点

一、统计指数的概念和种类

1．统计指数的概念

广义指数：凡是表明社会经济现象总体数量变动的相对数都是指数。狭义指数：表明复杂社会经济现象总体数量综合变动的相对数。复杂社会经济现象总体是指那些由于各个部分的不同性质而在研究其数量特征时不能直接进行加总或直接对比的总体。

2．统计指数的种类

按其反映对象范围的不同，分为个体指数和综合指数

按其表明的经济指标性质的不同，分为数量指数和质量指数。

二、综合指数

很多情况下，我们会采用加权综合指数方法将多个现象的变化综合得到一个指数，用以比较不同时期的总变化。

拉氏指数：主张不论是物价指数还是物量指数都采用基期作为权数的指数。编制方法：拉氏物价指数

拉氏物量指数

派氏指数：主张不论是物价指数还是物量指数都采用报告期作为权数的指数，编制方法：派氏物价指数

派氏物量指数

拉氏指数主要受基期商品（产品）结构的影响，派氏指数主要受报告期商品（产品）结构的影响。在实际应用中，由于派氏指数要求每期更换权数资料，计算比较麻烦，而拉氏指数的权数固定在基期，在编制长期连续性指数数列时比较方便，因此，拉氏指数更得到普遍应用。但是从实际意义上看，派氏物量指数的解释更符合现实意义。

三、几种常用的价格指数

1．居民消费价格指数

居民消费价格指数是就居民购买消费品和服务的价格变化编制物价指数，反映其对应的价格水平变动程度。这种价格指数的编制方法是在众多计量对象中选择代表品，就这些代表品采集价格数据、计算平均价格和个体物价指数，而后运用加权平均方法逐级计算类价格指数，直至总价格指数。

居民消费价格指数的作用：

（1）反映城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度；

（2）反映通货膨胀状况。通货膨胀的严重程度是用通货膨胀率来反映的，它说明了一定时期内商品价格持续上升的幅度。通货膨胀率一般以居民消费价格指数来表示。计算公式为：

（3）反映货币购买力变动。货币购买力是指单位货币能够购买到的消费品和服务，的数量。居民消费价格指数上涨，货币购买力则下降，反之则上升，因此，居民消费价格指数的倒数就是货币购买力指数。

（4）反映对职工实际工资的影响。利用消费价格指数可以将名义工资转化为实际工资。计算公式为：

实际工资＝名义工资（现价工资）/消费价格指数

2．股票价格指数

股票价格一般是指股票在证券市场上交易时的市场价格。

（1）股价平均数

股票平均数是股票市场上多种股票在某一时点上的算术平均数，一般以收盘价来计算。计算公式为：股价平均数

式中，pi 为第i 种股票的收盘价；n 为样本股票数。

（2）股票价格指数

股票价格指数是反映某一股票市场上多种股票价格变动趋势的一种相对数，简称股价指数，其单位一般以“点”表示，即将基期指数作为l00，每上升或下降一个单位称为“l 点”。

股票价格指数的计算方法

很多，但一般以发行量为权数进行加权综合。计算公式为：

式中，p 1i 为第i 种样本股票报告期价格；P oi 为第i 种股票基期价格；q i 为第i 种股票的发行量，可以确定为基期，也可以确定为报告期，但大多数股价指数是以报告期发行量为权数计算的。几种常见的股价指数有：道·琼斯股票价格平均指数，标准普尔指数、恒生指数、上证股价指数和深圳股价指数等。

第三章参数估计

第一节抽样分布

一. 总体分布与总体参数

总体分布是总体中所有观测值所形成的分布。

总体参数是对总体特征的某个概括性的度量。通常有总体平均数（

总体比例（π）等。

二. 统计量和抽样分布

总体参数是未知的，但可以利用样本信息来推断。

统计量是根据样本数据计算的用于推断总体的某些量，是对样本特征的某个概括性度量。

统计量是样本的函数，如样本均值（）、样本方差（s2 ）、样本比例（p ）等。）、总体方差（）、

构成统计量的函数中不能包括未知因素。

由于样本是从总体中随机抽取的，样本具有随机性，由样本数据计算出的统计量也就是随机的。抽样分布是样本统计量所形成的概率分布，如样本均值的分布、样本比例的分布等。

在现实中，一个样本的统计量我们可以观察到，但不能观察到所有可能的统计量值，抽样分布是一种理论分布。

统计量的取值是依据样本而变化的，不同的样本可以计算出不同的统计量值。那么，根据统计量来推断总体参数就必然具有某种不确定性。但我们可以给出这种推断的可靠性，而度量这种可靠性的依据是统计量的概率分布，并且我们确知这种分布的某些性质。因此，统计量的概率分布提供了该统计量长远而稳定的信息，它构成了推断总体参数的理论基础。

（一）样本均值的抽样分布

设总体共有N 个元素，从中随机抽取一个容量为n 的样本，在重置抽样时，共有Nn 种抽法，即可以组成Nn 不同的样本，在不重复抽样时，共有个可能的样本。每一个样本都可以计算出一个均值，这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来，因此，样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明：

即样本均值的均值就是总体均值。

在重置抽样时，样本均值的方差为总体方的1/n，即

在不重置抽样时，样本均值的方差为

其中，为修正系数，对于无限总体进行不重置抽样时，可以按照重置抽样计算，当总体为有限总体，N 比较大而n/N≥5% 时，修正系数可以简化为1-n/N，当N 比较大，而n/N

当总体服从正态分布时，样本均值一定服从正态分布，即有X~N ( , ) 时，

若总体为未知的非正态分布时，只要样本容量 n 足够大（通常要求n ≥30）, 样本均值仍会接近正态分布。样本分布的期望值为总体均值，样本方差为总体方差的1/n 。这就是统计上著名的中心极限定理。该定理可以表述为：从均值为 , 方差为的总体中，抽取样本量为n 的随机样本，当n 充分大时（通常要求n ≥30），样本均值的分布近似服从均值为

布。 , 方差为的正态分

如果总体不是正态分布，当n 为小样本时（通常n

（二）样本比例的抽样分布

比例是指具有某种属性的单位占全部单位数的比重。

总体比例（通常用表示）是总体中具有某种属性的单位数占全部总体单位数的比例，是一个参数，通常是未知的，也是我们想通过抽样得到的说明总体特征的数据。

样本比例（通常用p 表示）是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例，是一个样本统计量，是随机变量，对于一个已经抽取出来的样本来讲，是可以观察到的。描述所有可能样本比例的概率分布就是样本比例的抽样分布。

当样本容量比较大时，样本比例p 近似服从正态分布，且有p 的数学期望就是总体比率π ，即

而P 的方差与抽样方法有关，在重置抽样下为，在不重置抽样下为即在重置抽样时， p 的分布为p~N

在不重置抽样时， p 的分布为p~N

一般讲，当 np≥5,并n(1-p) ≥5时，就可以认为样本容量足够大。对于无限总体进行不重置抽样时，可以按照重置抽样计算，当总体为有限总体，当N 比较大，而n/N 5%时，修正系数可以近似为1，这时也可以按重置抽样计算。

从上述分析可以看出，随着样本容量的增大，样本比例的方差愈来愈小，说明样本比例随样本容量增大，围绕总体比例分布的峰度愈来愈高。

三. 统计量的标准误差

统计量的标准误差也称为标准误，是指样本统计量分布的标准差。可用于衡量样本统计量的离散程度。在参数估计中，它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。样本均值的标准误差计算公式为：

当总体标准差未知时，可用样本标准差s 代替计算，这时计算的标准误差称为估计标准误差。相应地，样本比例的标准误计算公式为

同样，当总体比例的方差 π（1-π）未知时，可用样本比例的方差p(1-p)代替。

第二节参数估计

参数估计是用样本统计量去估计总体的参数。

用样本统计量来估计总体参数有两种方法：点估计和区间估计

一．点估计与区间估计

点估计，是用样本统计量的实现值来近似相应的总体参数。

区间估计，是根据估计可靠程度的要求，利用随机抽取的样本的统计量确定能够覆盖总体参数的可能区间的一种估计方法。

区间估计是包括样本统计量在内（有时是以统计量为中心）的一个区间，该区间通常是由样本统计量加减估计标准误差得到的。与点估计不同，进行区间估计时，根据样本统计量的抽样分布，可以对统计量与总体参数的接近程度给出一个概率度量。

标准正态分布为N （0，1）分布，将概率分布标准化的公式为：

将z 所对应的概率称为置信度或置信水平，将

以68.73%的置信水平推断总体参数推断总体参数表示的范围称为置信区间。的置信区间为（z=1）

的置信区间为(z=2) 以95.45%的置信水平推断总体参数推断总体参数

以99.73%的置信水平推断总体参数推断总体参数的置信区间为(z=3)

二．评价估计量的标准

用于估计总体参数的估计量可以有很多，如何选择估计效果最好的那种估计量，评价估计量的好坏的标准具体有：

1. 无偏性，是指估计量抽样分布的期望值等于被估计的总体参数。

2. 有效性，是指估计量的方差尽可能小。

有效性是指估计量的方差尽可能小。对同一个总体参数的两个无偏估计量，有更小方差的估计量更有效。

3. 一致性，是指随着样本量的增大，点估计量的值越来越接近被估计总体的参数。

即大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。从这个意义上说，样本均值是总体均值的一个一致估计量。

三．一个总体均值的区间估计

在对总体均值进行区间估计时，需要考虑总体是否为正态分布、总体方差是否已知，用于估计的样本是大样本还是小样本等情况。但不管哪种情况，总体均值的置信区间都是由样本均值加减估计误差得到的。一般将置信水平表示为1-α ，统计量分布两侧面积各为 α/2的分为数值，它取决于事先所要求的置信度（或可靠程度）。因此总体均值在1-α 置信水平下的置信区间可一般性地表达为：

（ -分为数值* 的标准误差， +分为数值* 的标准误差）

（一）大样本的估计

（二）小样本的估计

小样本（n

α置信水平下的置信已知时，样本均值经过标准化后仍服从标准正态分布，此时总体均值 μ在1-

总体比例的置信区间是由样本比例和估计误差两部分组成的。

样本量的确定

在进行参数估计时，样本量要适当。样本量过大会增加调查费用，花费更多的人力；样本量过小，样本没有足够的代表性，统计量的标准误差会增大，对总体参数的估计会不准确。

一．估计总体均值时，样本量的确定

在重置抽样条件下，设

E 代表允许的估计误差，则样本量计算公式为：

如果总体比例的值不知道，可以用样本比例s 来代替，或者取 π=0.5，使得 π（1- π）达到最大。

第一章统计和数据复习要点

一、基本含义

1．统计就是用来处理数据的，它是关于数据的一门学问。

2．统计学是用以收集数据，分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据的方法大体上可分为描述统计和推断统计两大类。

推断统计则是研究如何利用样本数据来推断总体特征的统计学方法，内容包括参数估计和假设检验两大类。

3．统计的应用。

几乎所有的领域都应用统计，但是在应用中应注意分辨被误用与滥用的现象。

二、数据类型

统计数据是对客观现象特征的反映，而由于客观现象的复杂性，在反映这些现象特征时可从不同的角度进行采集，从而得到不同类型的数据。

1．定性变量（数据）与定量变量（数据）

分类变量没有数值特征，所以不能对其数据进行数学运算。由此可见，定性数据只能用来区分事物，而不能用来表明事物之间的大小、优劣关系。

（2）具有明确的数值含义，不仅能分类而且能测量出来具体大小和差异的变量就是定量变量，也称为数值变量，定量变量的观察结果成为定量数据。

的用途。

2．观测数据和实验数据

三、数据的来源

1．原始数据。搜集数据最基本的形式就是进行统计调查或进行实验活动，统计调查或进行实验就是统计数据的直接来源。

不论是统计调查还是实验，所搜集的数据都是原始数据，这是统计数据最基本的来源。

2．次级数据。次级数据（第二手数据）是指由其他人搜集和整理得到的统计数据，这种自他人调查整理基础上的数据我们把它称为数据的间接来源。

需要注意的是，如果公开引用未公开发表的数据需要征得数据所有者的同意，同时要为自己发布的数据负责。

四、统计调查

统计调查是根据调查的目的与要求，运用科学的调查方法，有计划、有组织地搜集统计数据资料的过程。

目前，我国通过普查进行的统计调查内容和时间周期已经规范化、制度化，具体包括：

（1）人口普查。每10年进行一次，逢“0”的年份进行；

（2）农业普查，每l0年进行一次，逢“7”的年份进行；

（3）经济普查，2004年进行了中国第一次经济普查。

2．抽样调查

抽样两种主要方法：概率抽样和非概率抽样。

概率抽样是根据一个已知的概率随机选取被调查者。常用的概率抽样形式有：简单随机抽样、分层抽样、整群抽样和系统抽样。

非概率抽样是没有完全按照随机原则选取样本单位。

3．统计报表

统计报表是按照国家统一规定的调查要求与文件（指标、表格形式、计算方法等）自下而上地提供统计资料的一种调查方式。

按照报送范围，统计报表分为全面报表和非全面报表。全面报表要求调查对象种的每一个单位均要填报，非全面报表则只要求一部分调查单位填报；

按照报送周期，统计报表主要有月报、季报、年报组成，月报内容简单，时效性强，年报则内容比较全面。

统计报表的内容包括表式和填表说明。

第二章数据描述

复习要点

本章重点介绍如何简单地利用统计图表和少数数据来概括某些事物的基本特征。

一、定性数据的图表展示

定性效据包括分类数据和顺序数据，通常可以用频数分布表和图形来描述。

1．生成频数分布表

注意运用Excel 生成频数分布表的过程。

2．定性数据的图形表示

（1）饼图：又称圆饼图、圆形图等，它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。

（3）环形图：环形图可以用来比较不同变量之间的结构差异。

二、定量数据用图表展示．

1．生成频数分布表

生成定量数据的频数分布表时，首先，要对数据进行分组。以能够适当观察数据的分布特征为准。一般的分组个数在5—15之间。

在确定组距时，在研究的现象变动比较均匀的情况下，可以采用等距分组；而当研究的现象变动很不均匀时，一般采用不等距分组。

2．定量数据的图形表示

（1）直方图：用横坐标代袁变量分组，纵坐标代表各变量值出现的频数，这样，各组与相应的频数就形成了一个矩形，即直方同。

（3）散点图：散点图也可以反映两个变量的关系。

应特别注意各种图表的生成方式和运用。

三、用统计表来表示数据

行标题和列标题一般放在表的第一行和第一列，它表示的是所研究的问题类别的名称和指标名称；

表的其余部分是具体的数字资料：

表外附加通常放在统计表的下方，用来说明资料来源、指标注释和必要的说明等内容。通常情况下，统计表的左右两边不能封口。

四、用数字来概括数据

1．定性数据的数字特征

对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。

中位数，是数据按照大小排列之后位于中间的那个数（如果样本重为奇数），或者中间两个数目的平均（如果样本重为偶数）。

众数，就是数据中出现次教或出现频率最多的数值，在定性数据中，由于记录的是频数，因此众数用得多些。

2．定量数据的数字特征

常用的反映定量数据特征的统计量有：

反映数据集中趁势的水平度量：平均数、中位数、众数和分位数等；

反映数据离散程度的差异度量：极差、四分位差、标准差和方差。

（1）水平的度量

（2）差异的度量

离散系数也称为便变异系数、标准差系数，足将一组数据的标准差除以其均值，用来测度离散程度的相对数。

标准分数也称作标准化值或Z 分数，是变量值与其平均数的离差除以标准差后的值，用以测定某一数据在该组数据中的相对位置。

第三章参数估计

复习要点

一、抽样分布

1．总体分布与总体参数

总体分布是总体中所有观察值所形成的分布。

总体参数是对总体特征的某个概括性的度量。通常有总体平均数（μ）、总体方差（σ2）、总体比例（π）等。

2．统计量与抽样分布

构成统计量的函数中不能包括未知因素。

根据统计量来推断总体参数具有某种不确定性。不同的样本可以计算出不同的统计量值。

（1）样本均值的抽样分布当总体服从正态分布时，样本均值一定服从正态分布，即有X ～N （μ，σ2）

若总体为未知的非正态分布时，只要样本容量n 足够大（通常要求n≥30），样本均值仍会接近正态分布。

如果总体不是正态分布，当n 为小样本时（通常n

（2）样本比例的抽样分布

比例是指具有某种属性的单位占全部单位数的比重。

总体比例（通常用π表示）是总体中具有某种属性的单位数占全部总体单位数的比例，是一个参数，通常是未知的。

样本比例（通常用P 表示）是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例，是一个样本统计量，是随机变量，是可以观察到的。

样本比例的抽样分布，是描述所有可能样本比例的概率分布。

当样本容量比较大时，样本比例P 近似服从正态分布，在重置抽样时，P 的分布为

在不重置抽样时，P 的分布为P ～N

一般讲，当np≥5，n （1一P ） ≥5时，就可以认为样本容量足够大。随着样本容量的增大，样本比例的方差愈来愈小。

3．统计量的标准误差

统计量的标准误差也称为标准误，是指样本统计量分布的标准差。可用于衡量样本统计量的离散程度。

在参数估计中，它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。

样本均值的标准误计算公式为

样本比例的标准误计算公式为

二、参数估计

参数估计就是用样本统计量去倍计总体的参数。

用样本统计量来估计总体参数有两种方法：点估计和区间估计

1．点估计与区间估计

点估计，是用样本统计量的实现值来近似相应的总体参数。

区间估计，是根据估计可靠程度的要求，利用随机抽取的样本的统计量值确定能够覆盖总体参数的可能区间的一种估计方法。

以68．73%的置信水平推断总体参数肛的置信区间为

以95．45%的置信水平推断总体参数肛的置信区间为

以99．73%的置信水平推断总体参数肛的置信区间为

2．评价估计量的标准无偏性，是指估计量抽样分布的期望值等于被估计的总体参数。无偏估计量的定义。设总体参数为0，所选择的估计量为如果

χ，P ，S 2分别是总体均值、总体比例、总体方差的无偏估计量。

有效性，是指估计量的方差尽可能小。

（1）大样本的估计

大样本（n≥30）情况下，当总体方差σ2已知时，总体均值μ在1—α置信水平下的置信区间为

大样本情况下，当总体方差σ2未知时，总体均值μ在1一α置信水平下的置信

区间为则称为θ的无偏估计量。

（2）小样本的估计小样本（n

时，总体均值μ在1一n 置信水平下的置信区间为

样本均值和估计误差两部分组成的。

4．一个总体比例的区间估计大样本条件下，当总体比例π已知时，在1一α的置信水平下，总体比例的置信区间为

时，在1一α的置信水平下，总体比例的置信区间为

比例的置信区间是由样本比例和估计误差两部分组成的。

三、样本量的确定

在进行参数估计时，样本量要适当。

样本量过大会增加调查费用，花费更多的人力；样本量过小，样本没有足够的代表性，统计量的标准误差会增大，对总体参数的估计会不准确。

1．估计总体均值时样本量的确定

在重置抽样条件下，设E 代表允许的估计误差，则样本量计算公式为：在大样本条件下．当总体比例π未知总体小样本（n

如果总体标准差盯未知，可以用样本标准差s 来代替；也可以用试验调查的办法，选择一个初始样

本，以该样本的标准差s 作为总体标准差盯的估计值。

样本量与置信水平成正比，与总体方差成正比，与允许的估计误差的平方成反比。

2．估计总体比例时样本量的确定

在重置抽样条件下。设E 代表允许的估计误差，则样本量计算公式为：

样本量越大，估计误差就越小，估计的精度就越高。估计洪差由使用者预先确定。

大多数情况下，估计误差的取值一般应小于0．1。

如果总体比例π的值不知道，可以用样本比例s 来代替，或者取π＝0．5，使得π（1一π）达到最大。

第四章假设检验

复习要点

一、假设检验

假设检验是先对总体参数或分布形式提出某种假设，然后利用样本信息和相关统计量的分布特征去检验这个假定，做出是否拒绝原来假设的结论。

参数估计是依据样本信息推断未知的总体参数。

1、为什么要进行假设检验：找出样奉均值与总奉均值之间存在误差的原因。

3．假设检验的过程；

首先，要提出一个原假设和备择假设。原假设（或零假设）H 0，备择假设（或备选假设）H 1 第二，确定检验统计量。计算z 统计量或计算t 统计量

第三，确定显著性水平α．第一类错误和第二类错误

第四，根据数据计算检验统计量值和与这个统计量值对应的概率值，并进行决策。

4．检验决策准则：

双侧检验：︳统计量的值︳>临界值，拒绝原假设

左侧检验：统计量的值

右侧检验：统计量的值>临界值，拒绝原假设

5．假设检验总结：假设检验依据的是小概率原理。

小概率标准在抽样前依需要确定。假设检验的结果只能是拒绝或不拒绝原来假设，而不能证明原假设成立。统计假设检验的结果不是绝对正确。

二、总体均值的假设检验

在对总体均值进行假设检验时，采用什么检验统计量取决于所抽取的样本是否是大样本还是小

样本，还需要考虑总体是否为正态分布、总体方差是否已知等。

1．大样本（n>30）的检验当总体方差已知时，总体均值检验的统计量为

当总体方差未知时，总体均值检验的统计量为

2．小样本（n

当总体方差未知时，总体均值检验的统计量为

三、总体比例的假设检验

生活中经常需要对总体的某些比例进行检验，以证明某种观点能否被否定。

一个总体比例的检验，基本形式有以下三种：

双侧检验：H 0：π＝π0，H 1≠π。

左侧检验：H 0：π≥π0，Hl#：π

右侧检验：H 0：π≤π0，Hl ：π>π0在大样本时，样本比例会近似服从正态分布。检验统计量用Z 统计量，其基本形式为

第五章相关分析和回归分析

复习要点

一、相关关系

变量之间存在着密切的联系但又不是严格的、确定的关系称为相关关系。相关分析的主要内容包括以下几个方面：

（一）确定现象之间有无关系，这是相关分析的起点；

（二）确定相关关系的表现形式；

（三）测定相关关系的密切程度。

二、相关表和散点图

三、相关的形态（线性相关和非线性相关）

若变量Y 与变量x 的相关关系表现为线性组合，或绘制的散点图近似地表现为一条直线或直线带，则称之为线性相关。

若变量Y 与变量x 是非线性组合，或绘制的散点图近似地表现为一条曲线，则称之为非线性相关或曲线相关。

四、相关的方向（正相关和负相关）

若两个变量变动的方向总体上相反，即一个变量增加的同时，另一个变量随之减少时，两个变量之间的关系属于负相关。

五、Pearson 相关系数

2．公式：

3．性质：（1）r 的取值范围在一1～1，即一1≤r ≤1。r>0表明x 与Y 之间存在正线性相关关系；r

（2）r 具有对称性。x 与Y 之间的相关系数rxy 和y 与x 之间的相关系数ryx 相等，即rxy ＝r yx 。

（3）r 数值大小与x 和Y 的数据原点及计量尺度无关。改变x 和Y 的数据原点或计量尺度，并不改变r 数值大小。

首先确定原假设

编：两变量之间不存在线性关系（H0：ρ＝0）瑟。：两变量之间存在线性关系（H 。：ρ≠0）其次，计算统计量t 值

最后，利用其对应的概率值进行判断，如果概率值小于或等于指定的显著性水平（一般α＝0．0

5），则我们可以拒绝原假设，接受备择假设，即两变量之间存在线性相关关系。否则不能拒绝原假设，可以认为两变量之间不存在显著的相关关系。

六、一元线性回归分析

1．相关分析和回归分析的区别：

2．回归分析的主要内容：

（1）从样本数据出发，确定变量之间的数学关系式；

（2）估计回归模型参数；

（3）对所确定的关系式进行各种统计检验，并从影响某一特定变量的诸多变量中找出影响显著的变量。

3．一元线性回归模型

理论回归模型：Y ＝βo ＋β1x ＋ε

估计的回归方程：ý＝b0＋b1x

4．参数的最小二乘估计

用普通最小二乘法得到参数估计值的具体计算公式为：

6．回归系数的检验和评价

（1）经济意义检验利用相关的经济学原理及我们所积累的丰富的经验，对所估计的回归方程的回归系数进行分析与判断，看其能否得到合理的解释。

（2）同归方程的统计检验

（3）回归方程的评价（拟合程度分析）

判定系数R2的公式为：

七、多元线性回归分析

1．回归模型与回归方程

多元线性回归模型：Y ＝βo ＋β1x1＋„ ＋βkxk ＋ε

估计的线性经验回归方程：ý＝bo ＋b1x1＋„＋bk#xk#

2．参数的最小二乘估计，使残差的平方和最小，即

求解b0，b1，„bk 的标准程组，即可得到b0，b1，„bk 。

多元线性回归中的估计标准误差是对多元回归模型中误差项ε方差的一个估计，公式为：式中，k 是自变量的个数。其判定情况同一元线性回归模型。

第六章时间序列分析

复习要点

一、时间序列分析的基本概念

时间序列是指反映社会、经济、自然现象的数据按时间先后顺序记录行成的数列。

时间序列数据是指把某一现象的数据按时间先后顺序排列而行成的序列。

二、时间序列的分析指标

1．增长量分析指标：发展水平、增长量和平均增长量

（3）平均增长量是某种社会经济现象在一定时期内平均每期增长（或减少）的绝对数量。一般用累计增长量除以增长的时期数目计算。

2．增长率分析：发展速度、增长速度、平均发展速度和平均增长速度

（1）发展速度是表明现象发展程度的动态相对指标，它是两个不同时期的发展水平对比的结果。

计算公式为：发展速度＝报告期水平/基期水平*100%

增长速度＝发展速度一1

（3）平均发展速度是一定时期内各个环比发展速度的平均数，它说明某种现象在一个较长时期内逐期平均发展变化的程度。

三、时间数列影响因素分析

一般将社会经济现象时间数列的总变动分解为下列4个主要因素：

a ）长期趋势（T ，Trend ）

长期趋势是指时间数列在一段长时期的变动，若将其用图形表现，可得一长期趋势线。 b ）季节变动（S ，Seasonal variation ）

c ）循环变动（C ，Cyclical variation ）

式和乘法模式。

加法模式是假定四种变动因素是相互独立的，则时间数列各期发展水平是各个影响因素相加的总和，即有

Yt ＝Tt ＋St ＋Ct ＋It

乘法模式是假定四种变动因素存在着某种相互影响关系，互不独立。因此，时间数列各期发展水平是各个影响因素相乘之积，即

Yt ＝Tt ·Ct ·It

四、长期趋势分析方法

测定长期趋势分析的方法主要有三种：

1．回归方程法

回归方程法就是利用回归分析方法，将时间作为解释变量，建立现象随时间变化的趋势方程。对于直线趋势方程，我们可以建议一般公式为：

T ＝a ＋bt

式中：T 表示时间数列的长期趋势；

t 表示时间数列中指标所属的时间；

a 、b 为待定参数。

参数a 、b 的确定可以用最小二乘法进行估计。

2．简单移动平均法

3．指数平滑法

指数平滑法是对时间数列由近及远采取具有逐步衰减性质的加权处理，对移动平均法做了改进。

一次指数平滑也称简单指数平滑，其公式为：

St ＋1＝αxt ＋（1－α）St

其中，St 表示第t 期的一次指数平滑值；

Xt 表示第t 期的观测值；

α表示平滑系数，0

五、季节变动分析方法

季节变动分析的方法很多，主要有：一是不考虑长期趋势的季节指数法；二是考虑长期趋势的回归方程法消除法。

1．不考虑长期趋势一季节指数法

这种计算方法有两个缺陷，第一，没有考虑长期趋势的影响；第二，季节比率的高低受各年数值大小的影响。

2．考虑长期趋势一回归方程法消除法

步骤如下：

第一，利用最小二乘法，求出回归拟合值；

第二，用观察值除以拟合值，剔除原时间数列中的长期趋势；

第三，计算季节指数。

第七章统计指数

复习要点

一、统计指数的概念和种类

1．统计指数的概念

2．统计指数的种类

按其反映对象范围的不同，分为个体指数和综合指数

按其表明的经济指标性质的不同，分为数量指数和质量指数。

二、综合指数

很多情况下，我们会采用加权综合指数方法将多个现象的变化综合得到一个指数，用以比较不同时期的总变化。

拉氏指数：主张不论是物价指数还是物量指数都采用基期作为权数的指数。编制方法：拉氏物价指数

拉氏物量指数

派氏指数：主张不论是物价指数还是物量指数都采用报告期作为权数的指数，编制方法：派氏物价指数

派氏物量指数

三、几种常用的价格指数

1．居民消费价格指数

居民消费价格指数的作用：

（1）反映城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度；

（4）反映对职工实际工资的影响。利用消费价格指数可以将名义工资转化为实际工资。计算公式为：

实际工资＝名义工资（现价工资）/消费价格指数

2．股票价格指数

股票价格一般是指股票在证券市场上交易时的市场价格。

（1）股价平均数

股票平均数是股票市场上多种股票在某一时点上的算术平均数，一般以收盘价来计算。计算公式为：股价平均数

式中，pi 为第i 种股票的收盘价；n 为样本股票数。

（2）股票价格指数

股票价格指数的计算方法

很多，但一般以发行量为权数进行加权综合。计算公式为：

第三章参数估计

第一节抽样分布

一. 总体分布与总体参数

总体分布是总体中所有观测值所形成的分布。

总体参数是对总体特征的某个概括性的度量。通常有总体平均数（

总体比例（π）等。

二. 统计量和抽样分布

总体参数是未知的，但可以利用样本信息来推断。

统计量是根据样本数据计算的用于推断总体的某些量，是对样本特征的某个概括性度量。

统计量是样本的函数，如样本均值（）、样本方差（s2 ）、样本比例（p ）等。）、总体方差（）、

构成统计量的函数中不能包括未知因素。

在现实中，一个样本的统计量我们可以观察到，但不能观察到所有可能的统计量值，抽样分布是一种理论分布。

（一）样本均值的抽样分布

即样本均值的均值就是总体均值。

在重置抽样时，样本均值的方差为总体方的1/n，即

在不重置抽样时，样本均值的方差为

当总体服从正态分布时，样本均值一定服从正态分布，即有X~N ( , ) 时，

布。 , 方差为的正态分

如果总体不是正态分布，当n 为小样本时（通常n

（二）样本比例的抽样分布

比例是指具有某种属性的单位占全部单位数的比重。

当样本容量比较大时，样本比例p 近似服从正态分布，且有p 的数学期望就是总体比率π ，即

而P 的方差与抽样方法有关，在重置抽样下为，在不重置抽样下为即在重置抽样时， p 的分布为p~N

在不重置抽样时， p 的分布为p~N

从上述分析可以看出，随着样本容量的增大，样本比例的方差愈来愈小，说明样本比例随样本容量增大，围绕总体比例分布的峰度愈来愈高。

三. 统计量的标准误差

当总体标准差未知时，可用样本标准差s 代替计算，这时计算的标准误差称为估计标准误差。相应地，样本比例的标准误计算公式为

同样，当总体比例的方差 π（1-π）未知时，可用样本比例的方差p(1-p)代替。

第二节参数估计

参数估计是用样本统计量去估计总体的参数。

用样本统计量来估计总体参数有两种方法：点估计和区间估计

一．点估计与区间估计

点估计，是用样本统计量的实现值来近似相应的总体参数。

区间估计，是根据估计可靠程度的要求，利用随机抽取的样本的统计量确定能够覆盖总体参数的可能区间的一种估计方法。

标准正态分布为N （0，1）分布，将概率分布标准化的公式为：

将z 所对应的概率称为置信度或置信水平，将

以68.73%的置信水平推断总体参数推断总体参数表示的范围称为置信区间。的置信区间为（z=1）

的置信区间为(z=2) 以95.45%的置信水平推断总体参数推断总体参数

以99.73%的置信水平推断总体参数推断总体参数的置信区间为(z=3)

二．评价估计量的标准

用于估计总体参数的估计量可以有很多，如何选择估计效果最好的那种估计量，评价估计量的好坏的标准具体有：

1. 无偏性，是指估计量抽样分布的期望值等于被估计的总体参数。

2. 有效性，是指估计量的方差尽可能小。

有效性是指估计量的方差尽可能小。对同一个总体参数的两个无偏估计量，有更小方差的估计量更有效。

3. 一致性，是指随着样本量的增大，点估计量的值越来越接近被估计总体的参数。

即大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。从这个意义上说，样本均值是总体均值的一个一致估计量。

三．一个总体均值的区间估计

（ -分为数值* 的标准误差， +分为数值* 的标准误差）

（一）大样本的估计

（二）小样本的估计

小样本（n

α置信水平下的置信已知时，样本均值经过标准化后仍服从标准正态分布，此时总体均值 μ在1-

总体比例的置信区间是由样本比例和估计误差两部分组成的。

样本量的确定

一．估计总体均值时，样本量的确定

在重置抽样条件下，设

E 代表允许的估计误差，则样本量计算公式为：

如果总体比例的值不知道，可以用样本比例s 来代替，或者取 π=0.5，使得 π（1- π）达到最大。

相关文章

论影响高校统计数据质量的因素及其对策

县统计工作讲话

宏观经济统计分析发展的基本问题_赵彦云

折线统计图重难点解决策略

数据挖掘与统计学的关系浅析

统计数据准确性评估的误差效应分析方法

数据挖掘与统计学应用

统计数据质量控制

统计表和条形统计图

乡镇农业统计工作存在的问题及改进措施

随机推荐

TAG