1、什么是统计学:收集、处理、分析、解释数据并从数据中得出结论的科学 2、统计方法:
(1)描述统计(知道总体数据)
①含义:研究数据收集、整理和描述的统计学方法 ②内容:搜集数据、整理数据、展示数据、描述性分析 ③目的:描述数据特征、找出数据的基本规律 (2)推断统计
①含义:研究如何利用样本数据来推断总体特征的统计学方法 ②内容:参数估计、假设检验 ③目的:对总体特征作出推断
3、统计应用上的两个极端:不用或几乎不用统计;简单问题复杂化
4、统计的滥用:不好的样本;过小的样本;误导性图表;局部描述;故意曲解 5、什么是变量:从一次观察到下一次观察会出现不同结果的某种特征 6、数据:观察到的变量的结果
7、数值变量:又称定量变量,观测结果表现为数字的变量
8、分类变量:又称无序分类变量,观测结果表现为某种类别的变量,分类变量和顺序变量统称为定性变量
9、顺序变量:又称有序分类变量,观测结果表现为某种有序类别的变量 10、总体:包含所研究的全部个体(数据)的集合 11、样本:从总体中抽取的一部分元素的集合 12、样本量:构成样本的元素的数目
13、概率抽样:根据一个已知的概率来抽取样本单位,也称随机抽样 特点:按一定的概率以随机原则抽取样本;抽取样本时使每个单位都有一定的机会被抽中;每个单位被抽中的概率是已知的,或是可以计算出来的 ;当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率 14、简单随机抽样
含义:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中
方法:抽取元素的具体方法有重复抽样和不重复抽样
特点:简单、直观,在抽样框完整时,可直接从中抽取样本;用样本统计量对目标量进行估计比较方便
局限性:当N很大时,不易构造抽样框;抽出的单位很分散,给实施调查增加了困难;没有利用其他辅助信息以提高估计的效率 15、分层抽样
含义:将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中、随机地抽取样本
优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度;组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目标量进行估计 16、系统抽样
含义:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难
17、整群抽样
含义:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
特点:抽样时只需群的抽样框,可简化工作量;调查的地点相对集中,节省调查费用,方便调查的实施;缺点是估计的精度较差
第二章
18、频数:落在各类别中的数据个数
19、比例:某一类别数据个数占全部数据个数的比值 20、百分比:将对比的基数作为100而计算的比值 21、比率:不同类别数值个数的比值
22、定性数据与定量数据的表示方法(表+图)
定性数据:频数分布表、条形图、帕累托图、饼图、环形图
定量数据:频数分布表、直方图、茎叶图、箱线图、垂线图、误差图、散点图、雷达图、轮廓图
23、环形图与饼图的区别:饼图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环 24、生成频数分布表的步骤:确定组数、确定组距、统计出各组的频数 25、直方图是用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布(本质上是用矩形的面积来表示频数分布),在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图;直方图下的总面积等于1 26、直方图与条形图的区别:①条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距;②由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列;③条形图主要用于展示定性数据,而直方图则主要用于展示定量数据
27、茎叶图与直方图的区别:①直方图可观察一组数据的分布状况,但没有给出具体的数值;②茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息;③直方图适用于大批量数据,茎叶图适用于小批量数据 28、箱线图:用于显示未分组的原始数据的分布
29、垂线图:用于展示多个变量或多个样本取值的分布状况
30、散点图:用于展示两个变量之间的关系;用横轴代表变量x,纵轴代表变量y,每组数据(xi , yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的图
31、雷达图:也称为蜘蛛图;用于研究多个样本在多个变量上的相似程度;当多个变量的取值相差较大或量纲不同时,可进行变换(线性变换或对数变换)处理后再做图。 32、轮廓图:用于研究多个样本在多个变量上的相似程度或变量间的相互关系,将各变量用一系列平行的横坐标轴表示,变量值对应纵轴上的位置 33、鉴别图表优劣的准则
(1)一张好的图表应包括以下基本特征:显示数据;让读者把注意力集中在图表的内容上,而不是制作图表的程序上;避免歪曲;强调数据之间的比较;服务于一个明确的目的;有对图表的统计描述和文字说明
(2)5种鉴别图表优劣的准则:一张好的图表应当:精心设计、有助于洞察问题的实质;使复杂的观点得到简明、确切、高效的阐述;能在最短的时间内以最少的笔墨给读者提供最大量的信息;是的;表述数据的真实情况
第三章
34、描述数据的分布特征的三方面:①数据的水平,反映数据的集中程度(平均数、中位数、分位数);②数据的差异,反映各数据的离散程度(极差、四分位差、方差、标准差);③分布的形状,反映数据分布的偏态和峰态(偏态、峰态) 35、众数、中位数和平均数的关系:
均中位众
中位数 众均 值 数数 =中位=众均数 值 数 值 数
对称分布 右偏分布 左偏分布
36、众数、中位数、平均数的特点和应用
①平均数:易受极端值影响;数学性质优良,实际中最常用;数据对称分布或接近对称分布时代表性较好
②中位数:不受极端值影响;数据分布偏斜程度较大时代表性较好
③众数:不受极端值影响;具有不惟一性;数据分布偏斜程度较大且有明显峰值时代表性较好
37、极差:一组数据的最大值与最小值之差;离散程度的最简单测度值;易受极端值影响;未考虑数据的分布;计算公式为:R = max(xi) - min(xi)
38、四分位差:也称为内距或四分间距;上四分位数与下四分位数之差:Qd = QU–QL反映了中间50%数据的离散程度;不受极端值的影响;用于衡量中位数的代表性
39、方差和标准差:数据离散程度的最常用测度值;反映各变量值与均值的平均差异;根据总体数据计算的,称为总体方差(标准差),记为σ2(σ);根据样本数据计算的,称为样本方差(标准差),记为s2(s)
40、标准分数:也称标准化值;对某一个值在一组数据中相对位置的度量;可用于判断一组数据是否有离群点;用于对变量的标准化处理;均值等于0,方差等于1
41、标准分数的用途:根据标准分数,可以判断一组数据中是否存在离群点。经验表明:当一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围之内;约有95%的数据在平均数加减2个标准差的范围之内;约有99%的数据在平均数加减3个标准差的范围之内。也就是说,在平均数加减3个标准差的范围内几乎包含了全部数据,而在标准差之外的数据在统计上也称为离群点
42、离散系数:标准差与其相应的均值之比;对数据相对离散程度的测度;消除了数据水平高低和计量单位的影响
离散细数主要用于对不同组别数据离散程度的比较,离散系数大的说明数据的离散程度也就大,离散系数笑得说明数据的离散程度也就小
43、偏态:偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布。偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低
44、峰态:数据分布扁平程度的测度,峰态系数=0为峰度适中,峰态系数<0为扁平分布,峰态系数>0为尖峰分布
第四章
45、概率:是对事件发生的可能性大小的度量,介于0和1之间,事件A的概率记为P(A) 46、怎样获得概率:重复试验获得概率;用类似的比例来逼近;主观概率 47、随机变量:事先不能确定其取值的变量
离散型:只能取有限个值的随机变量 试验 抽查100个产品 一家餐馆营业一天 电脑公司一个月的销售 销售一辆汽车 随机变量 取到次品的个数 顾客数 销售量 顾客性别 可能的取值 0,1,2, „,100 0,1,2, „ 0,1, 2,„ 男性为0,女性为1
连续型:可以取一个或多个区间中任何值的随机变量
试验 抽查一批电子元件 新建一座住宅楼 测量一个产品的长度随机变量使用寿命(小时) 半年后完工的百分比 测量误差(cm)可能的取值X ≥ 0 0 ≤ X ≤ 100 X ≥ 0
48、离散型随机变量的期望值:描述离散型随机变量取值的集中程度,离散型随机变量X的所有可能取值xi与其取相对应的概率 pi 乘积之和,记为μ或E(X)
49、离散型随机变量的方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为σ2或D(X),描述离散型随机变量取值的分散程度
50、离散型随机变量的概率分布:列出离散型随机变量X的所有可能取值,列出随机变量取这些值的概率,通常用下面的表格来表示
X = xiP(X =xi)=pix1 ,x2 ,„ ,xnp1 ,p2 ,„ ,pn P(X =xi)=pi称为离散型随机变量的概率函数
51、二项分布:重复进行n次试验,出现“成功”的次数的概率分布称为二项分布,记为X~B(n,p)
52、泊松分布:用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布
53、超几何分布:采用不重复抽样,各次试验并不,成功的概率也互不相等;总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布
、正态分布函数的性质(特点):图形是关于x=μ对称钟形曲线,且峰值在x=μ处;均值μ和标准差σ一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”;均值μ可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。σ越大,正态曲线扁平;σ越小,正态曲线越高陡峭;当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线
下的总面积等于1
55、数据正态性的评估方法:
①、对数据画出频数分布的直方图或茎叶图(若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似)
②、绘制正态概率图。有时也称为分位数—分位数图或称Q-Q图或称为P-P图 ③、使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验)
56、参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值;一个总体的参数:总体均值(μ)、标准差(σ)、总体比例(π);两个总体参数:(μ1 -μ2)、(π1-π2)、(σ1/σ2) 57、 统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数;一个总体参数推断时的统计量:样本均值(x)、样本标准差(s)、样本比例(p)等两个总体参数推断时的统计量:(x1-x2)、(p1-p2)、(s1/s2)
58、t-分布:t 分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 59、 -分布性质和特点:①分布的变量值始终为正;②分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称;③期望为:E( )=n,方差为:D( )=2n(n为自由度) ;④可加性:若U和V为两个的 分布随机变量,U~ (n1),V~ (n2),则U+V这一随机变量服从自由度为n1+n2的 分布
60、F分布的特点:F分布的图形与 分布类似,其形状决定于两个自由度,F分布的概率即为曲线下的面积
61、样本统计量的概率分布:也称抽样分布,它是由样本统计量的所有可能取值形成的相对频数分布,其依据样本的变化而变化。实际上是一种理论分布
62、中心极限定理:从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时(通常要求n≥30),样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
63、统计量的标准误差:样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差;衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度 、估计的标准误差:当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误差
第五章 参数估计
65、区间估计的基本原理:在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到;根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量 66、置信水平的含义:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度,表示为(1-α)% 67、置信区间:由样本估计量构造出的总体参数在一定置信水平下的估计区间,统计学家给它取名为置信区间
68、如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间
69、评价估计量的标准:无偏性:估计量抽样分布的数学期望等于被估计的总体参数;有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数
70、小样本估计的假设条件:总体服从正态分布,但方差(σ2) 未知;小样本 (n < 30)
71、样本:一个样本中的元素与另一个样本中的元素相互;配对样本:一个样本中的数据与另一个样本中的数据相对应
72、样本量与置信水平、总体方差、估计误差的关系:样本量与置信水平成正比,与总体方差成正比,与估计误差的平方成反比
第六章 假设检验
73、原假设:又称“0假设”,研究者想收集证据予以反对的假设,用H0表示,最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它;备择假设:也称“研究假设”,研究者想收集证据予以支持的假设,用H1或Ha表示,用于表达研究者自己倾向于支持的看法,然后就是想办法收集证据拒绝原假设,以支持备择假设
74、两类错误:第Ⅰ类错误:原假设为正确时拒绝原假设;第Ⅱ类错误:原假设为错误时未拒绝原假设;两者概率的关系:在样本量不变的情况下,要减小α就会使β增大,而要增大α就会使β减小,两类错误就像一个跷跷板 75、显著性水平:假设检验中犯第Ⅰ类错误的概率,是人们事先指定的犯第Ⅰ类错误概率的最大允许值
76、标准化检验统计量=(点估计量-假设值)/点估计量的标准误差,检验统计量是一个点估计量,不能直接作为判断的依据,只有将其标准化后,才能用于度量它与原假设的参数值之间的差异程度
77、P值:如果原假设正确,所得到的样本结果会像实际观测结果那么极端或者更极端的概率;优点:P值是关于数据的概率,与原假设的对或错的概率无关;P值决策优于统计量决策
78、采取“不拒绝”而不采取“接受”:当不能拒绝原假设时,我们也从来不说“接受原假设”,因为没有证明原假设是真的,采用“接受”原假设的说法,则意味着你证明了原假设是正确的,没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的,它仅仅意味着目前还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设
79、假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设,假设检验只提供不利于原假设的证据
80、样本量的大小与显著性的关系:通常在做某种统计推断时,显著性水平要求越高,要达到该显著性水平的样本量越大
81、统计上是显著的:当拒绝原假设时,我们称样本结果是统计上显著的
统计显著性与实际显著性:所谓统计意义上的显著性是指在不同总体之间的差异比较研究中,由于各个总体存在内在的变异性,而只有在当两个总体之间的差异超过单个总体内部这类变异性时,他们之间的差异才具有统计上的显著性,否则,当单个总体的内在变异性超过两个总体之间的差异性时,我们就称两个总体之间的差异不具有统计意义上的显著性;世纪显著性是指在不同总体之间的差异比较研究中,由于各个总体存在内在的变异性,而只有在当两个总体之间的差异绝对超过总体内部这类变异性时,我们就称它们间的差异具有实际意义上的显著性
第九章 一元线性回归
82、相关分析主要解决的问题:变量之间是否存在关系?如果存在,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?
83、相关系数的性质:r 的取值范围是 [-1,1] ;r具有对称性;r数值大小与x和y原点及
尺度无关;r仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系;r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系 84、回归模型:描述因变量 y 如何依赖于自变量 x 和误差项ε的方程 85、一元线性回归模型基本假定:①因变量x与自变量y之间具有线性关系;②在重复抽样中,自变量x的取值是固定的,即假定x是非随机的;③误差项ε满足正态性、方差齐性、性
86、参数的最小二乘估计性质:首先,根据最小二乘法得到的回归直线能使利差平方和达到最小,虽然这并不能保证它就是拟合数据的最佳直线,但这毕竟是一条与数据拟合良好的直线应有的性质;其次,由最小二乘法求得的回归直线可知β0和β1的估计量的抽样分布;再次,在一定条件下,β0和β1的最小二乘估计量具有E( )=β0,E( )=β1,而且同其他估计量相比,其抽样分布具有较小的标准差
87、判定系数的含义:指对样本回归线与样本观测值之间拟合程度的检验;作用:用于度量估计的回归方程的拟合度,取值范围为[0,1],越接近于1,表明回归平方和占总平方和的比例越大,回归直线与各观测值越接近,用x的变化来解释y值变差的部分就越多,回归直线的拟合程度就越好,反之,越接近于0,回归直线的拟合程度就越差
88、回归分析中F检验的作用:用于检验自变量x和因变量y之间的线性关系是否显著 、回归分析中t检验的作用:用于检验自变量对因变量的影响是否显著
90、平均值的置信区间是对x的一个给定值x0,求出的y的平均值的估计区间;个别值的预测区间是对x的一个给定值x0,求出的y的一个个别值的估计区间;二者的区别:对于同一个x0,两个区间的宽度不一样,预测区间要比置信区间宽一些,二者的差别表明,估计y的平均值比预测y的一个个别值更准确一些
第十一章 时间序列预测
91、时间序列的组成要素:趋势、季节变动、循环波动和不规则波动
92、时间序列预测程序:①收集历史资料,加以整理,编成时间序列,并根据时间序列绘成统计图;②分析时间序列;③求时间序列的长期趋势、季节变动和不规则变动的值,并选定近似的数学模式来代表它们;④利用时间序列资料求出长期趋势、季节变动和不规则变动的数学模型后,就可以利用它来预测未来的长期趋势值和季节变动值,在可能的情况下预测不规则变动值,然后用加法模式或乘法模式计算出未来的时间序列的预测值 93、指数平滑法的含义:把t期的实际值Yt和t期的平滑值St加权平均作为t+1期的预测值,观测值时间越远,其权数也跟着呈现指数的下降,因而称为指数平滑
94、Holt指数平滑预测:适合于含有趋势成分(或有一定周期成分)但不含季节成分序列的预测
95、Winter指数平滑预测:适用于既含有趋势成分又含有季节成分的时间序列的预测
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- ryyc.cn 版权所有 湘ICP备2023022495号-3
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务