丽水学院精品课程
电子教案
课程名称:《统计学》
主讲人:何永达
使用对象:经 本科生
2013年9月
导 读
1.介绍教材
统计学,李金昌主编,北京 : 机械工业出版社,2011第2版
2.本课程的学习要求
平时成绩(考勤、作业、课程论文)、考试成绩
3.本课程的成绩评定方法
A.平时占30-40%:(1)完成作业四次,课程论文分解,占10%;(2)形成课程论文及PPT讲解,按完成质量给分,占10% ; (3)登录统计学精品课程网站:http://tjx.lsu.edu.cn/; “互动交流”,表达对某一统计问题理解(300字以上);务必注明班级及姓名,占10%;(4)期中测验(随机事件),若事件发生,占10% .
B.期末闭卷考试(或考查)占60-70%。
4.本课程教学改革整体思路:
整体思路:
课堂理论教学---社会实践调查----课堂小组讨论---参加学科竞赛:干中学的新型教学模式
具体安排:
第1周-第3周:总体安排、自由分组、选题:完成作业1(调查方案)
第4周-第6周: 选题、方案设计、问卷设计:完成作业2(调查问卷)
第7周-第9周: 开展实地调查、数据整理:完成作业3(描述性统计分析)
第9周-第14周:数据处理、结论探讨:完成作业4(统计推断、模型预测)
第14周-第18周:课堂小组讲解、小组讨论
学生专家组评选优秀调查项目,进入项目库,准备参加每年浙江省大学生统计调查方案设计大赛,持续改进和提高!
第一章 ?? 总论
教学目的:理 含义与本质;对统计学产生与发展的简要历史,特别是对主要学派有所了解;比较全面地认识统计学的学科性质和作用;熟知统计数据的各种类型、特征以及计量尺度,掌握统计数据的研究过程和基本方法;对总体、个体、样本、标志、变量、指标和指标体系等统计学的基本概念有比较系统、全面的掌握。
教学重点:理 含义与本质; 总体、个体、样本、标志、变量、指标和指标体系等统计学的基本概念有比较系统、全面的掌握
教学课时:9课时
课堂教学设计:介绍统计学产生历史及思想,分析统计学及方法的用处,以案例、课程论文、选题激发学生的学习积极性;进一步理 基础知识、概念和思想。
第一节 什么是统计学
一.统 含义与本质
1.统 含义及其关系:
a)统计数据:二手资料和原始数据;经过观察、调查所取得具有信息价值的数字资料
b)统计活动:即统计实践活动,是对统计数据进行搜集、整理和分析的全过程
c)统计学:理论概括和总结。“收集和分析数据的科学和艺术”。《不列颠百科全书》;
统计学是一门关于数据资料的收集、整理、分析和推断的科学。复旦大学
《统计规律》案例分析
《统计思想》案例分析
2. 统计的本质:关于为何统计,统计什么和如何统计的思想。
二.统计学的产生和发展
1.古典统计学时期
统计学的英文statistics,最早是源于现代拉丁文statisticum collegium (国会)以及意大利文statista (国民或政治家)。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时 迄今已有两千三百多年的历史它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”,“政治算数”和“统计分析科学”三个发展阶段。
“城邦政情”(Matters of state)阶段始于古希腊的亚里斯多德撰写“城邦政情”或“城邦纪要”
“政治算数”:创始人和 人物:英国威廉·配第(W.petty,1623-1670),《政治算术》政治经济学之父,某种意义上也是统计学的创始人!
英国约克大学约翰·格朗特(John Graunt)(1620~1674), 英国统计学家。1662年,
出版《关于死 的自然观察和政治观察》。被称为统计学的创始人,政治算术学派的代表。
2.??近 计学时期(统计分析科学)
数理统计学派:创始人和代表人物,比利时凯特莱(L.A.J.Quetelet,1796-1874),现 计学之父!
雅各布·伯努利(Jacob Bernoulli)(1654~1705)荷兰人;1713年出版《猜度术》,给出“伯努利数”、“伯努利大数定律
贝叶斯(Thomas R. Bayes, 1702-1761)英国数学家。首先将归纳理论法用于机率理论,创立贝叶斯统 论。
费歇尔(Fisher,1890—1962)伟大的英国统计学家、数理统计学最主要的奠基者.由费歇尔所确立的统计推断理论,样本分布理论,试验计划法及分布理论对奠定20世纪统计学的基础理论作出了很大的
3.现 计学时期
小样本思想、t分布理论、卡方分布、方差分析、假设检验、估 论、误差理论、决策理论、多元统计、时间序列、面板数据等方法的出现
医学统计学、天文统计学、传媒统计学、管理统计学、金融统计学、国民经济统计学、社会统计学、教育统计学、心理统计学、生物统计学等学科的出现
三、统计学的学科性质
1.研究对象
数量性:统计研究对象是客观事物的数量方面
总体性:社会经济统计认识社会经济现象时,主要是研究社会经济现 总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总体现象的变化情况及规律。
差异性:就是要从所研究现象总体的各个个体之间的差异中概括出共同普遍的特征,并对差异情况作出必要的反映
2.学科地位
方法性:统计学是一门方法论科学,其任务是为研究现象的数量提供科学的理论、原则和方法,就是提供工具和手段。
层次性:统计学是一门一级学科,拥有完整、严密的学科体系,具有很强的层次性,其二级学科包括理论统计学、应用统计学、统计学史和统计学其他学科等。
通用性:统计学是一门通用的方法论科学,其一般的理论、原则和方法在任何研究数量的领域均可用。
3.构成内容
描述性:研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。
推断性:研究如何通过样本数据去推断总体数量特征。是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。
四.统计学的作用
(一)统计学为我们认识自然、认识社会提供了必需的方法和途径
(二)统计学在指导生产活动中发挥着重要作用
(三)统计学在社会经济管理活动中的作用更显著
(四)统计学为科学研究提供了有力手段
第二节 统计数据类型与研究方法
一.统计数据类型
1.按照所采用的计量尺度不同,可以分为定性数据与定量数据
定性数据是指只能用文字或数字代码来表现事物的品质特征或属性特征的数据,具体又分为定类数据与定序数据两种。
定类数据:按照事物的某种属性对其进行平行的分类或分组所形成的数据。
定序数据:对事物之间等级或顺序差别测度所形成的数据。
定量数据是指用数值来表现事物数量特征的数据,具体又分为定距数据与定比数据两种
定距数据:对事物类别或次序之间间距的测度所形成的数据。
定比数据(比率尺度):是能够测算两个测度值之间比值的数据。
2.按照其表现形式不同,可以分为绝对数、相对数和平均数
绝对数:反映现象或事物绝对数量特征的数据,它以最直观、最基本的形式体现现象或事物的外在数量特征,有明确的计量单位。
相对数:反映现象或事物相对数量特征的数据,它通过另外两个相关统计数据的对比来体现现象(事物)内部或现象(事物)之间的联系关系,其结果主要表现为没有明确计量单位的无名数,少部分表现为有明确计量单位的有名数(限于强度相对数)。
平均数:反映现象或事物平均数量特征的数据,体现现象某一方面的一般数量水平。
3.按照其来源不同,可以分为观测数据与实验数据
4.按照其加工程度不同,可以分为原始数据与 数据
5.按照其时间或空间状态不同,可以分为时序数据与截面数据
二.统计数据研究过程
包括四个基本环节:
1.统计设计:制定统计数据研究方案
2.数据搜集:按照统计设 要求,有针对地获取所需的统计数据的环节,也称为统计调查环节
3.数据整理:通过统计观测或实验所获得的原始数据,进行必要的系统化处理,使之条理化、综合化,成为能反映总体特征的统计数据的环节
4.数据分析与解释:数据分析是在数据整理的基础上,围绕统计设计所确定的研究任务,运用各种统计方法对数据进行各种统计分析,得出某些有用的定量结论的环节
三.统计数据研究方法
基本方法有五种:
1.大量观察法:大数定律
2.统计分组法:传统分组法、判别分析法和聚类分析法等
3.综合指标法:常见的综合指标有总量指标、相对指标和平均指标
4.统计推断法:根据概率论和样本分布理论,由样本观测数据来推断总体数量特征——参数估计或假设检验
5.统计模型法:建立回归模型、相关模型等
第三节 统计学的基本概念
一.总体与样本
1.总体:统 究的客观对象的全体,是具有某种共同性质的事物所组成的集合体(也称为母体)
(1)总体的含义与特征
大量性、同质性和差异性三个特征
(2)总体的分类
a)总体单位是否有限——有限总体和无限总体
要检验一批灯 寿命—有限总体
要全面考察该企业生产的灯泡的寿命—无限总体
b)总体存在形式——具体总体和抽象总体
今天来上统计学的所有学生总体—具体总体
某种工艺条件下生产的产品形成的总体—抽象总体
c)总体单位是否能计数——可计数总体和不可计数总体
d)总体单位是否人为划分——自然总体和人为总体
自然确定:个人、企业、家庭等自然形成的总体
人为划定:一公斤小麦、一百公斤小麦、一吨小麦等人为划分的总体;一公顷草地、一百公顷草地、一平方公里草地等人为形成的总体。
(3)个体的含义:构成统计总体的个别事物称为个体(也称总体单位)
(4)总体与个体的关系
a) 总体容量随着个体数的增减变化
b.) 随着研究目的不同,总体中的个体可发生变化
c.) 随着研究范围的变化,总体与个体的角色可以变换
??????2.样本:
(1)样本的含义:所谓样本就是从总体中抽取一部分个体所组成的集合,也称子样。
(2)样本与总体的关系
a.) 样本是总体的代表和缩影
b.) 样本是用来推断总体的
c.) 总体和样本的角色是可以改变的
二.标志和变量
1.标志
(1)标志的含义:所谓标志,就是用以描述个体所具有的特征的名称。标志在每个个体上的具体表现结果称为标志表现。
(2)标志的种类:
a)按其结果表现方式不同 品质标志:只能用文字表示;
数量标志:用数值表示的。
b)按其在每个个体上表现的结果是否相同:
不变标志:在每个个体上的标志表现完全相同;
可变标志:在每个个体上的表现不尽相同。
c)按其表现个体的直接程度不同:
直接标志:直接表现个体特征的标志;
间接标志:间接表现个体特征的标志。
2.变量
(1)变量的含义:
a.)狭义:可变的数量标志。
b.) 广义:变量是可变的数量标志和可变的品质标志。
(2)变量的分类:
????????????a) 按其反映数据的计量尺度不同,可以分为定性变量和定量变量
b)按其所受的影响因素分:确定性变量和随机变量。
c)按其变量值的变化是否连续:连续性变量和离散性变量。
三.统计指标和指标体系
1. 统计指标
(1)含义:反映社会经济现象总体数量特征的概念及其具体数值
a.)说明总体数量特征的;
b.)有广义与狭义之分
广义:说明总体数量特征的概念和数值。包括六个基本要素
狭义:说明总体数量特征的概念和名称。包括三个基本要素c.)注意问题:指标都必须用数字表示。
(2)统计指标与标志的关系
区别:a.)研究对象不同; b.)表现形式不同.
联系:a.)依据与结果; b.)相互转化。
(3)统计指标的种类
a.)按计算范围分:总体指标和样本指标
总体指标也称总体参数,是惟一的但往往未知;样本指标也称样本统计量,是可知的但非唯一。
b.) 按反映现 内容分:数量指标和质量指标
数量指标也称为总量指标
按照其反映现象内容的不同,分为总体标志总量和总体容量
按照其反映现象时间状况的不同,分为时期指标与时点指标
质量指标分为相对指标和平均指标
相对指标反映事物内部或相关事物之间相对数量关系
包括:
结构相对指标(总体中部分总量与总体总量之比)
比例相对指标(总体中某部分总量与其他部分总量之比)
比较相对指标(两个同类指标之比)
动态相对指标(同一指标在不同时间之比)
强度相对指标(两个性质不同但有联系的总量指标之比)
计划完成程度相对指标(实际指标与计划指标之比)
平均指标是反映变量分布集中趋势或中心位置的指标,表明变量的一般数量水平,包括算术平均指标、几何平均指标、调和平均指标、众数指标和中位数指标。
c.) 按反映的时间分:静态指标和动态指标。
(4)统计指标的设计:对指标的名称和涵义、计算范围和方法、 资料搜集和统计量化、计量单位等进行具体规定。
(5)总体与个体、指标与标志的关系
总体由个体组成,指标是由标志构成
2.指标体系
反映同一总体或样本多个方面数量特征的一系列相互联系的统计指标所形成的体系,成为统计指标体系。
(1)含义:若干统计指标组成,互相制约有机整体。
(2)形式:数学等式关系、相互补充关系、因果关系、相关关系。
(3)指标体系的设计
目的性原则、科学性原则、可行性原则、灵活性原则、层次性原则、联系性原则、协调性原则
第二章 统计资料的收集、整理与显示
第一节????????????统计数据的收集
一、统计数据收集的含义和要求
统计数据收集是整个统计活动的基础阶段,通常也称为统计调查阶段。统计数据收集的基本要求是准确性、及时性和完整性。
二、统计数据收集方案设计
统计数据收集方案应包括以下一些内容:
数据收集目的、数据及其类型、数据收集对象和观测单位、观测标志和调查表、数据收集方式与方法、数据所属时间和数据收集期限、数据收集地点和数据收集的组织。
三、统计数据收集方式
统计数据收集方式有两种:统计调查方式和实验方式。
(一)统计调查方式
统计调查就是按照预定的统计任务,运用科学的统计调查方法,有计划有组织地向客观对象搜集资料的过程。
1、普查
概念:根据特定的统计研究目的而专门组织的一次性的全面调查,用以收集所研究现象总体的全面资料。
组织方式: a)专门组织普查机构调查;
b)利用现有统计资料;
基本原则: a)标准时点(避免重复和遗漏)
b)调查步骤(同一次调查在不同阶段)
统一性原则 c)指标 (内涵)
d)调查时间(起止)
e)普查周期:我国为期十年的普查制度
2、抽样调查
抽样调查是一种非全面调查,就是从总体中抽取样本,以样本推断总体的统计调查方式。 抽样调查是目前我国应用最广泛的统计调查方式。抽样调查可分为概率抽样和非概率抽样两类。
你觉得的“随机”和“随意”有区别吗?
(1)概率抽样
a)概率抽样是按照随机原则抽取样本,即总体中的每个个体都有已知的、非零的概率被抽取到样本中来。
b)特点:
在样本的抽取上遵循随机原则
在调查的功能上能以部分推断总体
在推断的手段上运用概率估 方法
在推断的理论上,以大数定律和中心极限定理为依据
在推断的效果上,抽样误差可以 并加以控制
c)概率抽样从抽样方法上看,可以分为重复抽样和不重复抽样两种。重复抽样的特点是:总体的每个个体都有数次被抽中的可能性,次抽样之间相互独立。不重复抽样的特点是:总体中每个个体都只有一次被抽中的可能性,次抽样之间不相互独立
d)概率抽样从抽样组织形式上看,可分为简单随机抽样、分层抽样、等距抽样、整群抽样和多阶段抽样五种。
简单随机抽样是抽样调查最基本的组织形式,具体的样本抽取方式有抽签法和随机数表法等;
分层抽样特点是必须具备总体所有个体的名录和至少一个分层标志的全面资料,各层的抽样相互独立,尽量把总体差异通过分层而转化为层间差异;
等距抽样的特点依固定的间隔和规定的顺序来抽取个体,属于不重复抽样;
整群抽样要尽量把总体差异转化为群内差异等,一般属于不重复抽样;多阶段抽样特点是整群抽样和分层抽样两种组织形式的综合。
(2)非概率抽样
非概率抽样是非随机抽样调查,是凭人们的主观判断或根据便利性原则来抽取样本。有任意抽样、典型抽样、定额抽样和流动总体抽样等几种。
任意抽样,也称随意抽样,即抽样者随意地或任意地(通常是遵循简便性原则)从总体中抽取样本。
典型抽样,也称有目的抽样、代表性抽样,即抽样者根据自己的知识、经验和判断从总体中挑选出“典型的”或“有 性”的单位来组成样本。
定额抽样也称配额抽样,抽样者按照规定的定额获得一个在某些特征上与总体结构大致成比例的样本。它是先对总体按一定标志分类,并按比例分配每类应调查单位的定额,然后由抽样者在每类进行判断抽样。
流动总体抽样,也称 “捕获——标记——再捕获” (Capture-Tag-Recapture) 抽样,即抽样者先从流动总体中获取部分单位,加以标记后放回总体,过一段时间后再获取部分单位,然后根据 再获取单位中有标记单位的比例来推算总体的数量。
3、重点调查
重点调查是对数据收集对象总体中的部分重点个体进行观测的统计调查方式。
特点: 以客观原则来确定观测单位;
属于范围较小的全面调查。
关键是选择重点单位 确定最低标志值
确定最低重点单位累计标志值比重
4、统计推算
统计推算的概念和特点;统计推算方法。统计推算是以已掌握的各种统计数据为基础,根据事物之间的内在联系或发展规律,对被研究现象数量特征做出估算或测算的一种间接统计调查方式; 例如插值法、平均值估计法等。
(二)实验方式
含义:所谓实验方式,就是运用自然科学的试验法,通过观测人为安排条件下试验产生的各种结果并加以记录的方式来获取数据,或通过人为安排条件下的试验来探求某个或某些因素对所研究事物的数量影响程度和作用方式,凭借实验结果来揭示所考察因素与所研究事物之间的数量因果关系。
原则:均衡分 原则;整齐可比性原则
常用的实验设计:(1)完全随机试验
(2)随机区组试验
(3)拉丁方试验
(4)正交试验
(三)数据收集误差
数据收集误差存在两种误差:观测性误差和 性误差。
观测性误差也叫登记性误差或调查性误差,在全面调查和非全面调查中都会产生,是一种非一致性误差; 性误差是指在抽样调查中,因样本不能完全代表总体而产生,又分为系统性代表性误差和偶然性代表性误差两种。
四、统计数据收集方法
统计数据收集方法,是指获取被调查对象数据的渠道或途径,常用的方法有直接观察法、通讯法、采访法、登记法等几种。
五、问卷设计
问卷是依据统 究目的和要求,按照一定的理论假设设计出来的、由一系列问题、项目、备选答案及说明所组成的、向被调查者搜集资料的一种工具。
问卷一般由引言、被调查者基本情况、问题和答案、结语四个部分组成。设计时应考虑三个方面问题:问题的编排顺序;提问方式和措辞要点;问卷调查说明等。
引言和注释 (WWH三原则)
首先 要说明调查者的身份(who)
其次 要说明调查的大致内容和进行这项调查的目的(why)
最后 要说明调查对 选取方法和对 调查结果保密的措施(how)
问题设计的原则
1、所列问题必须符合客观实际情况
2、问题不能太多
3、问题必须是被调查者有能力回答的
4、不要直接提社会上禁忌的和敏感性的问题
5、问题不能带有诱导性
6、问题的内容要具体、单一
7、问题的语言要简单易懂、标准规范
8、问题的排列要讲究逻辑性
第二节 统计数据的整理
一、统计整理的含义与要求
统计整理的含义:统计资料整理是根据统 究的目的,按照统计整理方案的要求,对统计调查所得到的大量的原始资料进行科学的加工、汇总、或对已经加工过的资料进行再加工,使之系统化、条理化、成为能够反映总体特征的综合资料的工作过程
1)依据:研究目的;
2)内容:原始资料、次级资料;
3)目的:反映个体的资料转化为反映总体的资料。
4)意义:调查的继续,分析的基础。
要求:
科学性、条理性和充分性。
二、统计整理的内容和步骤
分组、汇总、编表(图),其中汇总是中心内容:
①根据研究任 要求,选择应整理的指标,并根据分析的需要 具体的分组。
②对统计资料进行汇总, 。
③ 使用统计图表描述汇总计算的结果。
统计整理的步骤:
①设计整理方案
计资料的审核
③进行科学的统计分组
计汇总
⑤编制统计图表
??三、统计分组
?????? (一)含义与性质
统计分组是根据事物内在的特点和统 究的任务,按一定的标志,将统计总体划分为若干个不同的类型或部分(组)的一种统计方法。分组之后应保持组内资料的同质性和组间资料的差异性。
统计分组的关键——选择分组标志。
(二)统计分组的种类
a.)???? 按分组标志性质分:品质标志分组和数量标志分组
b.)?? 按分组标志多少:简单分组和复合分组。
??四、分布数列
(一)分布数列的概念和种类
1.分布数列的概念:在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分布数列,也称为统计分布或次数分布。
分布数列的组成要素:总体按某标志所分的组(组别)和分配在各组的单位数(频数)及各组单位数占总体单体数的比重(频率)
2.分布数列的种类
a)品质数列 ;
b)变量数列: 单项数列
组距数列 等距数列
?????????????????????? ?????????????????????? 异距数列
3.分布数列的构成: a.)组别; b.)分配在各组的单位数。
(二)分布数列的编制
1、单项数列
a)概念——单一变量值为一组;
b)适用范围:变动范围不大的离 量和取整数的连续变量。
c)编制步骤: 组数 ; 把总体单位分配在相应各组。
2、组距数列
a)?? 概念——以区间表示一个组;
b)??适用范围:连续变量、变动范围大的离 量;
c) 步骤: 组距、组数;确定等距或异距;确定组限;算组中值。.
3、组距数列编制中应该注意的问题
a)???? 组距和组数:组距的概念;组数的概念;关系
b)?? 组限的 :组限的概念、 的方法、 的原则;
c)?? 等距数列或异距数列的选择
消除不可比因素的方法:次数密度
d.)?? 组中值计算:作用、计算条件、计算方法、注意问题:开
(三)频率分布
1.频率分布的性质:频率在0到1之间;各频率之和等于1
2.频率分布图:
3.累计频率的 :
a)???? 累计频率的概念:累计频数和累计频率;累计频率 的方法;
b)?? 向上累计和向下累计
向上累计是将各组频数(率)曲线标志值低的组向标志值高的组依次累计,说明至某组上限以下的各组频数(率)累计分布状况。
向下累计是将各组频数(率)由标志高的组向标志值低的组依次累计,说明至某组下限以上各组频数(率)累计分布状况。
?? 第四节 统计图表
一、???????? 统计表
(一)概念
经过汇总,得到一系列总量指标的数字资料,把这些数字按一定的逻辑顺序在表格上表现出来,这种表称为统计表。广义上看,任何用以反映统计资料的表格都是统计表。统计表是表现统计资料的最常用的形式,也是统计分析的重要工具。
(二)结构
统计表的结构从外表形式看,由总标题、横行标题和纵栏标题、指标数值等部分构成。1、从内容看:主词、宾词
2、从形式看:总标题、横行标题、纵栏标题、指标
(三)种类
简单表——未分组资料;
分组表——按一个标志分组;
复合表——两个以上标志并层叠分组。
??二、统计图
1.直方图:用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布。
2.折线图:折线图也称频数多边形图(Frequency polygon),是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉,折线图的两个终点要与横轴相交。
3.曲线图:U型分布是一种刚好与钟型分布相反的分布,其标准是越靠近中心变量值,分布次数越少;越远离中心变量值则分布次数越多。形成“中间小,两头大”的分布特征。象英文的“U”字。J型分布的特征有正反两种情况,一种是次数随变量的增大而逐渐增多,称为正J形分布;若次数随变量值的增大反而减少,则称为反J型分布,象英文的“J”字。
4.茎叶图和箱形图的含义和编制方法。
A.用于显示未分组的原始数据的分布
B.由“茎”和“叶”两部分构成,其图形是由数字组成的
C.以该组数据的高位数值作树茎,低位数字作树叶
D.对于n(20≤n≤300)个数据,茎叶图最大行数不超过
L = [ 10 × log 10 n ]
E.茎叶图类似于横置的直方图,但又有区别
直方图可大体上看出一组数据的分布状况,但没有给出具体的数值
茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
5.雷达图:先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示。再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图。
第三章 变量分布特征的描述
第一节 集中趋势的描述
学习要求:
①理 量分布三大特征即集中趋势、离中趋势和分布形状的的含义;
均指标、离 标和形状指标的意义与作用;
③熟练掌握各种平均数的计算方法并加以 '的应用,科学理解加权平均数中权数的意义, '认识算术平均数与调和平均数之间的应用关系,以及算术平均数、中位数和众数三者之间的数量关系;
练掌握各种离 标的 方法并加以正确的应用,尤其是要深刻理 差、标准差和离 数的内涵;
⑤熟练掌握偏度系数和峰度系数的计算方法并加以 '的应用,尤其是要了解动差的含义。
变量分布特征可以从以下三个方面加以描述:
集中趋势:反映变量分布中各变量值向中心值靠拢的程度;
离中趋势:反映变量分布中各变量值远离中心值的程度;
分布形状:反映变量分布的偏斜程度和尖 度。
一、集中趋势与平均指标
集中趋势亦称为趋中性,是指变量分布以某一数值为中心的倾向。用平均指标来反映,
平均指标的种类。
平均指标主要用来表明同质总体中某一标志值,在一定时间、地点条件下所达到的一般水平。其数值表现平均数。
数值平均数:从总体各单位变量值中抽象出具有一般水平的量,这个量是根据各个单位的具体标志值计算出来的,有算术平均数、调和平均数、几何平均数等形式。
数值平均数包括:
算术平均数:简单算术平均 加权算术平均
调和平均数:简单调和平均 加权调和平均
几何平均数:简单几和平均 加权几和平均
位置平均数:先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平。位置平均数有众数、中位数、四分位数等形式
位置平均数包括:众数 中位数 分位数
平均指标的作用:
(1)通过反映变量分布的一般水平,帮助人们对研究现 一般数量特征有一个客观的认识。
(2)利用平均指标可以对不同空间的发展水平进行比较。
(3)利用平均指标可以对某一现象总体在不同时间上的发展水平进行比较,以说明这种现象发展变化的趋势或规律性。
(4)利用平均指标可以分析现象之间的依存关系或进行数量上的推算。
(5)平均指标还可以作为研究和评价事物的一种数量标准或参考。
??二、数值平均数
(一)算术平均数
算术平均数一般就称为平均数(mean)。其定义是:观察值的总和除以观察值个数的商。
在实际工作中,由于所掌握的统计资料的不同,利用上述公式进行计算时,可分为简单算术平均数和加权算术平均数两种。
1、基本计算公式:总体标志总量/总体单位总数
2、简单算术平均数:简单算术平均数的公式根据未经分组整理的原始数据 的均值。设一组数据为x1,x2,x3,…xn。则简单算术平均数的计算公式如下:
1)计算公式:
??
(2)适用范围:末分组资料。
3、加权算术平均数:根据分组整理的数据 的算术平均数
(1)计算公式:
??
??
(2)说明:
在组距数列中x用组中值 ;影响因素:标志值、权数。
(3)适用范围:分组资料中已知分母加总资料。
(4)注意问题——权数及权数的作用
---算术平均数的大小,不仅取决于研究对象的变量值(x),而且受各变量值重复出现的频数(f)或频率 (f/∑f)大小的影响,频数或频率较大,该组数据的大小对算术平均数的影响就大,反之则小。
4、算术平均数的数学性质
(1)各变量值与其算术平均数的离差之和等于零.
(2)各变量值与其算术平均数的离差平方和最小.
(3)两个独立的同性质变量 和的平均数等于各变量平均数的 和.
(4)两个独立的同性质变量乘积的平均数等于各变量平均数的乘积.
5、算术平均数的优缺点: 优点: a.)可推算总体标志总量;
b.)便于 运算;
c.)抽样中具有良好稳定性。
缺点:a.)受极端值的影响大;
b.)组距数列中有较大假设性。
(二)调和平均数
1.问题的提出
例:市场上苹果的价格有三种:3元/斤;2.4元/斤;1.2元/斤,现有两种可供选择的方案:甲各买30元或乙各买15斤,问选择何方案为优?
2.调和平均数的概念
(1)??概念:标志值倒数的算术平均数的倒数。调和平均数是变量值倒数的算术平均数的倒数。又称倒数平均数。调和平均通常是作为算术平均数的变形来使用的。但一些特殊的领域,如综合评价,调和平均却是一种独立的统计平均数,有着特定的应用价值。
(2)??特点:a.)常作为算术平均数的变形
b.)标志值中有数据为零时无法 。
(3)简单调和平均数
??
适用范围:末分组资料。
(4)加权调和平均数
实质:加权算术平均数的变形。调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。只要有一个变量值为零,就不能计算调和平均数。当组距数列有开 时,其组中值即使按相邻组距 了,假定性也很大,这时,调和平均数的 性就很不可靠。调和平均数应用的范围较小。
适用范围:分组资料已知基本公式分子加总资料。
(三)由相对数或平均数计算平均数
基本步骤:1.)写出基本公式;
2.)确定 公式;
3.)具体 。
(四)几和平均数
几何平均数也称几何均值,它是n个变量值乘积的n次方根。
适用对象:现 总比率是若干项变量的乘积,或现象的总发展速度是各时期发展速度的连乘积时, 平均比率或平均发展速度。
1、简单几和平均数:直接将n项变量连乘,对其连乘积开n次方根所得的平均数即为简单几何平均数。
??
适用范围:资料末分组,变量值互相影响。
2、加权几和平均数:与算术平均数一样,当资料中的某些变量值重复出现时,相应地,简单几何平均数就变成了加权几何平均数。
??
适用范围:分组资料,变量值互相影响。
几何平均数特点:
(1)受极端值的影响较算术平均数小。
(2)如果变量值有负值, 出的几何平均数就会成为负数或虚数。
(3)仅适用于具有等比或近似等比关系的数据。
(4)其对数是各变量值对数的算术平均数
(五)算术平均数、调和平均数、几和平均数的数学关系
同一资料 结果:x≥G≥H
三、位置平均数
位置平均数,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的 性,因此,常用来反映分布的集中趋势。常用的众数、中位数。
(一)中位数
1、中位数的概念:总体单位按某一标志值排队后中间位置的标志值。中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。
2、中位数的计算
确定中位数,必须将总体各单位的标志值按大小顺序排列,最好是编制出变量数列。这里有两种情况:
(1)末分组资料中位数的
基本步骤:1)将总体单位按某一标志进行排队 ;
2)确定中数的位置:(n+1)/2
3)中间位置上的 标志值即为中位数。
(2)分组资料中位数的计算
基本步骤:1.) 累计频数(向上累计频数或向下累计频数);
2.)确定中位数的位置:∑f/2
3.) 单项数列:该组的标志值即为中位数 ;
组距数列,根据上下限公式 中位数。
??
??
(3)中位数的特点:中位数是以它在所有标志值中所处的位置确定的全体单位标志值的 值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的 性。有些离 变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。3)缺乏敏感性。
(二)分位数
1、概念
将变量的数值按大小顺序排列并等分为若干部分后,处于等分点位置的数值。常用的分位数有四分位数、十分位数和百分位数。
,和分别表示第一个、第二个和第三个四分位数,则他们的位置分别为:,和,根据位置即可确定各个四分位数。
(三)众数
1、众数的概念:众数是指总体中出现次数最多的 标志值。用Mo表示。它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。众数也不受数列中极端变量值的影响,它可反映总体各单位某一标志值的集中趋势。
2、末分组资料众数的计算:直接根据众数概念(单项数列同)。
?? 3、分组资料众数的 :
a.)确定众数组;
b.)根据上下限公式计算众数的具体数值。
??
??
??
4.众数的特点
众数不受分布数列的极大或极小值的影响;当分组数列没有任何一组的次数占多数,而是近似于均匀分布时,则该次数分配数列无众数。若将无众数的分布数列重新分组或各组频数依序合并,又会使分配数列再现出明显的集中趋势。如果与众数组相比邻的上下两组的次数相等,则众数组的组中值就是众数值;如果与众数组比邻的上一组的次数较多,而下一组的次数较少,则众数在众数组内会偏向该组下限;如果与众数组比邻的上一组的次数较少,而下一组的次数较多,则众数在众数组内会偏向该组上限。缺乏敏感性。这是由于众数的 只利用了众数组的数据信息,不象数值平均数 利用了全部数据信息。
(四)中位数、众数、算术平均数的关系
在对称分布(即正态)时:
在右偏时 :
在左偏时 :
适度偏态时 :
第二节 ??离中趋势的描述
一、离中趋势和离散指标
离中趋势,就是变量分布中各变量值背离中心值的倾向。如果说集中趋势是总体或变量分布同质性的体现,那么离中趋势就是总体或变量分布变异性的体现 。离 标就是反映变量值变动范围和差异程度的指标,即反映变量分布中各变量值远离中心值或 值程度的指标,亦称为变异指标或标志变动度指标。离 标是衡量平均指标 性的尺度。一般来讲,数据分布越分 变异指标越大,平均指标的 性越小;数据分布越集中,变异指标越小,平均指标的 性越大。
常用的离 标主要有:全距(亦称极差)、四分位差、异众比率、平均差、标准差、离 数等。离 标的作用:用离散指标衡量和比较平均指标的 性。用离散指标反映经济活动过程的均衡性、稳定性和节奏性。离 标为统计推断提供依据。
二、离 标的测度
(一)全距
1、概念:总体各单位标志值中最大标志值与最小标志值之差。
=-
2、特点:(1)简明;(2)只反映变异范围;(3)只受两个数值影响;最容易受极端值影响。没有反映中间数值的影响,没有反映分布情况。
(二)四分位差
四分位差是四分位数中第一个四分位数与第三个四分位数之差,也称为内距或四分间距,通常用表示,即:
通常与中位数相结合,用以表明变量分布中间50%数值的离散程度,
(三)异众比率
异众比率是分布数列中非众数组的频数与总频数之比,通常用来表示,即:
其中为众数组的频数。
通常与众数相结合,用以表明众数代表性的高低。
(四)平均差
1、概念:总体各单位标志值与其算术平均数的离差绝对值的算术平均数。特点:(1)反映了全部标志值的变动情况;(2)受平均数水平高低、计量单位(不同性质的现象)影响;(3)取绝对值的方法消除离差 号,不便于代数处理。
2、平均差的计算:
??
优点:利用了全部数据信息,能比较客观反映变量分布的离 度。
不足:取了绝对值,因而数学处理不是很方便,数学性质也不是最优,应用上受到了一些限制。
(五)方差和标准差
1、概念
方差是变量的各变量值与其均值的离差平方的算术平均数,标准差则是方差的平方根。方差和标准差是测度变量分布离散程度最重要的指标。
2、方差的 公式为:
(根据未分组数据)
(根据变量数列)
标准差的 公式为:
(根据未分组数据)
(根据变量数列)
优点:方差和标准差利用了全部数据信息,因而能准 映变量分布的离 度。尤其是标准差与平均差相比,不仅具有平均差的优点,而且弥补了平均差的不足,再加上标准差的计量单位与变量相同,意义比方差明 所以标准差在实践中得到了广泛的应用。
说明:一是根据组距式数列 的方差和标准差只是一个近似值;二是在根据样本数据(甚至是有限总体数据)计算方差和标准差时,分母应该是(),但当很大时,可以忽略与之间的区别。
3、方差和标准差的性质
(1)常数的方差为0。
(2)若,为常数,则的方差与的方差之间的关系为:
(3)标准差是计算标准化值的依据。假设变量的标准化统计量用表示,标准化值用表示,则
服从均值为0、标准差为1的标准正态分布。也叫标准得分或标准统计值。
(六)离 数
为了不同变量分布之间离散程度的可比性,就必须消除不同均值水平和不同计量单位的影响,就应该计算相对离 标。
相对离散指标也叫离散系数变异系数或标准差系数,是变量的标准差与均值之比,通常用来表示,即:
Vσ和Vs分别表示总体离散系数和样本离 数。离 数要是用于对不同组别数据的离 度进行比较,离散系数越大,说明变量分布的离散程度越强,平均数的代表性越差。
三、是非标志的平均数和标准差
是非标志,又称交替标志,它是用“是” “否”或“有”“无”来表示的。由于是非标志只有两个标志表现,使得研究问题大为简化。
常用1表示具有某种标志表现,其单位数用N1表示,用0表示不具有某种标志表现,其单位数用N0表示,全部总体单位数用N表示。这两部分单位数(N1和N0)在总体单位数(N)中所占的比例,即 “是”或“非”的单位数在全体单位数中所占比例,称为“成数”,分别记为p和q。
1、是非标志的概念:品质标志中能用1或0进行描述的标志。
2、成数:总体中标志值为1或标志值为0 的单位数(N1和N0)占总体单位总数(N)的比重,用P或Q表示。
其中: P=N1/N ; Q=N0/N ; P+Q=1
3、是非标志的平均数:是非标志的平均数=P
4、是非标志的标准差:
5. 是非标志的标准差系数:
例1:某批产品共500件,其中合格品480件,不合格品20件,要求 成数、标准差和标准差系数。
P=480/500=96%
Q=20/500=4%
标准差:(96%*4%)^0.5=19.6%
标准差系数:19.6%/96%=0.2041
第三节 分布形状的描述
一、分布形状和形状指标
变量分布的形状要用形状指标来反映。形状指标就是反映变量分布具体形状,即左右是否对称、偏斜程度与陡峭程度如何的指标。
反映变量分布偏斜程度的指标,称为偏度系数;
反映变量分布陡峭程度的指标,称为峰度系数。
二、偏度系数
偏度指变量分布偏斜的方向及其程度。偏度系数来实现的,通常用来表示。
偏度系数的计算主要有以下三种方法:
1、利用算术平均数与众数或中位数的离差 =
一般情况下,偏度系数的变动范围为(-3,3)。当>0时,为正值,变量分布属于 ;当<0时,为负值,变量分布属于负偏;当=0,变量分布属于无偏(即对称分布)。的绝对值越接近于3,表明变量分布的偏斜程度越严重;的绝对值越接近于0,表明变量分布的偏斜程度越轻微。
2、利用四分位数计算=
偏度系数的取值范围为(-1,1)。偏度系数的绝对值越接近于1,表明变量分布的偏斜程度越严重;偏度系数的绝对值越接近于0,表明变量分布的偏斜程度越轻微。
3、利用动差法
若>0,表示变量分布正偏;若<0,表示变量分布负偏;若=0,表示变量分布两边对称,无偏。的绝对值越接近0,表示变量分布的偏度越轻微;的绝对值越大于0,表示变量分布的偏度越严重;
三、峰度系数
1、概念
峰度的概念首先由统计学家皮尔逊于1905年提出,是对变量分布扁平性或尖陡性的测度,峰度通常是指钟型分布的顶峰与标准 分布相比偏扁平或偏尖陡的程度。分为三种情况:标准 峰度、尖顶峰度和平顶峰度。峰度系数通常用来表示。
2、峰度系数的
主要采用动差法 ,当=3时,变量分布的峰度为标准 峰度;当<3时,变量分布的峰度为平顶峰度;当>3时,变量分布的峰度为尖顶峰度。
峰度系数的标准值为3。当k=3时,变量分布的峰度为标准 峰度;当k<3时,变量分布的峰度为平顶峰度;当k>3时,变量分布的峰度为尖顶峰度。
更进一步,当值接近于1.8时,变量分布曲线就趋向于一条水平线,表示各组分配的频数接近于相同。当值小于1.8时,则变量分布曲线为“U”型曲线,表示变量分布的频数分配是“中间少,两头多”。
第四章 抽样估计
学习要求:明确抽样推断的含义、特点和作用。了 关的基本概念,重点掌握抽样误差的含义、影响因素及其计算。了 样估 基本方法和步骤;抽样方案设计的基本原则。全面掌 单随机抽样的平均误差 方法和样本容量 方式,了解其它各种抽样组织方式的含义及平均误差的计算。
第一节 抽样分布
一、抽样分布的基本问题
抽样估计是以样本观测结果去估计未知的总体数量特征。
(一)总体分布及其特征
总体分布就是总体中所有个体关于某个变量(标志)的取值所形成的分布。反映总体分布特征的指标叫总体参数,一般用来表示。
对于特定的总体,总体参数值是唯一的。
对于无限总体和非全面调查的有限总体,总体参数的值通常未知,只能通过样本来估计。
常用的总体参数有两个 :
总体均值(包括是非变量的均值);
;
总体方差或标准差(包括是非变量的方差或标准差)。
;
(二)样本分布及其特征
样本分布就是样本中所有个体关于某个变量(标志)的取值所形成的分布。反映样本分特征的指标叫样本统计量,通常用来表示。
常见的样本统计量:样本均值和样本方差
;
;
样本统计量反映样本分特征的指标(T)。样本统计量是随机变量,它的取值随样本的不同而发生变化。是样本统计量的值,由样本单位的标志值计算而来,用来估计总体参数。
抽样估计就是以可知但非唯一的样本统计量的值来估计未知但唯一的总体参数的值。
样本容量是指一个样本所包含的单位数。通常将样本单位数不少于30个的样本称为大样本,不及30个的称为小样本。随着样本容量的增大,样本对总体的代表性越来越高,样本值接近总体值。
样本个数又称样本可能数目,指从一个总体中可能抽取的样本的数量。 一个总体有多少样本,则样本统计量就有多少种取值,从而形成该统计量的分布,此分布是抽样推断的基础。
(三)抽样分布及其特征
1.抽样分布的概念及影响因素
抽样分布就是样本统计量的概率分布,它由样本统计量的所有可能取值和与之对应的概率所组成。
取决于以下五个因素:
总体分布、样本容量、抽样方法 、抽样组织形式、估计量构造
2.抽样分布形式
样本均值抽样分布形式
…
…
样本成数抽样分布形式
…
…
图 :样本均值抽样分布的形式
3.抽样分布特征??
样本统计量的数学期望:
样本统计量的方差:
样本均值抽样分布的期望值(均值): 在重复或不重复抽样下,都等于总体均值
样本均值抽样分布的方差: 重复抽样方差大于不重复抽样
;
样本成数的抽样分布具有相同的结论。
在重复或不重复抽样下,样本成数的均值都等于总体成数:
样本成数抽样分布的方差: 重复抽样方差大于不重复抽样
;
在各种抽样方法和抽样组织方式下,样本统计量的数学期望都等于总体参数。
抽样分布的特征主要通过方差来体现。
抽样分布越集中、样本统计量的方差越小,则样本统计值越可能接近总体参数真值,抽样估计的误差越小、估 果就越精确。
举例证明,在简单随机抽样下,样本均值的数学期望为总体均值,样本成数的数学期望为总体成数,不重复抽样的方差小于重复抽样。
在各种抽样方法和抽样组织形式下,样本统计量的数学期望都等于总体参数,抽样分布的特征主要是通过抽样分布的方差来体现的。
二、常用的抽样分布定理(自学)
1. 分布的再生定理
若总体服从 分布,则样本均值也服从 分布。
2.中心极限定理
任一总体(不要求 ),期望值,方差,当样本容量n足够大(当n>30,大样本),均值趋于服从正态分布
比例也是一样:
E(p)=P
第二节 抽样误差
一、抽样中的误差构成
抽样中的总误差可以简单地分为两类(暂不考虑估计量偏差时),一类是抽样误差,一类非抽样误差。
总误差
非抽样误差
抽样误差
抽样误差是由于抽样的非全面性和随机性所引起的偶然性误差,非抽样误差是由随机抽样的偶然性因素以外的原因所引起的误差。
随机抽样的偶然性因素以外的原因所引起的误差;系统性代表性误差是由于抽样框(用以抽取样本的名录)不完善、抽样时违反随机原则、被调查者无回答等因素引起的误差。观测性误差(登记性误差、调查性误差)是在调查观测的各个环节因工作粗心或被观测者不愿很好配合而造成的所收集数据与实际情况不符的误差。
二、抽样误差的表现形式
(一)抽样实际误差
抽样实际误差是指样本估计值与总体参数值之间的离差,表示为。是随机变量。
(二)抽样标准误
抽样标准误就是抽样分布方差的平方根,即抽样分布的标准差或样本统计量的标准差,表示为=。通过抽样标准误可以 抽样分布的离散程度,反映样本统计量 性的高低。抽样标准误能 抽样误差大小的一般水平。
抽样标准误是反映抽样误差一般水平的指标,它的实质含义是指样本统计量抽样分布的标准差。它能够反映抽样指标与总体指标的平均离 度,也能够说样本指标 性的大小。抽样标准差越大(小),表明抽样分布越离 集中),样本指标对总体指标的代表性越差(好)。
总体均值估计量(样本均值)的抽样标准误差:
重复抽样:;
不重复抽样:
总体成数估计量(样本成数)的抽样标准误差:
重复抽样:
不重复抽样:
(三)抽样极限误差
抽样极限误差是指以样本估计总体所允许的最大误差范围,。
抽样极限误差实际上就是对估计量可允许取的最高值或最低值进行了限制。
它取决于两个因素 抽样标准误,
抽样估计概率保证程度(置信水平):
抽样极限误差、抽样标准误和抽样概率保证程度三者关系:= 。其中,=称为抽样概率度。
当显著性水平为时的标准 分布的双侧临界值,概率保证程度的高低变化正好可以通过的大小变化来反映。
第三节 参数估计方法
一、估计量的评价标准
所谓估计量就是以样本指标为基础构造的、用以估计总体指标的规则或形式,是抽样估计必不可少的因素。估计量根据某一样本得到的具体结果称为估计值。
评价估计量好坏的标准有四个:
无偏性:
指样本指标的均值应等于被估 总体指标
有效性:。
优良估计量的抽样分布方差小于其他估计量的方差
一致性:随着样本容量的增大,估计量的值趋近总体参数的真值
指随着样本单位数的增大,样本估计量的取值将在概率意义下趋近于总体参数真值
充分性:估计量提取样本中包含的有关总体参数的全部信息
为、 s2为S2 、为P的无偏、有效、一致估计量(证明略)。
二、参数估计方法
参数估计的方法有两种:点估计与区间估计。
(一)点估计
1.概念:
也称定值估计,就是以样本观测数据为依据,对总体参数做出确定值的估计,,,
2.优点:简单,具体明 能给出一个 值。
缺点:把 度不可知。不知道估计的可靠程度,仅适用于对推断的准确程度与可靠程度要求不高的情况
(二)区间估计
1.概念:
指用一个具有一定可靠程度的区间范围来估计总体参数
2.特点: a.)在一定概率把握下的估计;
b.)得到的估计值不是 值;
c.)只是一个可能区间;
d.)区间的宽度可以调整
3.要求:
一定的置信度和精
抽样估计精度=1-误差率=1-⊿x/x=1-⊿p/p
各种抽样组织形式的参数估计
一、简单随机抽样
从总体全部单位中直接按随机原则抽取样本单位,使每个单位都有同等机会被抽中。简单随机抽样是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式
(一)总体均值的估计
1.总体均值的估计量为:
2.抽样标准误为: (重复抽样时)
(不重复抽样时)
其中,称为抽样比。称为有限总体校正系数。
总体方差未知时要以样本方差来估计,就变成了。
;
3.抽样极限误差:
4.总体参数的置信区间:
(二)总体成数的估计
1.总体成数的估计量为:
2.抽样标准误为: (重复抽样时)
(不重复抽样时)
当总体方差未知时,要以样本方差来估计。
3.抽样极限误差:
4.总体参数的置信区间:
(三)样本容量的确定
样本容量的大小受总体分布(内在差异程度)、对抽样精度和可靠程度的要求、抽样方法及调查经费等因素的影响。在不考虑调查经费时,简单随机抽样的样本容量可由以下公式确定:
或
其中和分别表示重复抽样和不重复抽样下所需的样本容量。在抽样要求相同情况下,>。
第五章 相关与回归分析
第一节???????????????????????? 相关分析的基本问题
一、相关关系与函数关系
(一)函数关系
是指现象之间存在的 性的数量依存关系。
(二)相关关系
是指现象之间存在的非确定性的数量依存关系。
(三)相关关系与函数关系的区别与联系
二、相关关系的种类
(一)按影响因素多少
a.) 单相关:两变量间相关。
b.)复相关:多个变量间相关。
(二)按影响因素的表现方式
a.)线性相关:变量间呈线性关系。
b.)非线性相关:变量间呈曲线关系。
(三)按相关的方向
a.)?? 关:变量间同增同减
b.)负相关:变量间此增彼减。
(四)按相关的程度
a.) 完全相关:某一变量的变化完全由其它变量的变化决定。
b.) 不完全相关:某一变量的变化不完全由其它变量变化决定。
c.) 不相关:某变量的变化不受其它变量变化的影响。
三、相关分析的主要内容
??
第二节 相关关系的测度
一、相关关系的判断
(一)定性判断:根据经济理论和现象性质直接判断。
(二)相关表进行判断:
简单相关表(未分组资料);
分组相关表(分组资料,包括单变量相关表和双变量相关表)。
(三)相关图判断:散点图。
二、相关系数的测定
相关系数是测定两个变量间相关关系密切程度的综合指标。
(一)直线相关系数的 :
1.积差法: ??
??
2.简捷法:
3.利用分组资料计算相关系数
或
4.直线相关系数r的统计检验
5.皮尔逊直线相关系数r的取值含义
(1)r的取值在-1和+1之间,即。
(2)表示 关,表示负相关。
(3) 越接近于1,表示相关密切程度越强,越接近于0,表示相关密切程度越弱,当时,就表示变量之间为完全相关。则表示完全不相关。
(4) 经验判断:相关系数在0.3以下为无相关,0.3~0.5为低度相关,0.5~0.8为中度相关,0.8以上是高度相关。
(5)皮尔逊直线相关系数是一种线性(直线)相关程度的度量
(三)等级相关系数的测定方法
1、斯皮尔曼(Spearman)相关系数
2、肯德尔(Kendall)等级相关系数
第三节 回归分析的基本问题
一、回归分析的概念
二、回归分析的主要内容
1. 自变量和因变量;
2. 回归模型;
3.对回归模型进行评价;
4.根据自变量的值推算因变量的值。
三、回归分析的特点
1.变量有自变量和因变量之分;
2.对没有明显因果关系可同时建立两个回归方程;
3.根据回归方程只能计算出估计值;
4.回归系数及其符号;
5.只有因变量为随机变量。
四、回归分析的种类
1.简单回归和多元回归
a.)简单回归:一个自变量和一个因变量间的回;
b.)多元回归:一个因变量和多个自变量间的回归。
2.线性回归和非线性回归
a.)线性回归:变量间呈线性相关关系;
b.)非线回相关:变量间呈非线性相关
????
第四节 回归分析的模型
一、简单线性回归分析
(一)简单线性回归模型
理论模型: 估计模型:
、为回归参数或待定系数,a、b为相应的估计值。a是直线的截距,b是直线的斜率。
模型参数的经济含义:
y:均值;
a:自变量为零时,因变量的平均水平;
b:自变量每变化一个单位时因变量平均变化的绝对量。
(二)参数估计方法:最小平方法。
??
(三)回归估计标准误
(四)回归方程判定系数
1.离差平方和的分 总离差=回归离差+剩余离差
总变差=回归变差+剩余变差
判定系数 公式:
??
经济含义:回归方差占总方差的比重。
(五)回归方程的统计检验
1、模型整体拟合效果的显著性检验
2、模型参数显著性的检验
(六)因变量的置信区间估计
置信区间的公式为:
二、多元线性回归模型(略)
三、非线性回归模型(略)
第六章??????????时间数列分析
??
第一节???? 时间数列的基本问题
一、时间数列的含义
(一)含义
(二)构成要素: a.)研究对象所属时间;
b.)研究对象在相应时间的水平值。
(三)时间数列分析的意义
二、时间数列的种类
(一)总量指标时间数列
总量指标按时间先后顺序排列成的数列。
1、时期数列
特点是:
(1)数列中不同时间的指标数值可以累计。
(2)指标值的大小和时期长短有直接关系。一般来说,时期越长,数值越大。
(3)指标值一般是通过连续登记获取的。
2、时点数列
特点是:
(1)数列中不同时点上数值不可以累计(或相加没有意义)。
(2)指标数值的大小和时间长短无直接关系。
(3)时点指标的数值一般是通过不连续登记取得的。
(二)相对指标时间数列
相对指标按时间先后顺序排列成的数列。不具有直接可加性。
(三)平均指标时间数列
平均指标按时间先后顺序排列成的数列。在时间上不具有可加性。
三、时间数列的影响因素
(一)长期趋势
较长时间内对社会经济现象起决定性作用的因素。
(二)季节变动
一年内随着时间变动出现的有规律的周期性变动。
(三)循环变动
与季节变动的区别。
(四)不规则变动
由于偶然因素和意外条件引起的随机变动。
(五)时间数列的分析模型
加法模型和乘法模型,适用范围。
四、时间数列的编制原则—— 一致性
时间上的一致性:
总体范围和经济内容的一致性
方法的一致性。
第二节 时间数列的水平分析
水平分析指标:发展水平、平均发展水平、增长水平、平均增长水平
一、发展水平指标
社会经济现象实际达到的水平。
注意问题:最初水平和最末水平;文字描述。
二、平均发展水平指标
(一)绝对指标平均发展水平的
时期数列:
连续时点数列
间隔相等: 间隔不相等:
不连续时点数列
间隔相等: 间隔不相等
???? (二)相对数和平均数序时平均数的
例一,某企业一 各月产量完成情况如下,求月平均计划完成程度。
??
1月
2月
3月
实际完成数:(件)
5100
6180
8640
计划任务数:(件)
5000
6000
8000
计划完成程度:(%)
102
103
108
例二,某地1997-2001年全民企业占企业总数的比重资料如下,求全民企业年平均所占比重。
??
97年
98年
99年
00年
01年
全民企业:个
8.2
8.4
8.4
8.34
8.42
企业总数:个
32.3
34.8
35.5
37.73
38.15
全民所占比重:%
25.4
24.0
23.7
22.1
22.1
例三,某商店二季度各月商品流转次数资料如下,求二 平均各月商品流转次数和二 总的商品流转次数。
??
3月
4月
5月
6月
7月
商品流转额:万元
180
200
300
420
250
商品库存:万元
80
100
120
150
160
1)库存为平均库存;2)库存期初库存;3)库存期末库存。
:两个时期指标计算的序时平均数
=
:两个时点指标计算的序时平均数
=
:一个时点指标和一个时期指标计算的序时平均数
1.)= (库存为平均数)
2.)= (库存为期初数)
3.)= (库存为期末数)
三、增长量指标
(一)概念:现象在一定时期内增加或减少的绝对数量。
(二)形式:逐期增长量、累计增长量、年距增长量(由于基期不同)。
关系(逐期与累计):
各逐期增长量之和等于相应的累计增长量
相邻两累计增长量之差等于相应的逐期增长量
年距增长量=报告期某月( 发展水平-上年同月( 发展水平
四、平均增长量指标:
各个逐期增长量的序时平均数。
?? 第三节 时间数列的速度分析
一、发展速度指标
(一)含义
反映现象变化的相对指标,用报告期水平除以基期水平。
(二)种类: 环比发展速度、定基发展速度、年距发展速度
关系(环比与定基):
各环比发展速度连乘积等于定基发展速度;
相邻两定基发展速度的商等于相应的环比发展速度。
??
??
二、增长速度指标
(一)含义
反映现象增长程度的相对指标,是报告期增长量与基期发展水平之比。等于发展速度减1。
(二)种类
环比增长速度
定基增长速度
年距增长速度=年距发展速度-100%
增长1%的绝对值:基期水平的1%
三、平均发展速度指标
(一)含义:各环比发展速度的序时平均数。
(二)计算方法:
1.水平法(几和平均法)
或
2.累计法(方程式法)
3.计算方法的比较
根据对象的性质和现 发展规律特点选择方法
四、平均增长速度
平均增长速度是说明现象在较长时期内逐期平均增长的相对程度。 平均增长速度=平均发展速度-100%??
??
?? 第四节 长期趋势的测定
一、移动平均法
移动平均是一种简单的修匀方法。它是对原有时间数列进行平均修匀,以削弱短期的偶然因素引起的变动影响,从而呈现时间数列的基本发展趋势。
二、数学模型法
(一)半数平均法
1.基本思路:把原时间数列分成相等的两部分,分别 这两部分的平均数,并与时间t组成两个座标点,并依此估计模型中两个参数。
2.适用范围:含有两个参数的趋势方程。
3.推广:把原时间数列分成相应的几个部分,并计算每一部分的平均数,并与时间t构成座标点,并依此估计模型中的多个参数既可。
(二)最小平方法
1.直线趋势:
2.参数估计
??
??
??
3.注意问题:
简捷公式:()
4.曲线趋势(略)
??
?? 第五节 变动的测定
一、按月平均法
(一)适用范围:时间数列中不包含明显的趋势变动。
(二)季节变动的测定指标:季节指数。
(三)计算步骤:
a.) 历年同月平均数;
b.) 总平均数;
c.)用月平均数除总平均数。
二、趋势剔除法
该法是先对原时间数列中的长期趋势进行剔除,再 比率。
第六节 循环变动的测定(略)
统计指数分析
第一节???????????????????????????? 统计指数的基本问题
一、统计指数的含义
广义的统计指数:所有的相对数。
狭义的统计指数:一种特定的相对数:报告期/基期
二、统计指数的作用
(一)综合反映不能直接相加的社会经济现象变动程度和变动方向。
(二)综合分析复杂总体各因素变动对总变动影响的总量和程度。
(三)研究平均指标变动中各因素指标的影响程度和影响效果。
三、统计指数的分类
(一)按研究对象的范围
1.个体指数:研究现象某一方面变动的统计指数。
如:销售量指数、价格指数。
2.总指数:研究复杂总体综合变动的统计指数。如:商品销售额指数等。
(二)按研究对象的数量特征分
1. 数量指标指数:研究总体规模、数量变动的指数。
2.质量指标指数:研究总体内涵上变动的指数。
(三)按 方法和公式分
1.综合指数:用综合方法对两个总量指标直接对比形成的指数。
2.平均数指数:用加权平均方法编制的指数。
3.平均指标指数:两个平均指标直接对比形成的指数。
四、统计指数的性质
(一)综合性
(二)平均性
(三)相对性
(四)代表性
???? 第二节???????????????????????????? 综合指数
一、综合指数的含义和特点
通过两个具有经济意义并紧密联系的总量指标对比求得的指数。
特点是:先综合,后对比。
二、综合指数的种类
(一)拉氏指数
把同度量因素的时间固定在基期。
数量指标指数:
质量指标指数:
特点是:由于同度量因素的时间固定在基期,因而能单纯反映指数化因素的变动情况;尤其是用于编制定基指数时,可以确保各期指数的权数相同,能够比较客观反映指数化因素较长时期的变化过程。
(二)派氏指数
把同度量因素的时间固定在报告期。
数量指标指数:
质量指标指数:
特点:一是在编制指数数列时,不同期指数不能直接进行对比。二是计算的综合指数并不能单纯反映指数化因素的总变动。
习惯上采用拉氏指数形式来编制数量指标指数,采用派氏指数形式来编制质量指标指数。
(三)费暄的理想指数
就是以拉氏指数与派氏指数的几何平均数来编制综合指数的一种形式。
数量指标指数:
质量指标指数:
(四)马—艾指数
以同度量因素的基期数值与报告期数值的简单算术平均数作为权数的一种综合指数形式。
(五)杨格指数
把同度量因素固定在报告期与基期以外的某个常态时期()、或以同度量因素的若干时期数值的平均数作为权数的一种综合指数形式。
三、综合指数的应用
(一)用于编制工业生产指数
(二)用于编制股票价格指数
第三节 平均指数
一、平均指数的含义及特点
是个体指数的加权平均数。
特点:先对比后平均。
步骤:a.) 个体指数;
b.)从个体指数出发,用加权算术平均或加权调和平均方法求总指数
二、平均指数的基本形式
(一)加权算术平均指数
个体指数的加权算术平均数
数量指标基期加权平均指数称为拉氏数量指标指数的变形。
(二)加权调和平均指数
个体指数的加权调和平均数
??质量指标报告期加权调和平均指数是派氏质量指标指数的变形。
三、平均指数的应用
(一)用于编制工业生产指数
(二)用于编制居民消费价格指数
第四节 平均指标指数
一、平均指标指数的概念
两个平均指标直接对比形成的统计指数。
实质:动态相对数。
反映总平均数变动程度的指数称为总平均指标指数;反映各组变量值水平变动对总平均数变动影响程度的指数称为固定构成指数;反映各组权数(结构)变动对总平均数变动影响程度的指数称为结构变动影响指数。
二、总平均指标指数
三、固定构成指数
假定各组权数(或)固定
??
四、结构变动影响指数
假定从基期到报告期的各组变量值水平保持不变
??
??
第五节 指数体系和因素分析
一、统计指数体系
(一)统计指数体系的含义
若干个统计指数形成的一个有机整体。
(二)构建统计指数体系的基本原则
1.指数体系中各指数必须是乘积关系;
2.必须同时包括数量指标指数、质量指标指数和总指数;
3.指数体系中同度量因素必须既包括基期、又包括报告期。
二、因素分析
(一)因素分析的意义
因素分析,就是利用统计指数体系中各个指数之间的数量联系关系,对现象总体总变动的各个影响因素进行分解,分析各因素变动对现象总体总变动的影响程度和绝对效果
(二)综合指数因素分析
综合指数因素分析就是要利用综合指数体系,对现象总体某种总量指标的变动原因进行分析。
1.两因素分析
相对数体系:即
绝对数体系:
2.多因素分析
相对数体系:即
绝对数体系:
(三)平均指标指数因素分析
- 概率与统计课程包括哪些方面的内容 > 课程名称:《统计学》 主讲人:何永达
-
课程名称:《统计学》 主讲人:何永达
下载该文档 文档格式:DOC 更新时间:2013-11-02 下载次数:0 点击次数:1
- 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
- DOC格式下载
- 更多文档...
-
上一篇:初中概率统计教学中随机观念的培养
下一篇:应用型高校《概率论与数理统计》课程教学体 系建设的探索与实践
点击查看更多关于概率与统计课程包括哪些方面的内容的相关文档
- 您可能感兴趣的
- 概率统计课程教案 概率统计精品课程 概率统计课程描述 概率统计简明教程 概率统计 应用概率统计 高中数学概率与统计 概率计算 艾滋病4周检测概率 概率的进一步认识
- 大家在找
-
- · 51单片机c语言ppt
- · 经济数学12
- · spss软件
- · 鸿门宴课件
- · 钢板弹簧式后悬架图片
- · 商洽代培文秘人员的函
- · 极品飞车10中文版下载
- · 哈工大附中朱晓华
- · 世纪金榜英语答案下载
- · 基于dsc的无刷直流电动机控制器——硬件设计
- · 苏州吴中人才市场招聘
- · 三峡大学金工实习
- · 技嘉ga880gmusb3l
- · 学前班大班语文试卷
- · www.beian.com
- · 政法干警申论历年真题
- · 电脑主板机箱接线图
- · 中南大学商学院qq群
- · 计算机网络及安全论文
- · dotaimba3.78c指令
- · 苏教版四年级上册数学竞赛题
- · 2012对口升学大纲
- · 考研政治真题下载word
- · 英语有声阅读mp3下载
- · 制冷压缩机工作原理
- · 常州热处理招聘
- · 高一通用技术课件
- · 雅马哈家庭影院音响
- · 2011保安考试题
- · 奔腾b50和b70油耗对比
- · 人力资源管理试卷
- · 达州市第一中学高91级
- · aggressive的反义词
- · 徐州矿大南湖校区
- · 产品手绘草图
- · 电焊招聘信息
- · 榆林58同城交友
- · 嵌入式linux下载
- · 剑桥少儿英语一级上册
- · 幼儿园的园本特色
- 赞助商链接