-
正态分布 编辑
正态分布(NOrmal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的“元误差” 之和,每只取两值,其概率都是1/2,由此出发,按棣莫弗的中心极限定理,立即就得出误差(近似地)服从正态分布。拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性) 为出发点。但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。拉普拉斯的理论把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。
为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。
若
服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)
一维正态分布
若随机变量
服从一个位置参数为 、尺度参数为 的概率分布,且其概率密度函数为则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作
,读作 服从 ,或 服从正态分布。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
本词条的正态分布是一维正态分布,此外多维正态分布参见“二维正态分布”。
标准正态分布
当
时,正态分布就成为标准正态分布
(1)如果
且a与b是实数,那么 (参见期望值和方差)。(2)如果
与 是统计独立的正态随机变量,那么:它们的和也满足正态分布
它们的差也满足正态分布
U与V两者是相互独立的。(要求X与Y的方差相等)。
(3)如果
和是独立正态随机变量,那么:它们的积XY服从概率密度函数为p的分布
其中是修正贝塞尔函数(modified Bessel funCTion)
它们的比符合柯西分布,满足
(4)如果
为独立标准正态随机变量,那么服从自由度为n的卡方分布。图形特征
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
参数含义
正态分布有两个参数,即期望(均数)μ和标准差σ,σ2为方差。
正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ2)。
μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
面积分布
正态函数的不定积分是一个非初等函数,称为误差函数。
实际上误差函数的导数是:
将正态函数换元,误差函数和“正态函数的积分”的关系是:
1、实际工作中,正态曲线下横轴上一定区间的面积(误差函数上下限之差)反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。
2、正态曲线下,要取到50%概率,横轴半区间长度为0.67448975σ(该值无法用初等方法求解,是由迭代法取得的近似值。)
横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
横轴区间(μ-2σ,μ+2σ)内的面积为95.449974%。
横轴区间(μ-3σ,μ+3σ)内的面积为99.730020%。
“小概率事件”和假设检验的基本思想: “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件不会发生,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。而对于产量更大,试验次数更多的大规模流水线产品,要达到“万无一失”(99.99%)就要取到4σ(99.9936%),而要达到更高的水平,则需要取5σ~6σ长度的半区间,此时误差大约是0.6ppm~0.002ppm,这是工业生产中提出的“六西格玛(6σ)”原则(管理学书籍中提及的六西格玛原则的要求是3.4ppm,这个概率值所对的分布大约在半区间长度4.5σ,这是考虑到系统误差造成的均值偏移μ=1.5σ的情况)。
一、正态分布的概念
由一般分布的频数表资料所绘制的直方图,图⑴可以看出,高峰位于中部,左右两侧大致对称。我们
正态分布研究图1
设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图⑶。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。
为了应用方便,常对正态分布变量X作变量变换。
该变换使原来的正态分布转化为标准正态分布(stanDArd normal distribution),亦称u分布。u被称为标准正态变量或标准正态离差(standard normal deviate)。
正态分布研究图2
正态分布研究图3
实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。
附表1
查附表1应注意:①表中曲线下面积为-∞到u的左侧累计面积;②当已知μ、σ和X时先按式u=(X-μ)/σ求得u值,再查表,当μ、σ未知且样本含量n足够大时,可用样本均数X1和标准差S分别代替μ和σ,按u=(X-X1)/S式求得u值,再查表;③曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,∞)的面积相等,④曲线下横轴上的总面积为100%或1。
图2 正态曲线与标准正态曲线的面积分布
正态分布的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。
正态分布面积图1
正态分布面积图2
一般正态分布与标准正态分布的区别与联系
正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。标准正态分布是正态分布的一种,其平均数和标准差都是固定的,平均数为0,标准差为1。
综述
1、估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。
2、制定参考值范围
(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。
3、质量控制:为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,以 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。
/4、正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。
频数分布
例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求X+-1s、X+-1.96s、X+-2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
本例,μ、σ未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分别代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表3。
表3 100名18岁男大学生身高的实际分布与理论分布
分布 x+-s | 身高范围(cm) | 实际分布 人数 | 实际分布 百分数(%) | 理论分布(%) |
X+-1s | 168.69~176.71 | 67 | 67.00 | 68.27 |
X +-1.96s | 164.84~180.56 | 95 | 95.00 | 95.00 |
X+-2.58s | 162.35~183.05 | 99 | 99.00 | 99.00 |
综合素质研究
教育统计学统计规律表明,学生的智力水平,包括学习能力,实际动手能力等呈正态分布。因而正常的考试成绩分布应基本服从正态分布。考试分析要求绘制出学生成绩分布的直方图,以“中间高、两头低”来衡量成绩符合正态分布的程度。其评价标准认为:考生成绩分布情况直方图,基本呈正态曲线状,属于好,如果略呈正(负)态状,属于中等,如果呈严重偏态或无规律,就是差的。
从概率统计规律看,“正常的考试成绩分布应基本服从正态分布”是正确的。但是必须考虑人与物的本质不同,以及教育的有所作为可以使“随机”受到干预,用曲线或直方图的形状来评价考试成绩就有失偏颇。许多教育专家(如上海顾泠沅、美国布鲁姆等)已经通过实践论证,教育是可以大有作为的,可以做到大多数学生及格,而且多数学生可以得高分,考试成绩曲线是偏正态分布的。但是长期受到“中间高、两头低”标准的影响,限制了教师的作为,抑制了多数学生能够学好的信心。这是很大的误会。通常正态曲线有一条对称轴。当某个分数(或分数段)的考生人数最多时,对应曲线的最高点,是曲线的顶点。该分数值在横轴上的对应点与顶点连接的线段就是该正态曲线的对称轴。考生人数最多的值是峰值。我们注意到,成绩曲线或直方图实际上很少对称的,称之为峰线更合适。
医学参考值
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
医学参考值范围亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:
(1)正态分布法:适用于正态或近似正态分布的资料。
双侧界值:X+-u(u)S单侧上界:X+u(u)S,或单侧下界:X-u(u)S
(2)对数正态分布法:适用于对数正态分布资料。
双侧界值:lg-1;单侧上界:lg-1,或单侧下界:lg-1。
常用u值可根据要求由表4查出。
(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
双侧界值:P2.5和P97.5;单侧上界:P95,或单侧下界:P5。
表4常用u值表
参考值范围(%) | 单侧 | 双侧 |
80 | 0.842 | 1.282 |
90 | 1.282 | 1.645 |
95 | 1.645 | 1.960 |
99 | 2.326 | 2.576 |
统计的理论基础:
如t分布、F分布、分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。
概率论中最重要的分布
正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
主要内涵
在联系自然、社会和思维的实践背景下,我们以正态分布的本质为基础,以正态分布曲线及面积分布图为表征(以后谈及正态分布及正态分布论就要浮现此图),进行抽象与提升,抓住其中的主要哲学内涵,归纳正态分布论(正态哲学)的主要内涵如下:
整体论
正态分布启示我们,要用整体的观点来看事物。“系统的整体观念或总体观念是系统概念的精髓。” 正态分布曲线及面积分布图由基区、负区、正区三个区组成,各区比重不一样。用整体来看事物才能看清楚事物的本来面貌,才能得出事物的根本特性。不能只见树木不见森林,也不能以偏概全。此外整体大于部分之和,在分析各部分、各层次的基础上,还要从整体看事物,这是因为整体有不同于各部分的特点。用整体观来看世界,就是要立足在基区,放眼负区和正区。要看到主要方面,还要看到次要方面,既要看到积极的方面还要看到事物消极的一面,看到事物前进的一面还要看到落后的一面。片面看事物必然看到的是偏态或者是变态的事物,不是真实的事物本身。
重点论
正态分布曲线及面积分布图非常清晰的展示了重点,那就是基区占68.27%,是主体,要重点抓,此外95%,99%则展示了正态的全面性。认识世界和改造世界一定要抓住重点,因为重点就是事物的主要矛盾,它对事物的发展起主要的、支配性的作用。抓住了重点才能一举其纲,万目皆张。事物和现象纷繁复杂,在千头万绪中不抓住主要矛盾,就会陷入无限琐碎之中。由于我们时间和精力的相对有限性,出于效率的追求,我们更应该抓住重点。在正态分布中,基区占了主体和重点。如果我们结合20/80法则,我们更可以大胆的把正区也可以看做是重点。
发展论
联系和发展是事物发展变化的基本规律。任何事物都有其产生、发展和灭亡的历史,如果我们把正态分布看做是任何一个系统或者事物的发展过程的话,我们明显的看到这个过程经历着从负区到基区再到正区的过程。无论是自然、社会还是人类的思维都明显的遵循这这样一个过程。准确的把握事物或者事件所处的历史过程和阶段极大的有助于掌握我们对事物、事件的特征和性质,是我们分析问题,采取对策和解决问题的重要基础和依据。发展的阶段不同,性质和特征也不同,分析和解决问题的办法要与此相适应,这就是具体问题具体分析,也是解放思想、实事求是、与时俱乐进的精髓。正态发展的特点还启示我们,事物发展大都是渐进的和累积的,走渐进发展的道路是事物发展的常态。例如,遗传是常态,变异是非常态。
总之,正态分布论是科学的世界观,也是科学的方法论,是我们认识和改造世界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。以正态哲学认识世界,能更好的认识和把握世界的本质和规律,以正态哲学来改造世界,能更好的在尊重和利用客观规律,更有效的改造世界。
弗朗西斯·高尔顿 ,英国探险家、优生学家、心理学家,差异心理学之父,也是心理测量学上生理计量法的创始人。
高尔顿对心理学的贡献,大概可以归纳未差异心理学、心理测量的量化和实验心理学三方面:
心理学研究之量化,始自高尔顿。他发明了许多感官和运动的测试,并以数量代表所测得的心理特质之差异。他认为人的所有特质,不管是物质的还是精神的,最终都可以定量叙述,这是实现人类科学的必要条件,故最先应用统计法处理心理学研究资料,重视数据的平均数与高中差数。他收集了大量资料证明人的心理特质在人口中的分布如同身高、体重那样符合正态分布曲线。他在论及遗传对个体差异的影响时,为相关系数的概念作了初步提示。如他研究了“居间亲”和其成年子女的身高关系,发现居间亲和其子女的身高有正相关,即父母的身材较高,其子女的身材也有较高的趋势。反之,父母的身材较低,其子女也有较矮的趋势。同时发现子女的身高常与其父母略有差别,而呈现“回中”趋势,即离开其父母的身高数,而回到一般人身高的平均数。
智力、能力
理查德·赫恩斯坦 和默瑞(Charles Murray)合著《正态曲线》一书而闻名,在该书中他们指出人们的智力呈正态分布。智力主要是遗传的并因种族的不同而不同,犹太人、东亚人的智商最高,其次为白人,表现最差的是黑人、西班牙裔人。他们检讨了数十年来心理计量学与政策学的研究成果,发现美国社会轻忽了智商的影响愈变愈大的趋势。他们力图证明,美国现行的偏向于以非洲裔和南美裔为主的低收入阶层的社会政策,如职业培训、大学教育等,完全是在浪费资源。他们利用应募入伍者的测试结果证明,黑人青年的智力低于白人和黄种人;而且,这些人的智力已经定型,对他们进行培训收效甚微。因此,政府应该放弃对这部分人的教育,把钱用于包括所有种族在内的启蒙教育,因为孩子的智力尚未定型,开发潜力大。由于此书涉及黑人的智力问题,一经出版便受到来自四面八方的围攻。