效度编辑

心理学术语

特别提示：本站内容仅供初步参考，难免存在疏漏、错误等情况，请您核实后再引用。对于用药、诊疗等医学专业内容，建议您直接咨询医生，以免错误用药或延误病情，本站内容不构成对您的任何建议、指导。

效度（Validity）即有效性，它是指测量工具或手段能够准确测出所需测量的事物的程度。效度是指所测量到的结果反映所想要考察内容的程度，测量结果与要考察的内容越吻合，则效度越高；反之，则效度越低。效度分为三种类型：内容效度、准则效度和结构效度。

效度是测量的有效性程度，即测量工具确能测出其所要测量特质的程度，或者简单地说是指一个测验的准确性、有用性。效度是科学的测量工具所必须具备的最重要的条件。在社会测量中，对作为测量工具的问卷或量表的效度要求较高。鉴别效度须明确测量的目的与范围，考虑所要测量的内容并分析其性质与特征，检查测量的内容是否与测量的目的相符，进而判断测量结果是否反映了所要测量的特质的程度；

性质

编辑

1.效度具有相对性

任何测验的效度是对一定的目标来说的，或者说测验只有用于与测验目标一致的目的和场合才会有效。所以，在评价测验的效度时，必须考虑效度测验的目的与功能。

2.效度具有连续性

测验效度通常用相关系数表示，它只有程度上的不同，而没有“全有”或“全无”的区别。效度是针对测验结果的。

功能

编辑

一、预测误差

效度系数的实际意义常常以决定性系数来表示，意旨相关系数的平方，它表示测验正确预测或解释的效标的方差占总方差的比例。

二、预测效标分数

（从预测分数预测效标成绩）如果X与Y两变量呈直线相关，只要确定出二者间的回归方程，就可以从一个变量推估出另一个变量。

三、预测效率指数

（比盲目预测减少的误差）

类型

编辑

内部效度

内部效度的概念

研究的内部效度是指在研究的自变量与因变量之间存在一定关系的明确程度。如果自变量和因变量之间关系并不会由于其它变量的存在受到影响，从而变得模糊不清或复杂化，那么这项研究就具有内部效度。它所涉及的问题是：

（1）所研究的两个或多个变量之间是否存在一定的关系？

（2）是否确实是自变量的变化引起了因变量的变化？

研究设计要对可能涉及的各种变量进行有效的控制与消除，使与研究目标无关的变量对研究结果的影响很小或没有影响，，因而，研究变量之间（如自变量与因变量之间）的关系是确定的和真实的，意味着一项研究的内部效度高。

影响内部效度的因素

影响内部效度的因素比较多，归纳起来，主要有历史、研究被试、研究手段方法和程序、统计回归效应四方面因素。

内部效度的条件

研究的内部效度不会自动形成。内部效度的获得，主要是通过研究设计，认真细致地选择变量，切实控制好各种变量，保证研究变量之间的确定关系，消除与研究目标无关的变量对研究结果的影响。上述4种方面的因素，都是在研究中应特别注意控制的，最有效的途径是采用随机化程序。对于教育科学研究的各种具体情况（例如不同的研究活动），影响内部效度的因素种类、数量、作用大小会有一定的差别，应该根据具体情况加以分析、预估、识别、并采取适当措施予以控制或消除，以提高研究的内部效度。

外部效度

研究的外部效度是指研究结果能够一般化和普遍适用到样本来自的总体和到其它的总体中的程度，即研究结果和变量条件、时间和背景的代表性和普遍适用性。外部效度可以细分为总体效度和生态效度两类。

总体效度指研究结果能够适应于研究样本来自的总体的程度与能力，或说对总体的普遍意义。要使研究结果适用于总体，就必须从总体中随机选取样本，使样本对总体具有代表性。如果研究所选样本有偏差或数量太小，不足以代表总体，其结果就难以对总体特征进行概括。

生态效度是指研究结果可以被概括化和适应于其它研究条件和情景的程度和能力。要使研究结果能够适用于其它研究条件和情景（例如，自变量与因变量、研究程序、研究背景、研究时间和研究者等方面的不同），就必须特别设计研究条件与情景，保证对其它条件、情景有代表性。

一般认为，内部效度是外部效度的必要条件，但不是充分条件。内部效度低的研究结果就谈不上对其它情景的普遍意义；可是内部效度高的研究，其结果却不一定能够一般化到其它总体和背景中去。教育科学研究的重要意义是要发现教育活动的普遍规律，指导教育工作的开展。因此，提高研究结果的外部效度十分重要。一项研究的内部效度再高，如果其结果仅适应于特定的范围，特定的测量工具、特定研究程序和特定的研究条件等，那么，从获取一般知识和揭示普遍规律的角度来看，其价值、意义不大。因此，研究的外部效度与内部效度在重要性上毫不逊色。

影响外部效度的因素

影响外部效度的因素主要有4个方面：研究被试方面、变量的定义和测试方面、研究手段和程序方面、实验者方面。

外部效度的条件

上述4方面因素，有时单独存在，有时同时存在若干方面的影响。要提高研究的外部效度，必须注意在研究中消除和控制上述各种影响因素。外部效度的要求是研究能够符合客观情况，适用于更大的总体。其中，关键的一环就是做好取样工作。取样工作不但包括被试的取样，而且也包括有代表性的研究背景（工作场所、学校、家庭、实验室）、研究工具、研究程序和时间等的选择。取样的背景与实际情景越接近，研究结果的可用性、适用性、推广性就越强。一般来说，随机取样，提高模拟现实情景的程度，采用多种相关的研究方法，变化研究条件寻求具有普遍意义的结论，是获得外部效度、提高研究结果可应用性的重要条件。

构思效度

构思效度简介

研究的构思效度是指理论构思或假设的合理性、科学性，及其转换为研究目标的恰当程度和可操作性。它涉及建立研究方案和测量指标的理论构思（或观察指标的理论设想）及其操作化等方面的问题，即理论构思及其转换的有效性。为了使研究具有较高的构思效度，研究的理论构思首先要结构严谨、层次分明，形成某种“构思网络”，其次对研究内容做出严格的抽象与操作性定义（如针对研究构思的特点，给予明确的操作定义）。

影响构思效度的因素

影响构思效度的因素主要有3方面：研究构思方面、研究手段和程序方面、实验者的主观期望和被试者对研究的猜测。

构思效度的条件

使研究具有较高的构思效度，应该满足以下4个条件：

（1）理论构思要结构严谨、符合逻辑、层次分明，形成某种“构思网络”。例如，将儿童的自我意识发展分为自我认识、自我体验和自我控制三方面，而自我认识进一步细分为对生理自我的认识、对心理自我的认识和对社会自我的认识。这样的理论构思，就比较严谨、完整，有层次，并且形成一种“网络”，便于理解和研究。

（2）清晰、准确的界定研究的环境条件和变量。例如，“小学五年级学生发散思维问题研究”这样一个课题，对研究被试的年龄段，生理智力发展，学习、生活、社会环境等需要明确界定范围，用文字和语言两种形式完整、准确地表述研究变量。

（3）对研究变量做出准确、严格的操作定义，并选择对应、客观的观测指标。

（4）避免采用单一方法或单一指标去代表或分析多维的、多层次的、多侧面的事物和活动，尽可能采用多种方法、多种指标，从不同角度分析研究相同的理论构思。

教育科学研究常常包含着复杂的、多维度的理论构思，如何提高研究的构思效度是进行研究设计时需要加以特别重视的问题，也是提高教育科学研究水平的重要内容。

统计结论效度

统计结论效度是关于研究的数据分析处理程序的效度检验，或者说，它是检验研究结果的数据分析程序与方法的有效性的指标。统计结论效度的基本问题是研究误差、变异来源与如何适当地运用统计显著性检验，它不涉及系统性偏差的来源问题，而是研究误差变异情况和如何适当运用统计显著性检验的问题。例如，采用小样本的研究数据时，由于样本成份与测量数据都波动比较大，稳定性差，如果依赖统计显著性水平做出推论是不可靠的。在这种情况下，应该运用功效分析（power analysis），看看一定的样本范围、变异程度和α水平上能够检验出多大的效应。这就是统计结论效度所考虑的问题。

影响统计效度的因素

影响统计效度的因素主要有方面：统计功效低、违反统计方法的使用条件、测量信度低。

统计结论效度的条件

研究的统计结论效度主要取决于两个方面的条件：一是数据的质量，数据分析程序的效度是以数据的质量作为基础的，数据质量差的研究是谈不上统计结论效度的；二是统计检验方法，数据分析中所采用的各种统计方法，都有其明确的统计检验条件的要求，一项研究中统计检验条件不明确或者被违反，就会显著降低统计结论效度。

评估方法

编辑

内容效度

（content-related validity）

一什么是内容效度

内容效度指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。

二内容效度的评估方法

1.专家判断法; 2.统计分析法(评分者信度\复本信度\折半信度\再测法); 3.经验推测法 (实验检验)

三内容效度的特性

内容效度经常与表面效度（face validity）混淆。表面效度是由外行对测验作表面上的检查确定的，它不反映测验实际测量的东西，只是指测验表面上看来好像是测量所要测的东西；内容效度是由够资格的判断者（专家）详尽地、系统地对测验作评价而建立的。

构想效度

（construCT-related validity）

一什么是构想效度

指测验能够测量到理论上的构想或特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。

二构想效度的估计方法

1.对测验本身的分析（用内容效度来验证构想效度）

2.测验间的相互比较：相容效度（与已成熟的相同测验间的比较）、区分效度（与近似或应区分测验间的比较）、因素分析法

3.效标效度的研究证明

4.实验法和观察法证实

效标效度

（criterion-related validity）

效标，即衡量测验有效性的参照标准，指的是可以直接而且独立测量的我们感兴趣的行为。我们感兴趣的行为，就是要预测的行为，这是一个总的观念，故必须以可操作的测量来确定才有实际意义。因此有必要把效标细分为两个层次，其一是理论水平的“观念效标”，其二是操作定义水平的“效标测量”。

效标效度又称实证效度，反映的是测验预测个体在某种情境下行为表现的有效性程度。

根据效标资料是否与测验分数同时获得，又可分为同时效度(实际士气高和士气低的人在士气测验中的得分一致性。)和预测效度两类。

常用的效标包括

1、学业成就：如在校成绩、学历、有关的奖励和荣誉、教师对学生智力的评定等，常作为智力测验的效标，也可作为某些多重能力倾向测验和人格测验的效标；

2、实际工作表现：是最满意的效标测量，为一般智力测验、人格测验和一些能力倾向测验的效标；

3、特殊训练成绩；

4、精神病诊断；

5、等级评定：是观察者根据测验欲测量的心理特质在被试身上的表现而作出的一种个人判断；

6、效标团体的比较：即找出两个在效标表现上有差别的团体，比较他们在测验分数上的差别；

7、先前有效的测验：一个新测验与先前有效的测验的相关也经常作为效度检验的证据。

一个好的效标必须具备以下条件：

①效标必须能最有效地反映测验的目标，即效标测量本身必须有效；

②效标必须具有较高的信度，稳定可靠，不随时间等因素而变化；

③效标可以客观地加以测量，可用数据或等级来表示；

④效标测量的方法简单，省时省力，经济实用。

效标效度的评估方法

1.相关法：效度系数是最常用的效度指标，尤其是效标效度。它是以皮尔逊积差相关系数来表示的，主要反映测验分数与效标测量的相关。当测验成绩是连续变量，而效标资料是二分变量时，计算效度系数可用点二列相关公式或二列相关公式；当测验分数为连续变量，效标资料为等级评定时，可用贾斯朋多系列相关公式计算。

2.区分法：是检验测验分数能否有效地区分由效标所定义的团体的一种方法。算出t值后，便可知道分数的差异是否显著。若差异显著，说明该测验能够有效地区分由效标定义的团体，否则，测验是无效的。重叠百分比可以通过计算每一组内得分超过（或低于）另一组平均数的人数百分比得出；另外，还可以计算两组分布的共同区的百分比。重叠量越大，说明两组分数差异越小，即测验的效度越差。

3.命中率法：是当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法。命中率的计算有两种方法，一是计算总命中率，另一种是计算正命中率。

4、预期表法：是一种双向表格，预测分数排在表的左边，效标排在表的顶端。从左下至右上对角线上各百分数字越大，而其它的百分数字越小，表示测验的效标效度越高；反之，数字越分散，则效度越低。

鉴定程序

编辑

从内容效度﹐到准则效度﹐再到构念效度﹐可视为一种累进﹐即构念效度需要比准则效度更多的信息﹐准则效度需要比内容效度更多的信息。

效度比信度有更高的要求﹐信度是效度的必要条件﹐没有信度的测量工具就谈不上具有效度﹐但信度高的测量工具未必具有高的效度。

影响因素

编辑

一、测验本身的因素

测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等都会影响效度。

二、测验实施中的干扰因素

一主试的影响因素

二被试的影响因素

三、样本团体的性质

一样本团体的异质性

二干涉变量：样本团体的性质包括包括年龄、性别、教育水平、智力、动机、兴趣、职业和任何有关的特征，由于这些特征的影响，使得测验对于不同具有不同的测验能力。

吉赛利提出的如何找出干涉变量的一套方法：

①用回归方程求得每个人的预测效标分数，将该分数与实际效标分数想比较，获得差异分数D．如果D的绝对值很大，说明测验中可能存在干涉变量。

②根据样本团体的组成分析，找出对照组，分别计算效度，从而象上述关于出租汽车司机的例子一样，找出干涉变量。

③对于欲测团体，根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体，获得的测验效度会有所提高。

四、效标的性质

一个好的效标必须具备以下条件：

①效标必须能最有效地反映测验的目标，即效标测量本身必须有效；

②效标必须具有较高的信度，稳定可靠，不随时间等因素而变化；

③效标可以客观地加以测量，可用数据或等级来表示；

④效标测量的方法简单，省时省力，经济实用。

测试维度

编辑

1）表面效度（face validity）。指测试应达到的卷面标准，即一套测试题从表面看来是否是合适的。例如，若一次阅读理解力的测试包括许多受试者没有学过的方言词汇，则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。

2）内容效度（content validity）。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求，即测试的代表性和覆盖面的程度。例如，如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能，如只考单一音素的发音，而不考查重读、语调或音素在词语中的发音，那么，该测试的内容效度就很低。

3）编制效度（construct validity）。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如，以结构主义语言理论为基础，认为系统的语言习惯是通过句型而获得的，那么，强调词汇和语法环境的测试题目就失去了编制效度。

4）经验效度（empirical validity）。经验效度是一种衡量测试有效性的量度，通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种：一是共时效度（concurrent validity），即将一次测试的结果同另一次时间相近的有效测试的结果相比较，或同教师的鉴定相比较而得出的系数；二是预测效度（predictive validity），即将一次测试的结果同后来的语言能力相比较，或是同教师后来对学生的鉴定相比较而得出的系数。

一般来说，对某次测试的效度进行检验时，除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外，还须采用计算相关系数的定量方法，即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性大。课堂测试的效度应在0.4-0.7之间，规模较大的测试其效度应在0.7以上。

效度分析

编辑

效度分析

效度分析有多种方法，其测量结果反映效度的不同方面。常用于调查问卷效度分析的方法主要有以下几种。

单项与总和相关效度分析

表面效度（Face Validity）。也称为内容效度或逻辑效度，指的是测量的内容与测量目标之间是否适合，也可以说是指测量所选择的项目是否“看起来”符合测量的目的和要求。主要依据调查设计人员的主观判断。

这种方法用于测量量表的内容效度。内容效度又称表面效度或逻辑效度，它是指所设计的题项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评价结果，即计算每个题项得分与题项总分的相关系数，根据相关是否显著判断是否有效。若量表中有反意题项，应将其逆向处理后再计算总分。

准则效度分析

准则效度（Criterion Validity）。又称为效标效度或预测效度。准则效度是指量表所得到的数据和其他被选择的变量（准则变量）的值相比是否有意义。根据时间跨度的不同，准则效度可分为同时效度和预测效度。准则效度分析是根据已经得到确定的某种理论，选择一种指标或测量工具作为准则（效标），分析问卷题项与准则的联系，若二者相关显著，或者问卷题项对准则的不同取值、特性表现出显著差异，则为有效的题项。评价准则效度的方法是相关分析或差异显著性检验。在调查问卷的效度分析中，选择一个合适的准则往往十分困难，使这种方法的应用受到一定限制。

结构效度分析

结构效度（Construct Validity）。是指测量结果体现出来的某种结构与测值之间的对应程度。结构效度分析所采用的方法是因子分析。最关心的问题是：量表实际测量的是哪些特征？在评价建构效度时，调研人员要试图解释“量表为什么有效”这一理论问题以及考虑从这一理论问题中能得出什么推论。结构效度包括同质效度、异质效度和语意逻辑效度。有的学者认为，效度分析最理想的方法是利用因子分析测量量表或整个问卷的结构效度。因子分析的主要功能是从量表全部变量（题项）中提取一些公因子，各公因子分别与某一群特定变量高度关联，这些公因子即代表了量表的基本结构。通过因子分析可以考察问卷是否能够测量出研究者设计问卷时假设的某种结构。在因子分析的结果中，用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因子对量表或问卷的累积有效程度，共同度反映由公因子解释原变量的有效程度，因子负荷反映原变量与某个公因子的相关程度。

上一篇信度

下一篇化脓性细菌