通过统计学方法分析测验的高区分度、信度和效度是评估测评工具质量的关键步骤。以下是具体分析方法和步骤:

一、区分度分析

区分度反映题目对不同能力水平被试的鉴别能力,常用以下方法:

1. 极端分组法(鉴别指数D)

  • 公式
  • ( D = P_H

  • P_L )
  • 其中,( P_H )为高分组(前27%)通过率,( P_L )为低分组(后27%)通过率。

  • 评价标准:D≥0.4为优秀,0.3-0.39为良好,低于0.2需淘汰。
  • 客观题区分度计算
  • 使用D=PH-PL或D=(H-L)/N,其中H和L分别为高、低分组答对人数,N为总人数。

    2. 相关系数法

  • 点二列相关:适用于二分计分题目(如选择题),计算题目得分与总分的相关。
  • 公式:( r_{pb} = frac{bar{X}_p

  • bar{X}_q}{S_t} sqrt{pq} ),其中( p )为通过率,( q=1-p ),( S_t )为总分标准差。
  • 二列相关:当二分变量假设为正态分布时使用,公式与点二列类似,但需调整正态曲线高度。
  • 评价标准:相关系数绝对值越大,区分度越高,一般要求≥0.3。
  • 3. 项目特征曲线(ICC)

    通过绘制不同能力水平被试在题目上的得分曲线,直观判断题目区分效果。曲线斜率越大,区分度越高。

    二、信度分析

    信度衡量测验结果的一致性和稳定性,常用以下方法:

    1. 克隆巴赫α系数(Cronbach's Alpha)

  • 公式
  • ( alpha = frac{k}{k-1} left(1

  • frac{sum S_i^2}{S_x^2}right) )
  • 其中,( k )为题目数,( S_i^2 )为各题方差,( S_x^2 )为总分方差。

  • 评价标准
  • α≥0.9优秀,0.8-0.9良好,0.7-0.8可接受,低于0.7需修订。
  • 操作步骤(SPSS)
  • 选择“分析→标度→可靠性分析”,输入题目数据后勾选“删除项后的标度”以优化题目。
  • 2. 折半信度

    将测验题目随机分为两半,计算两半得分的相关系数,再用斯皮尔曼-布朗公式校正:

    ( r_{xx} = frac{2r_{hh}}{1 + r_{hh}} )。

    3. 重测信度

    同一组被试在不同时间完成同一测验,计算两次得分的相关系数。相关系数越高,信度越好。

    三、效度分析

    效度反映测验是否准确测量目标特质,主要包括结构效度和内容效度:

    1. 结构效度

  • 探索性因子分析(EFA)
  • 步骤
  • 1. 检验KMO值(≥0.7适合因子分析)和巴特利特球形检验(p<0.05)。

    2. 提取公因子,观察题目因子载荷(≥0.4为佳),累计方差解释率建议≥60%。

  • 结果判断
  • 因子结构与理论维度一致,说明结构效度良好。
  • 验证性因子分析(CFA)
  • 使用AMOS等工具验证预设模型拟合度,指标包括:

  • CFI≥0.9,RMSEA≤0.08,χ²/df≤3。
  • 2. 内容效度

    通过专家评审或逻辑分析,判断题目是否覆盖目标领域,常用内容效度比(CVR)量化。

    3. 效标效度

    计算测验得分与外部效标(如权威测评工具)的相关系数,相关系数越高,效标效度越好。

    四、综合应用示例

    1. 区分度与信效度的关系

  • 中等难度(P=0.5)的题目区分度最高。
  • 高区分度的题目能提升测验效度,但需结合信度指标确保结果稳定。
  • 2. 工具与软件

  • SPSS:用于信度(α系数)和效度(EFA)分析。
  • AMOS:用于验证性因子分析(CFA)和模型拟合度检验。
  • R语言:通过`ltm`包计算克隆巴赫α系数。
  • 总结

  • 区分度:通过极端分组或相关系数法,确保D≥0.3。
  • 信度:克隆巴赫α≥0.7,结合折半或重测信度验证稳定性。
  • 效度:结合因子分析和效标验证,确保结构合理且符合理论预期。
  • 通过以上方法,可系统评估测验工具的质量,优化题目设计并提升测评的科学性。