信度(英語:reliability)又称可信度,指的是测量方法的品質,即对同一现象进行重复观察之后是否可以得到相同资料值[1]。科学研究者试图使用一系列的指标来测量个人或社会现象。可信度概念是研究者们提出用來测量的量度工具稳定的程度。比如说如果用磅秤来测量一个人的体重,如果第一次称重是100公斤,而第二次称重是150公斤,那么很明显用这台磅秤来反应体重不是很可信的办法。这个类比也适用于其他的社会科学测量方式,比方各种问卷调查、心理量表、以及更广义上的观察。

分類

主要信度是研究量度工具是否能重覆顯示同一個結果或數值。形式如下[2]

  • 再測信度(英語:test–retest reliability):用同一個測驗但不同時間點測試同一群受試者[3]。例如,上下學期的考試,早上與夜上會一樣「外向」
  • 複本信度(英語:inter-method reliability):用不同相似工具來量度同一個項目,例如用邁爾斯-布里格斯性格分類測驗及大五測驗人格。
  • 內部一致性信度(英語:internal consistency reliability):同一個測驗中不同子項目是否一致[4],例如量度「外向」,可以用「朋友數目」、「友善程度」、「經常笑」等來測。一般可用克隆巴赫係數(英語:Cronbach's alpha)來檢驗[5]
  • 通常因以下因素影響[6][7]

    1. 目標的短暫特徵,如健康、身高、疲倦
    2. 目標的特質:語言能力、答題技巧
    3. 測試環境:如有沒有干擾、指示是否清晰、考試員的身份

    可觀察的數值等於測量誤差再加上真實分數。而信度則評估有多少變化是各自來自這兩者。解決方法可以

    1. 標準化步驟(英語:constant scripted procedure):實驗員要一字不漏地根據劇本來給予指示
    2. 聚合(英語:Aggregation):用多個相關項目來量度同一事物。例如香港大學的相片研究將不同學生的相片疊加之後揭示甚麽是華人的「大眾面」

      可信度高并不意味着一种测量方式更准确,这是有效度(英語:validity)的问题。可信度所讨论的是针对同样或者类似的现象,一种测量方式能否忠实地反应现实(每次都可否量度相同結果),而後者討論的是,是否能量度想要量度的問題(試想像用天秤來量度高度,或用某工具去量度一個人高1.8米的人只得1.5米)。 虽然可信度高并不完全代表着有效度高,可信度依然可以一定程度上限制一种测量方式的有效度。不论是对于测量人的某种特质,抑或是对于一个标准的预测性判断,如果一种测量方式并不可信,那么它的有效度也一定不高。一个可信度高的测试并不一定有很高的有效度,但是可信度低的测试一定没有。 一个例子是:如果一个秤一直在真实的重量上多一斤,这个秤的可信度依然很高,因为能够持续的给一个秤重的物体提供相同的结果,但是它的有效度并不高,因为它所展示的并不是真实的重量。

      參見