VERSANT INSIGHT SERIES02 / 06
信效度|AI 評分

AI 評口說,
到底準不準?

這是 HR 評估口說測驗時最常見、也最合理的疑問。答案不該來自廠商的口頭保證,而該來自公開的驗證數據。以下是 Pearson 驗證研究的重點摘要。

關鍵數據:AI 與專業評分員幾乎一致

Versant 聽說測驗(English Speaking and Listening Test)的驗證研究,將 AI 自動評分與專業人工評分員對「同一批受測者、同一批回答」的評分結果進行比對:

0.96總分:機器評分與人工評分的相關係數
0.98聽力分項:機器與人工評分相關係數
0.96折半信度:機器評分與人工評分相同

資料來源:Versant by Pearson English Speaking and Listening Test 驗證研究(n=260,受測者涵蓋 30 種母語背景,含中文)。

這些數字代表什麼?

指標白話解讀
相關係數 0.96AI 給出的分數,與多位專業評分員審慎評出的分數高度一致——換成人來評,結果幾乎相同。
信度 0.96同一位受測者重複施測(能力不變的前提下),會得到穩定一致的分數,不會「這次高、下次低」。
獨立驗證樣本驗證用的 260 筆作答資料,完全未用於訓練評分模型——這是「考前沒看過答案」的公正檢驗。

而且,AI 比人多了兩個優勢

一致性:人工評分員會疲勞、會受前一位受測者影響、不同評分員之間有寬嚴差異。AI 對第 1 位與第 1,000 位受測者,使用完全相同的標準。

可辯護性:評分標準化、流程可稽核,符合美國 EEOC 對甄選工具「信度與效度」的規範要求——當測驗結果涉及外派或任用決策時,這一點對企業的法律風險管理至關重要。

「問題不是『AI 能不能取代人評分』,而是『AI 評分與專家評分的一致程度,是否高於兩位專家彼此之間的一致程度』。數據顯示:是的。」

VERSANT INSIGHT SERIES

想看完整驗證白皮書?

回覆這封信,我們可提供 Pearson 原版技術白皮書(含完整研究方法與數據表),或安排 15 分鐘為您的團隊重點導讀。