這是 HR 評估口說測驗時最常見、也最合理的疑問。答案不該來自廠商的口頭保證,而該來自公開的驗證數據。以下是 Pearson 驗證研究的重點摘要。
Versant 聽說測驗(English Speaking and Listening Test)的驗證研究,將 AI 自動評分與專業人工評分員對「同一批受測者、同一批回答」的評分結果進行比對:
資料來源:Versant by Pearson English Speaking and Listening Test 驗證研究(n=260,受測者涵蓋 30 種母語背景,含中文)。
| 指標 | 白話解讀 |
|---|---|
| 相關係數 0.96 | AI 給出的分數,與多位專業評分員審慎評出的分數高度一致——換成人來評,結果幾乎相同。 |
| 信度 0.96 | 同一位受測者重複施測(能力不變的前提下),會得到穩定一致的分數,不會「這次高、下次低」。 |
| 獨立驗證樣本 | 驗證用的 260 筆作答資料,完全未用於訓練評分模型——這是「考前沒看過答案」的公正檢驗。 |
一致性:人工評分員會疲勞、會受前一位受測者影響、不同評分員之間有寬嚴差異。AI 對第 1 位與第 1,000 位受測者,使用完全相同的標準。
可辯護性:評分標準化、流程可稽核,符合美國 EEOC 對甄選工具「信度與效度」的規範要求——當測驗結果涉及外派或任用決策時,這一點對企業的法律風險管理至關重要。
「問題不是『AI 能不能取代人評分』,而是『AI 評分與專家評分的一致程度,是否高於兩位專家彼此之間的一致程度』。數據顯示:是的。」
VERSANT INSIGHT SERIES回覆這封信,我們可提供 Pearson 原版技術白皮書(含完整研究方法與數據表),或安排 15 分鐘為您的團隊重點導讀。