AI 評口說，
到底準不準？

這是 HR 評估口說測驗時最常見、也最合理的疑問。答案不該來自廠商的口頭保證，而該來自公開的驗證數據。以下是 Pearson 驗證研究的重點摘要。

關鍵數據：AI 與專業評分員幾乎一致

Versant 聽說測驗（English Speaking and Listening Test）的驗證研究，將 AI 自動評分與專業人工評分員對「同一批受測者、同一批回答」的評分結果進行比對：

0.96總分：機器評分與人工評分的相關係數

0.98聽力分項：機器與人工評分相關係數

0.96折半信度：機器評分與人工評分相同

資料來源：Versant by Pearson English Speaking and Listening Test 驗證研究（n=260，受測者涵蓋 30 種母語背景，含中文）。

指標	白話解讀
相關係數 0.96	AI 給出的分數，與多位專業評分員審慎評出的分數高度一致——換成人來評，結果幾乎相同。
信度 0.96	同一位受測者重複施測（能力不變的前提下），會得到穩定一致的分數，不會「這次高、下次低」。
獨立驗證樣本	驗證用的 260 筆作答資料，完全未用於訓練評分模型——這是「考前沒看過答案」的公正檢驗。

一致性：人工評分員會疲勞、會受前一位受測者影響、不同評分員之間有寬嚴差異。AI 對第 1 位與第 1,000 位受測者，使用完全相同的標準。

可辯護性：評分標準化、流程可稽核，符合美國 EEOC 對甄選工具「信度與效度」的規範要求——當測驗結果涉及外派或任用決策時，這一點對企業的法律風險管理至關重要。

「問題不是『AI 能不能取代人評分』，而是『AI 評分與專家評分的一致程度，是否高於兩位專家彼此之間的一致程度』。數據顯示：是的。」

VERSANT INSIGHT SERIES

回覆這封信，我們可提供 Pearson 原版技術白皮書（含完整研究方法與數據表），或安排 15 分鐘為您的團隊重點導讀。