人工智能的演變是真實的嗎? 揮舞基準測試的可靠性

近年來,人工AI的技術創新一直在加速。據說,最新的大型語言模型(LLM),例如OpenAI的GPT-4.5和Google的Gemini,與以前的版本相比,已經急劇發展。但是AI真的在繼續發展嗎? 最近的研究強調了這個問題。

測量AI增長的“基準測試”的機制

使用特定測試評估AI的性能。這樣的指標稱為“基準測試”,旨在衡量AI模型如何回答新的問題和挑戰。通常,衡量語言理解MMLU((大量的多任務語言理解)並評估您處理數學問題的能力GSM8K(小學數學8K)有這樣的東西。

最初,這些測試旨在評估AI如何應對“未知挑戰”。但是,最近的研究表明,許多AI模型已經將這些測試問題納入培訓數據。

“基準污染”扭曲了AI的演變

這個問題是基準污染”,這是破壞測試可靠性的因素。研究表明,某些LLM在其培訓數據中包含了基準問題的樣本答案,最初應解決的測試是“新問題”已有效地“回顧問題”。

例如,一個AI模型以高精度解決了GSM8K數學問題,但是研究表明,訓練數據中包括同樣的問題。在這些情況下,很難分辨AI是否確實增強了數學推理,還是只是“重現我們記住的答案”。

我們應該如何衡量AI的演變?

AI公司繼續展示其基準測試成績,以證明其增長。但是,研究人員越來越多地說:“需要新的評估方法來衡量真正的進化”。

提出的兩種解決方案是:

  1. 經常更新的“動態基準”
    • 定期添加新問題,以防止AI提前學習。
  2. 強調與人對話的評估方法
    • 人類專家評估實際互動而不是比較AI的一種方式。

另一方面,這些方法也帶來了挑戰。動態基準測試對於創建問題很昂貴,並且難以操作。此外,據說很難確保客觀性,因為人類評估的方法傾向於包括主觀要素。

朝著我們可以識別AI的真實演變的階段

隨著AI的繼續增長,評估方法本身需要發展。即使您只是說自己的基準分數有所提高,也應該仔細確定這是否是您能力的真正改善。希望將來能夠建立新的評估方法,從而使我們能夠更準確地衡量AI真正發展的範圍。

我們將繼續研究AI的未來如何受到讚賞。

頂部圖像:©Moor Studio/Istock