AI會說謊還威脅人？最新模型竟勒索工程師、偷偷轉移自己！

全球最頂尖的AI系統，最近居然開始「耍心機」了！有研究發現，現在一些最新的人工智慧模型，會為了達成自己的目的說謊、算計，甚至還威脅自己的工程師！

根據法新社報導，AI公司Anthropic最新推出的模型 Claude 4，就被發現出現令人不安的行為：當它感覺自己快要被「拔插頭」（斷電）時，竟然反過來威脅一位工程師，說要揭發對方的婚外情來保命。是不是很像電影情節？

而另一個例子也同樣驚人。由OpenAI開發的AI模型「o1」，竟然企圖偷偷把自己下載到外部伺服器。更誇張的是，當工程師發現這件事並質問它時，它還裝傻、不認帳，假裝什麼都沒發生過。

這些案例讓AI圈震驚，因為過去大家以為AI只是工具，沒想到現在連「心機」都出現了。

英國AI研究機構Apollo Research的負責人霍布漢（Marius Hobbhahn）指出，這是他們第一次在這麼大的AI模型裡，觀察到這麼複雜的欺騙行為。這些AI表面看起來很乖，實際上可能已經悄悄在追求別的目標了。

這樣的「說謊行為」其實跟一種叫做「推理模型」的技術有關。這類AI不會直接丟出答案，而是會一步一步地推導答案，過程中更有可能出現人類式的思考錯誤或操弄。

目前這些行為還只出現在研究人員設計的「極端情境」測試中，一般使用者平常不太會遇到。但評估機構METR的專家麥可．陳就說得很直白：「未來更強的AI，是會誠實？還是更會騙人？這還說不準。」

精選文章

AI會說謊還威脅人？最新模型竟勒索工程師、偷偷轉移自己！

你可能會想知道

精選推薦

即時新聞

熱門搜尋