亚洲狠狠,一级黄色大片,日韩在线第一区视屏,韩国作爱视频久久久久,亚洲欧美国产精品专区久久,青青草华人在线视频,国内精品久久影视免费

<source id="ypzng"></source>

<span id="ypzng"></span>

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

重磅消息傳來！通過測試了，74年來最高！54%的參與者誤認(rèn)為它是真人

每日經(jīng)濟(jì)新聞 2024-06-20 20:58:59

每經(jīng)記者蔡鼎每經(jīng)編輯程鵬蘭素英

自英國計算機(jī)科學(xué)家阿蘭·圖靈（Alan Turing）于1950年提出關(guān)于判斷機(jī)器是否能夠思考的著名試驗“圖靈測試”以來，該測試就被視為判斷計算機(jī)是否具有模擬人類思維能力的關(guān)鍵。近期，OpenAI開發(fā)的GPT-4模型完成了這項聞名全球的測試，再度引發(fā)廣泛關(guān)注。

加州大學(xué)圣地亞哥分校認(rèn)知科學(xué)系博士生Cameron R. Jones和教授Benjamin K. Bergen在預(yù)印本arXiv上發(fā)表的最新論文表明，越來越多的人難以在圖靈測試中區(qū)分GPT-4和人類。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKv6teHIEngDawjuicVjc9wwiaJ7jgrG0YcE2p9wIxPiaz5Ss5wSWvbSTOQ.png

圖片來源：arXiv論文

兩位研究人員以真人、初代聊天機(jī)器人ELIZA、GPT-3.5和GPT-4為研究對象，試圖了解誰在誘使人類參與者認(rèn)為它是人類方面表現(xiàn)最成功。結(jié)果顯示，多達(dá)54%的參與者將GPT-4誤認(rèn)為真人，是迄今為止首次有AI模型以如此高的結(jié)果通過圖靈測試。

還需要指出的是，上述研究開展之時，OpenAI尚未宣布新一代的旗艦?zāi)Ｐ虶PT-4o，如果參與測試的是GPT-4o，這一比例可能還會更高。

GPT-4通過圖靈測試 54%的人將其誤認(rèn)為真人

上述研究人員招募了500名參與者，讓他們與四位“對話者”進(jìn)行五分鐘的交流，這四位“對話者”分別是真人、初代聊天機(jī)器人ELIZA、GPT-3.5和GPT-4。參與者在對話結(jié)束后需判斷對方是人還是機(jī)器。（注：ELIZA是由麻省理工團(tuán)隊在1964年至1966年期間開發(fā)的史上第一個聊天機(jī)器人，上世紀(jì)60年代曾參與圖靈測試，但宣告失敗。該機(jī)器人沒有大語言模型或神經(jīng)網(wǎng)絡(luò)支持。）

雙方將通過一個類似即時通訊應(yīng)用的界面進(jìn)行交流。界面底部有一個聊天輸入框，屏幕中央為對話記錄，頂部有一個計時器和觸發(fā)幫助和報告的按鈕。招募到的參與者首先發(fā)送消息，雙方交替發(fā)送，每條消息限制在一定的字符數(shù)內(nèi)。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKmqGuzzGW1x9qYyR8lxtUq97s0InyZkBibOpicF8f915hmX9tY3ggBdYQ.png

圖片來源：arXiv

針對AI語言模型，研究人員基于表現(xiàn)最好的GPT-4命令集（提示詞）進(jìn)行了修改，指示其表現(xiàn)得像一個年輕人，不要太認(rèn)真對待游戲，使用口語化表述，且不要出現(xiàn)拼寫和語法錯誤。此外，AI模型也不能提供太多的知識，尤其是語文和數(shù)學(xué)方面的知識。每輪測試開始時，還會添加一些額外的信息，如姓名、地點和時間戳。

而且，為了模擬真實的交流延遲，AI的回復(fù)會根據(jù)消息的長度人為地延遲發(fā)送。這種設(shè)置旨在模擬正常的人際交流節(jié)奏，增加實驗的現(xiàn)實感。研究小組解釋稱，人類之所以不能百分之百地識別同類，是因為提問者認(rèn)為AI的效率越來越高。這增加了他們將人類錯誤地識別為機(jī)器的可能性。

為了深入了解影響參與者最后作出決定的定性因素，研究小組對其使用的策略和判斷的理由進(jìn)行了分類。36%的參與者與“對話者”進(jìn)行閑聊，詢問個人細(xì)節(jié)或他們的日?；顒樱坏诙惒呗允巧缃缓颓楦校?5%），例如詢問“對話者”的意見、經(jīng)歷并分析判斷它們的幽默感；第三類是知識和推理（13%），包括數(shù)學(xué)、邏輯和常識問題。

結(jié)果顯示，有54%的參與者將GPT-4誤認(rèn)為是真人。相比之下，預(yù)先設(shè)定好回復(fù)的ELIZA只有22%的人將其認(rèn)作真人，GPT-3.5則為50%，而“真人對話者”被正確辨認(rèn)的比例則為67%。

CFF20LXzkOxv24g47m7GmSeXZ1yibj0VKQZRs8ApT178RLyIoQfHmTEjagCZWswG6Rnr94G1yPXmhqQicrje7bTA.png

圖片來源：arXiv

決策依據(jù)表明，社交情感能力是關(guān)鍵?

《每日經(jīng)濟(jì)新聞》記者注意到，研究人員在論文中對“真人對話者”被正確辨認(rèn)的比例只有67%感到震驚。

他們指出，這可能反映出參與者認(rèn)為AI系統(tǒng)質(zhì)量在不斷進(jìn)化，這一結(jié)果也與近年來其他類似的圖靈測試呈現(xiàn)的情況類似。當(dāng)AI系統(tǒng)能力很差時，真人是很容易被辨別出來的，而隨著參與者對AI系統(tǒng)能力的信心增強，他們便更有可能將真人誤認(rèn)為AI。

作者在論文中指出，他們的結(jié)果為圖靈測試提供了一些經(jīng)驗性證據(jù)。就他們使用的策略和給出的決策理由而言，被招募的參與者在測試中更關(guān)注的是研究對象在對話中的風(fēng)格和社交情感因素，而不是更傳統(tǒng)的智力類回答，例如知識和推理能力。他們認(rèn)為，這可能是因為參與者認(rèn)為，社交能力是成為機(jī)器最無法模仿的人類特征。

GPT-4和GPT-3.5在測試中的表現(xiàn)雖然未達(dá)到“真人對話者”的水平，但目前AI研究者普遍認(rèn)為，只要有30%的回答被誤認(rèn)為是人類，那就算通過測試。不過也有觀點認(rèn)為，50%的基線更加合理，因為它更能證明人類在識別AI方面并不具有偶然性。

在上述研究中，參與者的置信度得分和決策依據(jù)都表明他們并非隨意猜測：GPT-4是人類的平均置信度為73%。

還需要指出的是，由于研究人員在進(jìn)行上述實驗時，OpenAI尚未宣布新一代的旗艦?zāi)Ｐ虶PT-4o。這一全新模型可以利用語音、視頻和文本信息進(jìn)行實時推理，如果參與測試，被參與者誤認(rèn)為人類的結(jié)果可能就會更高。

圖靈測試是由英國計算機(jī)科學(xué)家阿蘭·圖靈（Alan Turing）于1950年在其論文《計算機(jī)器與智能》中提出的一個關(guān)于判斷機(jī)器是否能夠思考的著名試驗，測試某機(jī)器是否能表現(xiàn)出與人等同或無法區(qū)分的智能水平。1966年，美國計算機(jī)協(xié)會（ACM）還以圖靈的名字設(shè)立了圖靈獎，被譽為“計算機(jī)界的諾貝爾獎”，旨在獎勵對計算機(jī)事業(yè)作出重要貢獻(xiàn)的個人，每年頒發(fā)一次。

記者|蔡鼎

編輯|程鵬?蘭素英? 蓋源源

校對|何小桃

封面圖片來源：視覺中國（資料圖圖文無關(guān)）

｜每日經(jīng)濟(jì)新聞 ?nbdnews??原創(chuàng)文章｜

未經(jīng)許可禁止轉(zhuǎn)載、摘編、復(fù)制及鏡像等使用

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

“低價之下，豈有硬貨”，新車發(fā)布會成“吐槽大會”？長城汽車CGO高喊“要有底線”！網(wǎng)友：少些怨氣怒氣不行嗎？

返回每經(jīng)網(wǎng)首頁

下一篇文章

多省市呼吁，這一“超級工程”何時落地？

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2024 每日經(jīng)濟(jì)新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

<label id="2juyt"></label>

<td id="2juyt"></td>

<i id="2juyt"></i>