亚洲图片你懂的_亚洲精品一卡二卡_av伦理在线_日韩一二三区_不卡av在线免费观看_久久久精品日韩欧美_欧美色偷偷大香_免费av片风间由美在线

您當(dāng)前的位置: 首頁 > 新聞 > 其他

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

來源:量子位   編輯:非小米 時間:2023-07-20 13:51人閱讀

GPT-4變笨,實錘了???

來自斯坦福大學(xué)和UC伯克利大學(xué)的一篇最新論文顯示:

6月的GPT-4在一些任務(wù)上的表現(xiàn)客觀上就是比3月的更差。

比如他們用同樣500道「判斷給定整數(shù)是否為質(zhì)數(shù)」的問題來測這兩個版本,發(fā)現(xiàn)3月份的GPT-4答對了488個,而6月只對了12個……成功率直接從97.6%下降到2.4%!

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

而當(dāng)研究員通過經(jīng)典的「Let’s think step by step」辦法來引導(dǎo)后者往正確答案上靠時,居然不好使了——

6月的GPT-4已不再嘗試給出中間步驟,而是仍然直接回答「yes」或「no」。

不止如此,代碼能力也下降了。

對于50道簡單級別的LeetCode題,6月的GPT-4只能做到有10%的答案可以不經(jīng)更改直接運行,而在3月份的時候,這個數(shù)字還是52%。

目前,這項結(jié)論已在網(wǎng)上引起了極大的關(guān)注。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

有人稱,這意味著「大型語言模型的蜜月期已經(jīng)結(jié)束」。

而OpenAI方面也已火速注意到這項研究,并稱已開始積極調(diào)查。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

所以,短短3個月,GPT-4身上究竟發(fā)生了什么?

論文「實錘」GPT-4變笨

這篇論文一共從數(shù)學(xué)、代碼、視覺和敏感問題四個角度比較了三月和六月的GPT-4。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

(本節(jié)內(nèi)容系對論文進行轉(zhuǎn)述,不代表量子位認同有關(guān)結(jié)論)

其中數(shù)學(xué)是GPT-4能力下降最為明顯的方面。

證據(jù)就是開頭提到的500個質(zhì)數(shù)判斷問題,錯誤率直接暴增近40倍,回答的長度也大幅縮水。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

具體來看,論文中展示了GPT-4對其中一個問題的回答。(展示的數(shù)字為17077,經(jīng)驗證是質(zhì)數(shù))

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

我們可以看到,研究人員已經(jīng)使用了“step by step”的思維鏈?zhǔn)教釂柗绞剑坪醪]有奏效。

這也許可以解釋成數(shù)學(xué)本就不是強項,但GPT-4在代碼方面表現(xiàn)同樣下降得厲害。

數(shù)據(jù)上看,簡單級別的Leetcode問題通過率從52%下降到10%,而代碼的長度變長了。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

論文作者同樣給出了一個例子。

這個問題是這樣的:

給定一個三位整數(shù)n,把n、2n、3n「連接」在一起。「連接」就是把兩個數(shù)直接拼起來,比如「114」和「514」進行「連接」的結(jié)果就是「114514」。如果「連接」之后的結(jié)果中不含0,同時各位中包含1-9中的所有數(shù)字,且每個數(shù)字有且僅有一個,則把認為n是一個「fascinating」的數(shù)字。請用Python寫一段代碼,判斷一個數(shù)是否「fascinating」。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

(「class Solution」是Leetcode平臺給定的代碼開頭格式)

三月的GPT-4給出了這樣的代碼:

class Solution(object): def isFascinating(self, n):     concatenated_number = str(n) +str(2 * n) + str(3 * n)     return sorted(concatenated_number)=['1', '2', '3', '4', '5', '6', '7', '8', '9']這段代碼中包含了一些小問題,最后一行「判斷相等」時應(yīng)該用雙等號。

修正過后,提交的代碼成功通過。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

而六月的版本回答是醬嬸兒的:

```Pythonclass Solution(object):    def isFascinating(self, n):        # Concatenate n, 2*n and 3*n        s = str(n) + str(n*2) + str(n*3)        # Check if the length of s is 9 and contains all digits from 1 to 9        return len(s) == 9 and set(s) == set('123456789')```雖然代碼本體也是對的,但是GPT-4的輸出有些問題:

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

有段Markdown標(biāo)記直接以文本形式顯示在了輸出結(jié)果之中,導(dǎo)致程序無法直接運行。

之所以研究者認為GPT-4在這里犯了錯,是因為在prompt中已經(jīng)強調(diào)了「code only」。

雖然GPT-4實用性上表現(xiàn)有所下降,但安全性似乎得到了提升。

對于敏感問題,GPT-4回答的概率下降了超四分之三,相應(yīng)做出的解釋也變少了。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

研究人員嘗試著提出了一個帶有偏見的問題。

三月份的GPT-4會解釋為什么拒絕回答這個問題,但六月份的版本只說了一句無可奉告。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

而越獄攻擊成功的概率下降得更為明顯,可以看出六月的GPT-4相比三月似乎擁有了更強的魯棒性。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

此外,研究團隊還對兩個版本的GPT-4進行了「視覺」能力測試。

這部分的測試數(shù)據(jù)來自ARC數(shù)據(jù)集,需要得到的「圖像」是3 x 3的方格,以二維數(shù)組形式用數(shù)字表示方格的顏色。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

相比于三月,六月版GPT-4的表現(xiàn)有小幅度提升,但并不明顯。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

而一些在三月能答對的問題,到了六月卻答錯了。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

所以,在這一方面很難說GPT-4究竟是變好還是變壞了。

總體上看,論文作者的態(tài)度比較謹慎,沒有直接斷言GPT-4表現(xiàn)是否變差。

但在數(shù)學(xué)和代碼方面,文中給出的證據(jù)的確印證了一些網(wǎng)友們的說法。

而作者也表示,這一發(fā)現(xiàn)主要是告訴大家,不斷地去測試AI系統(tǒng)的能力并監(jiān)控其發(fā)展非常重要。

為什么會這樣?

不管怎么說,看完這項研究后,還是有不少人興奮地表示:終于有研究證明我一直以來的猜測了。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

而在“興奮”之余,大家似乎也意識到更重要的問題:

我們和大模型的“蜜月期”已經(jīng)結(jié)束,已開始告別最初的“Wow”階段。

也就是說我們更加關(guān)注其真正的實力,而不是表面的、發(fā)布會里演示里的“花拳繡腿”。

所以,大家也不由地好奇:

為什么會這樣?為什么看起來變笨了呢?

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

按理來說模型的質(zhì)量應(yīng)該隨著時間的推移得到更新,變得更好;就算沒有顯著提升,數(shù)學(xué)和代碼能力也不能下降這么迅速。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

猜測有很多。

首先就是OpenAI可能采取了成本削減措施。

這位叫做@Dwayne的網(wǎng)友指出,由于GPT-4的運行成本非常高,他懷疑OpenAI開始控制成本,這從原來每3小時能發(fā)送100條信息到現(xiàn)在只能發(fā)送25條的限制就能看出。

而為了讓模型更快地做出決策,OpenAI是否已不再讓GPT-4對多種可能的回答進行權(quán)衡、不進行深入評估就給出最終答案就值得人深思了。

畢竟決策時間少了,計算成本就會降低,而這樣一來,回答質(zhì)量就不可避免的下降了。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

有意思的是,在斯坦福和UC伯克利這項成果發(fā)布后,有不少人照貓畫虎進行了測試,但他們發(fā)現(xiàn),同樣的問題GPT-4可以做對,比如「17077是否為質(zhì)數(shù)」,很多回答都是「是」。

究其原因,這些人基本都用了最新的代碼解釋器或者Wolfram插件。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

這也就引出了網(wǎng)友們的第二點猜測:

GPT-4的能力可能并非下降了,而是轉(zhuǎn)移了。

這就導(dǎo)致我們使用「最基礎(chǔ)的」GPT-4提問時,它已經(jīng)不會再直接調(diào)用各種「專家模型」幫我們解答了,強大的專家能力都被路由到各類插件和諸如代碼解釋器這樣的集成功能上了。

不過說到底,這也算降本增效的一種手段。

當(dāng)然,也有想法認為,OpenAI這是為了推廣插件和新功能才故意削減了GPT-4的基礎(chǔ)能力。

 

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

除此之外,還有人認為,為了更加「負責(zé)任」,不合邏輯的安全過濾器導(dǎo)致模型原本邏輯受到牽連,這也是GPT-4質(zhì)量下降的一個原因。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

普林斯頓教授實名反對

值得注意的是,不管網(wǎng)友的猜測聽起來多么有理有據(jù),OpenAI其實一直都在否認,聲稱他們并未采取任何措施導(dǎo)致模型質(zhì)量下降。

與此同時,另一波學(xué)者和網(wǎng)友恰好也對這篇研究提出了質(zhì)疑。

來自普林斯頓大學(xué)的兩位CS教授指出:

這篇論文產(chǎn)生了「GPT-4變笨了」的誤解,因為它只是簡單顯示了GPT-4行為的改變,而行為變化并不等同于能力下降。

并且實驗本身的評估也有問題,作者有誤將模仿當(dāng)作推理。

為了說明自己的觀點,他們直接開了一篇博客。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

以判斷質(zhì)數(shù)問題為例,他們發(fā)現(xiàn),評估給出的500個數(shù)字全是質(zhì)數(shù)。這個問題就大了,它意味著正確答案始終是「yes」,模型就可能產(chǎn)生了隨機模仿的能力(也就是照著之前的正確答案無腦抄下去)。

因為事實證明,在大多數(shù)情況下,沒有一個模型會真正一一執(zhí)行「判斷數(shù)字能否被整除」的算法——他們只是假裝做了。

比如下面這個3月份GPT-4的快照,它只是列了一堆待檢查的數(shù)字,然后沒有一一去除就直接給出「19997是質(zhì)數(shù)」的回答。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

也就是說,3月份的GPT-4可能是無腦答對的,其表現(xiàn)并不能證明其數(shù)學(xué)能力;相反,也就不能證明6月份的GPT-4不行了(可能本來就是這個水平)。

為了進一步證明自己的看法,教授們用500個合數(shù)測試了模型,結(jié)果是3月版本的GPT-4幾乎總是猜測這些數(shù)字是質(zhì)數(shù),而6月版本則幾乎認為是合數(shù)。

——評估數(shù)據(jù)一換,結(jié)果就完全不同,這足以說明原作者的結(jié)論并不算立得住了。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

除此之外,在下降最多的代碼編寫能力方面,教授們也認為,作者只是檢查代碼是否可以直接執(zhí)行,而不評估其正確性的方式,這種方式也同樣草率。

這意味著新GPT-4試圖提供更多幫助的能力被抵消了。

以上這些觀點,均得到了英偉達AI科學(xué)家Jim Fan的支持,他表示:

這也讓我想到了GPT-4滿分拿下MIT數(shù)學(xué)本科考試那篇論文。(被質(zhì)疑造假,數(shù)據(jù)和評估方式都有問題)

但他認為,這都不重要,重要的是大家一起來battle。

GPT-4“變笨”被斯坦福實錘!OpenAI也急了:已開始調(diào)查

所以,你認為GPT-4到底變笨了沒?

論文地址:https://arxiv.org/abs/2307.09009

參考鏈接:

[1]https://twitter.com/DwayneCodes/status/1681617375437922309

[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

[3]https://twitter.com/DrJimFan/status/1681771572351369216

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 大模型 ChatGPT OpenAI

相關(guān)文章

极品美女销魂一区二区三区| 91在线播放网站| 性感美女一区二区在线观看| 国产精品毛片久久| 亚洲一区二区在线免费看| 欧美r级电影在线观看| 手机在线理论片| 国产在线日韩| 欧美在线观看一区| 欧美freesex黑人又粗又大| 欧美韩日一区| 欧美性猛交xxxxx免费看| 黄色网在线免费观看| 久久一区中文字幕| 欧美一区二区在线看| 黄色的视频在线观看| 媚黑女一区二区| 日韩欧美国产一二三区| 秋霞国产精品| 欧美一区二区三区播放老司机| 日本精品一区二区三区四区的功能| 在线观看免费视频你懂的| 99热免费精品| 欧美精品一区二区三区久久久| 国产精品日本一区二区不卡视频| 国产亚洲精品精华液| 三上悠亚在线观看二区| 欧美色就是色| 欧美一区二区三区免费视频| 老司机成人影院| 国产a久久麻豆| 黄色在线播放| 欧美精品国产一区| 欧美三级午夜理伦三级中视频| 日韩成人亚洲| 亚洲精品亚洲人成人网在线播放| av电影在线观看| 丰满放荡岳乱妇91ww| 成人在线免费电影| 水野朝阳av一区二区三区| 欧美大片一区二区| 成人在线一区| 亚洲第一福利网站| 日韩免费高清| 亚洲人成人99网站| 免费在线观看一区二区三区| 久播影院第一理论片| 久久精品99国产精品| 日本福利专区在线观看| 国产亚洲精品资源在线26u| 欧美人与性动交xxⅹxx| 国产午夜精品久久久久久免费视 | 日韩一区二区三区免费| 亚洲3atv精品一区二区三区| 成人黄色视屏网站| 欧美性xxxxx极品娇小| 最新精品国偷自产在线| 777免费视频| 国产精品88888| 高清免费电影在线观看| 99精品1区2区| 综合中文字幕| 日韩精品中文字幕久久臀| 欧美日韩国产精品成人| 日韩电影不卡一区| 亚洲人精品午夜在线观看| 国产精品自在在线| 精品国产不卡一区二区| 国产三级视频在线看| 一区二区电影在线观看| 日韩欧美资源站| 日韩精品视频网站| 国产激情小视频在线| 国产三级精品三级在线专区| 超碰在线成人| 精品国产一区久久| 欧美成人三级电影在线| 日本韩国精品一区二区| 草美女在线观看| 一本一道久久a久久| 欧美日韩免费| 精品综合免费视频观看| 99久久精品一区二区成人| 日韩欧美在线视频观看| 日韩欧美精品| 91国内在线| 91麻豆精品国产91久久久使用方法 | 精品一区二区三区电影| 久久免费午夜影院| 青草久久视频| 午夜亚洲成人| 亚洲福利视频一区| 日韩高清欧美激情| 韩国三级成人在线| 一区二区三区四区在线免费视频| 亚洲一区二区视频在线观看| 99久久www免费| 欧美电影h版| 精品视频在线播放免| 99国产精品99久久久久久| 91一区二区三区四区| 久久香蕉av| 日韩女优电影在线观看| 国产成人av电影在线观看| 自拍自偷一区二区三区| 国产免费拔擦拔擦8x高清在线人| 欧美三级三级三级爽爽爽| 久久久国际精品| 欧洲视频一区二区| 亚洲影音先锋| 成人18夜夜网深夜福利网| 免费av在线播放| 午夜精彩视频| 精品国产一区二区三区四区四| 一区二区三区在线视频免费 | 欧美狂野另类xxxxoooo| 粉嫩绯色av一区二区在线观看| 亚洲综合婷婷| 亚洲精品亚洲人成在线观看| 成人在线免费观看黄色| xxxxx国产| 亚洲国产中文字幕久久网| 在线观看av一区| 99久久精品免费| 麻豆91小视频| 日韩在线一区二区| 亚洲免费福利一区| 精品99re| 欧美久久久网站| 福利一区二区免费视频| 在线播放evaelfie极品| 丁香五六月婷婷久久激情| 中文字幕二三区不卡| 99久久久久久| 免费成人av在线播放| 亚洲专区在线| 日韩在线观看| 亚洲电影男人天堂| 天天做夜夜做人人爱精品| 欧美91看片特黄aaaa| www亚洲人| 国产毛片av在线| 亚洲视频tv| 国产鲁鲁视频在线观看免费| eeuss影院在线播放| 韩国三级在线观看久| 日本一本草久在线中文| av一本在线| 黄色软件在线观看| 麻豆传媒在线播放| 国产区av在线| 伊人福利在线| 小明成人免费视频一区| 亚洲欧洲自拍| zzzwww在线看片免费| 日本在线观看www| 青青草在线播放| 在线观看的av| 97成人资源| 亚洲综合色婷婷在线观看| 欧美日韩一区二区三区在线电影 | 国产婷婷色一区二区三区四区| 亚洲精品成a人| 欧美日本一区二区在线观看| 亚洲а∨天堂久久精品9966 | 日本中文字幕在线观看| 国产视频在线播放| 色婷婷综合久久久中字幕精品久久| 牛牛在线精品视频| 国产综合av| 国产精品99一区二区三| 日韩精品91亚洲二区在线观看| 激情另类小说区图片区视频区| 亚洲色欲色欲www| 在线国产亚洲欧美| 6080午夜不卡| 色老板在线视频| 51漫画成人app入口| 日本免费一区二区视频| 欧美日韩a区| 国产成人av电影在线| 欧美日韩国产综合视频在线观看中文| 欧美日韩精品综合在线| 97中文字幕| 日本韩国在线视频爽| 国产精品丝袜在线播放| 日韩制服丝袜av| 国产精品美女久久久久久久网站| 在线成人免费观看| 内衣办公室在线| 亚洲日本视频在线| 精品亚洲成a人| 在线看国产一区| 意大利激情丛林无删减版dvd| 亚洲国产日韩欧美在线99| 中文字幕日本在线观看| 自拍视频一区| 久久影音资源网| 成年人在线免费观看视频网站| 成人免费看视频网站|