【管家婆最準(zhǔn)一肖碼澳門精華區(qū)】
【2o23年澳門免費(fèi)資料大全】
【2024澳門六開彩資料查詢最新開獎(jiǎng)結(jié)果】
【馬會一澳門】
【新澳門2024正版資料免費(fèi)大全】
【2024澳門精準(zhǔn)正版澳門碼320506】
【澳門碼匯現(xiàn)場開獎(jiǎng)結(jié)果】
【澳門一碼一肖期期準(zhǔn)】
【118澳門-開獎(jiǎng)網(wǎng)】
【一碼中精準(zhǔn)一碼發(fā)財(cái)2024】
【澳門必中一肖一碼精準(zhǔn)】
【管家婆精準(zhǔn)資料免費(fèi)大全】
【香港一肖一碼期期準(zhǔn)中選料1file】
【管家婆三期開一期2024】
【2O24管家婆一碼一肖資料】
【管家婆三期開一期精準(zhǔn)】
【澳門金牛論壇網(wǎng)站資料免費(fèi)】
【香港一肖一碼100%準(zhǔn)確下載】
【香港二四六天天免費(fèi)資科】
【何仙姑一肖一碼公開】
【澳門六合開碼出吖扌吧】
【三肖三期必開一期期誰】
【118彩圖庫香港跑狗圖】
【管家婆期期中特期期四碼中特管家】
【澳門一肖一碼100最簡單解決】

本文作者:李丹

來源:硬AI

以ChatGPT掀起這輪AI應(yīng)用熱潮的OpenAI正在用行動(dòng)證明,在基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)領(lǐng)域,它也是先行者。

美東時(shí)間6月27日周四,OpenAI公布,其研究人員訓(xùn)練了一個(gè)基于 GPT-4 的模型,它被稱為 CriticGPT,用于捕捉ChatGPT 代碼輸出中的錯(cuò)誤。簡單來說就是,CriticGPT讓人能用 GPT-4 查找 GPT-4 的錯(cuò)誤。它可以寫出使用者對ChatGPT響應(yīng)結(jié)果的批評評論,從而幫助人類訓(xùn)練者在RLHF期間發(fā)現(xiàn)錯(cuò)誤。

OpenAI發(fā)現(xiàn),如果通過CriticGPT獲得幫助審查 ChatGPT編寫的代碼,人類訓(xùn)練師的審查效果比沒有獲得幫助的人強(qiáng)60%。OpenAI稱,正著手將類似 CriticGPT 的模型集成到旗下 RLHF 標(biāo)記管道中,為自己的訓(xùn)練師提供明確的AI幫助。

OpenAI稱,因?yàn)闆]有更好的工具,所以人們目前難以評估高級的AI系統(tǒng)的表現(xiàn)。而CriticGPT意味著,OpenAI向能夠評估高級AI系統(tǒng)輸出的目標(biāo)邁進(jìn)了一步。,

OpenAI舉了一個(gè)例子,如下圖所示,對ChatGPT提出一個(gè)用 Python 編寫指定函數(shù)的任務(wù),對于ChatGPT根據(jù)要求提供的代碼,CriticGPT點(diǎn)評了其中一條指令,提議換成效果更好的。


OpenAI稱,CriticGPT 的建議并不是全都正確無誤,但OpenAI的人員發(fā)現(xiàn),相比沒有這種AI的幫助,有了它,訓(xùn)練師可以發(fā)現(xiàn)更多模型編寫答案的問題。

此外,當(dāng)人們使用CriticGPT 時(shí),這種AI模型會增強(qiáng)他們的技能,從而得出的批評結(jié)論比單單人類訓(xùn)練師做的更全面,并且比AI模型單獨(dú)工作時(shí)產(chǎn)生的幻覺錯(cuò)誤更少。

在OpenAI的實(shí)驗(yàn)中,在60%以上的時(shí)間里,隨機(jī)選擇的訓(xùn)練師都更喜歡來自人類與CriticGPT 合作的批評結(jié)論,而不是來自沒有CriticGPT協(xié)助的人類訓(xùn)練師批評。


OpenAI同時(shí)提到了目前開發(fā)CriticGPT的四點(diǎn)局限。其中之一是,OpenAI用 ChatGPT 的簡短答案訓(xùn)練CriticGPT,因此未來需要發(fā)掘能幫助訓(xùn)練師理解冗長且復(fù)雜任務(wù)的方法。

第二點(diǎn)是,模型仍然會產(chǎn)生幻覺,有時(shí)訓(xùn)練師在看到這些幻覺后會犯下標(biāo)記錯(cuò)誤。第三點(diǎn)是,有時(shí)現(xiàn)實(shí)世界中的錯(cuò)誤可能分散在答案的許多部分之中,OpenAI目前的工作重點(diǎn)是讓模型指出一處的錯(cuò)誤,未來還需要解決分散在不同位置的錯(cuò)誤。

第四點(diǎn),OpenAI指出,CriticGPT 只能提供有限的幫助:如果ChatGPT面對的任務(wù)或響應(yīng)極其復(fù)雜,即使是有模型幫助的專家也可能無法正確評估。

最后,OpenAI表示,為了協(xié)調(diào)日益復(fù)雜的 AI 系統(tǒng),人們需要更好的工具。在對 CriticGPT 的研究中,OpenAI發(fā)現(xiàn),將 RLHF 應(yīng)用于 GPT-4 有望幫助人類為 GPT-4 生成更好的 RLHF 數(shù)據(jù)。OpenAI計(jì)劃,進(jìn)一步擴(kuò)大這項(xiàng)工作,并將其付諸實(shí)踐。

OpenAI在原名推特的社交媒體X上公布了新模型CriticGPT后,一條點(diǎn)贊超1萬的網(wǎng)友評論稱,自我改進(jìn)已經(jīng)開始了。

另一條點(diǎn)贊上萬的熱截取了OpenAI的相關(guān)研究文章結(jié)論,其中提到,在智能方面,大語言模型(LLM)和LLM的批評都只會繼續(xù)改進(jìn),而人類的智能不會,這條評論感嘆,真是悲觀。


還有網(wǎng)友引用了漫威超級英雄電影《復(fù)仇者聯(lián)盟》中滅霸的一句臺詞,點(diǎn)評OpenAI所說的用GPT-4找GPT-4的錯(cuò)誤:“我用寶石摧毀了寶石。”