【新澳彩特馬開獎(jiǎng)結(jié)果歷史記錄查詢】
【管家婆一肖一碼開獎(jiǎng)大全資料】
【天下彩9944CC天下贏彩天汜】
【2024金球獎(jiǎng)最新消息】
【藍(lán)月亮心水高手論壇第一】
【香港最快開獎(jiǎng)結(jié)果直播開獎(jiǎng)記錄香】
【澳門管家婆一句話大贏錢網(wǎng)站】
【今天晚上澳門開什么】
【2024香港管家婆免費(fèi)資料】
【澳門黃大仙必開一碼37b深度解析】
【新澳彩開獎(jiǎng)直播在線觀看】
【新澳門內(nèi)部資料精準(zhǔn)大全】
【澳門特馬資料期期準(zhǔn)你來(lái)了我就不好了】
【澳門今晚開特馬開幾號(hào)】
【136234藏寶圖最準(zhǔn)一肖49128】
【管家婆一碼一肖資料欲錢解詩(shī)】
【澳門626969正版免費(fèi)資料】
【黃大仙免費(fèi)精準(zhǔn)大全的功能介紹】
【澳門精選一肖一碼全年資料】
【天下彩328cc天下彩資料的】
【香港港彩開獎(jiǎng)結(jié)果號(hào)碼2024年】
【澳門綜合資料免費(fèi)的】
【澳門六開獎(jiǎng)結(jié)果2024開獎(jiǎng)資料查詢】
【澳門碼今晚開什么號(hào)碼2】
【澳門管家婆資料免費(fèi)公開】

大模型參加高考,能考多少分,上什么大學(xué)?

6月24日,在極客公園最新發(fā)布的高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告中,GPT-4o 以562分排名文科總分第一。國(guó)內(nèi)產(chǎn)品中,字節(jié)跳動(dòng)旗下的豆包拔得頭籌,成績(jī)是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小應(yīng)”的521分。本次大模型高考評(píng)測(cè)與河南省考卷完全相同,河南高考錄取分?jǐn)?shù)線顯示,文科本科一批錄取分?jǐn)?shù)線為521分,豆包等三款國(guó)產(chǎn)AI成功沖上一本線。

與文科相比,大模型的理科成績(jī)要差很多,最高分還不到480分,多數(shù)大模型的理科總分在400分以下。相比河南理科511分的一本線,大模型尚有較大差距。



大語(yǔ)言模型遇上語(yǔ)言考試:有望沖滿分

語(yǔ)文、英語(yǔ)的語(yǔ)言類考試,是大模型有能力和人類考生較量的賽場(chǎng),多家產(chǎn)品能拿到客觀題目的滿分或接近滿分。

憑借中文語(yǔ)言的“主場(chǎng)優(yōu)勢(shì)”,三款國(guó)產(chǎn)大模型產(chǎn)品獲得了語(yǔ)文考試前三名,分別是百小應(yīng)、字節(jié)豆包和騰訊元寶,得分依次為128分、125.5分和120.5分。除了少數(shù)開放性的閱讀理解和語(yǔ)言文字運(yùn)用問(wèn)題,各家大模型主要丟分在語(yǔ)文寫作上。

作為本次評(píng)測(cè)的語(yǔ)文作文閱卷人,北京市級(jí)骨干教師、懷柔區(qū)語(yǔ)文學(xué)科帶頭人夏老師曾多次參加全國(guó)高考語(yǔ)文閱卷。夏老師認(rèn)為:“Al寫出的文章大多有清晰完整的結(jié)構(gòu),有邏輯性,語(yǔ)言通順流暢。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力?!?/p>

英語(yǔ)寫作同樣是大模型的一大難題。本次評(píng)測(cè)默認(rèn)所有大模型的聽力都獲得30分滿分。在閱讀和語(yǔ)言運(yùn)用兩大項(xiàng)客觀問(wèn)題的考試上,GPT-4o、百小應(yīng)、通義千問(wèn)獲得80分滿分,豆包和文心一言4.0也接近滿分。但是在40分的寫作考試中,最高分只有29分,分別由GPT-4o和百小應(yīng)獲得,各家模型的英語(yǔ)寫作主要丟分在表達(dá)空泛、缺少細(xì)節(jié)上。如果大模型在未來(lái)能夠提升寫作能力,獲得高考滿分并非難事。

文綜出色,豆包獲歷史最高分

在由歷史、地理、政治組成的新課標(biāo)文綜考卷評(píng)測(cè)中,GPT-4o獲得237分的成績(jī),平均分達(dá)到79分,優(yōu)于多數(shù)人類考生。國(guó)產(chǎn)大模型產(chǎn)品中,豆包的文綜成績(jī)最高,分?jǐn)?shù)達(dá)到224.5分,其中歷史科目拿到82.5分,在所有9款大模型中得分第一。

政治考試中,GPT-4o出人意料的獲得了88分的最高分,百小應(yīng)和豆包得分超過(guò)80。地理考卷則有大量圖片問(wèn)題,對(duì)一眾大模型是不小的挑戰(zhàn),圖像理解能力較強(qiáng)的GPT-4o得到最高分,但僅有68分。

河南高考分?jǐn)?shù)段統(tǒng)計(jì)數(shù)據(jù)顯示,GPT-4o的562分在文科考生中排名8811名,相當(dāng)于人類考生的前2.45%,豆包則處于前4.27%的位置。在過(guò)去一年多時(shí)間里,國(guó)產(chǎn)AI技術(shù)能力獲得了長(zhǎng)足進(jìn)步,目前已經(jīng)接近國(guó)際頂尖大模型的水平。

數(shù)理全線不及格,AI有待提升

與人類頂尖考生相比,大模型在數(shù)學(xué)、物理、化學(xué)等數(shù)理學(xué)科上差距極大,包括GPT-4o在內(nèi)的所有大模型都無(wú)法達(dá)到及格水平。盡管在語(yǔ)文、英語(yǔ)兩科上能獲得高分,大模型的理科最好成績(jī)還無(wú)法進(jìn)入人類考生的前30%。

以數(shù)學(xué)試卷為例,9款大模型產(chǎn)品中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(jī)(滿分150分),目前的大模型只能正確推理步驟相對(duì)簡(jiǎn)單的問(wèn)題。據(jù)測(cè)試機(jī)構(gòu)透露,豆包等大模型能準(zhǔn)確運(yùn)用求導(dǎo)公式和三角函數(shù)定理,但是面對(duì)較為復(fù)雜的推導(dǎo)和證明問(wèn)題就很難繼續(xù)得分。

重點(diǎn)考查實(shí)驗(yàn)探究能力的化學(xué)和物理試卷,各模型平均分更是只有34分和39分(滿分為100和110)?;瘜W(xué)單項(xiàng)最高分由豆包獲得,成績(jī)?yōu)?9.5分,GPT-4o僅有42分。大模型在應(yīng)對(duì)考試的靈活性上也不如人類。例如物理有一道送分題,人類考生根據(jù)“時(shí)間不會(huì)倒流”可以排除錯(cuò)誤選項(xiàng),輕易選對(duì)正確答案“C”,大模型則幾乎全軍覆沒(méi)。要學(xué)會(huì)像人類一樣思考和解決問(wèn)題,大模型還有很長(zhǎng)的路要走。



南都記者 汪陳晨