在教室伦流澡到高潮H作文,欧美日韩在线亚洲二区综二,国产精品线在线精品,成人十八禁网站在线观看免费

解決AI“高分低能” 需要升級(jí)的是考核機(jī)制

2022-06-14 10:40:45   來(lái)源:科技日?qǐng)?bào)

目前部分人工智能沉迷刷榜,在基準(zhǔn)測(cè)試時(shí)高分通過(guò),表現(xiàn)優(yōu)異,但實(shí)際應(yīng)用中卻還會(huì)犯一些非?;A(chǔ)的錯(cuò)誤。

日,有媒體報(bào)道,目前部分人工智能沉迷刷榜,在基準(zhǔn)測(cè)試時(shí)高分通過(guò),表現(xiàn)優(yōu)異,但實(shí)際應(yīng)用中卻還會(huì)犯一些非常基礎(chǔ)的錯(cuò)誤。這種沉迷刷榜,忽略實(shí)用質(zhì)的行為造成了部分AI模型“高分低能”的現(xiàn)象。那么,對(duì)于AI發(fā)展而言,基準(zhǔn)測(cè)試是否必要?在實(shí)際應(yīng)用中,基準(zhǔn)測(cè)試哪些問(wèn)題有待改進(jìn)完善呢?

AI模型哪家好,基準(zhǔn)測(cè)試來(lái)說(shuō)話

AI模型應(yīng)該如何衡量其能?

“目前AI模型能力的高低取決于數(shù)據(jù),因?yàn)锳I的本質(zhì)是學(xué)習(xí)數(shù)據(jù),輸出算法模型。為了公衡量AI能力,很多機(jī)構(gòu)、企業(yè)甚至科學(xué)家會(huì)收集、設(shè)計(jì)不同的數(shù)據(jù)集,其中一部分喂給AI訓(xùn)練,得到AI模型,另外一部分?jǐn)?shù)據(jù)用于考核AI模型的能力,這就是基準(zhǔn)測(cè)試。”日,西安電子科技大學(xué)電子工程學(xué)院教授吳家驥接受科技日?qǐng)?bào)記者采訪時(shí)表示。

吳家驥介紹說(shuō),機(jī)器學(xué)習(xí)越來(lái)越多地用于各種實(shí)際應(yīng)用場(chǎng)景,例如圖像和語(yǔ)音識(shí)別、自動(dòng)駕駛汽車、醫(yī)學(xué)診斷等。因此,了解其在實(shí)踐中的行為和能變得非常重要。其魯棒和不確定的高質(zhì)量估計(jì)對(duì)于許多功能至關(guān)重要,尤其是在深度學(xué)習(xí)領(lǐng)域。為掌握模型的行為,研究人員要根據(jù)目標(biāo)任務(wù)的基線來(lái)衡量其能。

2010年,基于ImageNet數(shù)據(jù)集的計(jì)算機(jī)視覺(jué)競(jìng)賽的推出,激發(fā)了深度學(xué)習(xí)領(lǐng)域一場(chǎng)算法與數(shù)據(jù)的革命。從此,基準(zhǔn)測(cè)試成為衡量AI模型能的一個(gè)重要手段。微軟公司的計(jì)算機(jī)科學(xué)家馬塞洛·里貝羅表示,基準(zhǔn)測(cè)試應(yīng)該是從業(yè)者工具箱中的一個(gè)工具,人們用基準(zhǔn)來(lái)代替對(duì)于模型的理解,通過(guò)基準(zhǔn)數(shù)據(jù)集來(lái)測(cè)試“模型的行為”。

例如,在自然語(yǔ)言處理領(lǐng)域,GLUE科研人員讓AI模型在包含上千個(gè)句子的數(shù)據(jù)集上訓(xùn)練,并在9個(gè)任務(wù)上進(jìn)行測(cè)試,來(lái)判斷一個(gè)句子是否符合語(yǔ)法,并分析情感,或者判斷兩個(gè)句子之間是否是邏輯蘊(yùn)涵等,一度難倒了AI模型。隨后,科研人員提高了基準(zhǔn)測(cè)試難度,一些任務(wù)要求AI模型不僅能夠處理句子,還要處理來(lái)自維基百科或新聞網(wǎng)站的段落后回答閱讀理解問(wèn)題。僅經(jīng)過(guò)1年的發(fā)展,AI模型的能從不到70分輕松達(dá)到90分,超越了人類。

吳家驥表示:“科學(xué)研究要有科學(xué)問(wèn)題、方法、計(jì)算、試驗(yàn)對(duì)比等要素。因此在進(jìn)行科學(xué)研究,包括人工智能的科研中,也必須有計(jì)算與試驗(yàn)對(duì)比,也就是說(shuō)AI算法的能力應(yīng)該是可測(cè)量的,目的是驗(yàn)證研究方法的可行、有效。因此,基準(zhǔn)測(cè)試很有必要,這樣才可以公驗(yàn)證AI算法能力的高低好壞,避免各說(shuō)各話,‘王婆賣瓜自賣自夸’。”

算法最終服務(wù)實(shí)踐,而非刷榜

有人說(shuō),高分是AI模型的興奮劑。于是,有的人工智能為了取得好成績(jī)而頻頻刷榜。

微軟公司2020年發(fā)布報(bào)告指出,包括微軟、谷歌和亞馬遜在內(nèi)的各種sota模型包含諸多隱含錯(cuò)誤,比如把句子里的“what's”改成“what is”,模型的輸出結(jié)果就會(huì)截然不同,而在此前,從沒(méi)有人意識(shí)到這些曾被評(píng)價(jià)還不錯(cuò)的商業(yè)模型竟會(huì)在應(yīng)用中如此糟糕。顯然,這樣訓(xùn)練出的AI模型就像一個(gè)只會(huì)考試、成績(jī)優(yōu)異的學(xué)生,可以成功通過(guò)科學(xué)家設(shè)置的各種基準(zhǔn)測(cè)試,卻不懂為什么。

“為了獲得好成績(jī),研究人員可能會(huì)使用特殊的軟硬件設(shè)置對(duì)模型進(jìn)行調(diào)整和處理,讓AI在測(cè)試中表現(xiàn)出色,但這些能在現(xiàn)實(shí)世界中卻無(wú)法施展。”西安電子科技大學(xué)研究員尚坤指出。

在智能手機(jī)領(lǐng)域,我們談及手機(jī)的使用體驗(yàn)時(shí)一般都不免會(huì)涉及手機(jī)的能表現(xiàn),這些能通常會(huì)用跑分成績(jī)來(lái)表現(xiàn)。然而,我們常常會(huì)遇到一款手機(jī)的跑分成績(jī)處于排行榜領(lǐng)先水,但是在實(shí)際使用過(guò)程中卻出現(xiàn)動(dòng)畫掉幀、頁(yè)面滑動(dòng)卡頓、應(yīng)用假死等的現(xiàn)象。全球頂級(jí)評(píng)測(cè)網(wǎng)站AnandTech的一篇報(bào)道曾對(duì)這種現(xiàn)象提出質(zhì)疑,指出某品牌手機(jī)跑分時(shí)啟動(dòng)了“能模式”,而在時(shí)的使用中“能模式”很少被調(diào)用開啟。這種處理方式雖然能夠獲得高跑分,但是不能模擬用戶真實(shí)的使用情景,這讓基準(zhǔn)測(cè)試不具有參考意義。

尚坤認(rèn)為,針對(duì)上述問(wèn)題,改進(jìn)基準(zhǔn)的方法主要有:一種是增加更多的數(shù)據(jù)集,讓基準(zhǔn)變得更難。用沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)測(cè)試,這樣才能判斷AI模型是否能夠避免過(guò)擬合。研究人員可創(chuàng)建一個(gè)動(dòng)態(tài)數(shù)據(jù)收集和基準(zhǔn)測(cè)試臺(tái),針對(duì)每個(gè)任務(wù),通過(guò)眾包的方式,提交他們認(rèn)為人工智能模型會(huì)錯(cuò)誤分類的數(shù)據(jù),成功欺騙到模型的樣例被加入基準(zhǔn)測(cè)試中。如果動(dòng)態(tài)地收集數(shù)據(jù)增加標(biāo)注,同時(shí)迭代式的訓(xùn)練模型,而不是使用傳統(tǒng)的靜態(tài)方式,AI模型應(yīng)該可以實(shí)現(xiàn)更實(shí)質(zhì)的進(jìn)化。

尚坤說(shuō),另一種是縮小實(shí)驗(yàn)室內(nèi)數(shù)據(jù)和現(xiàn)實(shí)場(chǎng)景之間的差距?;€測(cè)試無(wú)論分?jǐn)?shù)多高,還是要用實(shí)際場(chǎng)景下的數(shù)據(jù)來(lái)檢驗(yàn),所以通過(guò)對(duì)數(shù)據(jù)集進(jìn)行更貼真實(shí)場(chǎng)景的增強(qiáng)和擴(kuò)容使得基準(zhǔn)測(cè)試更加接真實(shí)場(chǎng)景。如ImageNet-C數(shù)據(jù)集,可根據(jù)16種不同的實(shí)際破壞程度對(duì)原有的數(shù)據(jù)集進(jìn)行擴(kuò)充,可以更好模擬實(shí)際數(shù)據(jù)處理場(chǎng)景。

應(yīng)用廣泛,需盡快建立國(guó)家標(biāo)準(zhǔn)

美國(guó)麻省理工學(xué)院Cleanlab實(shí)驗(yàn)室的研究指出,常用的10個(gè)作為基準(zhǔn)的數(shù)據(jù)集中,有超過(guò)3%的標(biāo)注是錯(cuò)誤的,基于這些基準(zhǔn)跑分的結(jié)果則無(wú)參考意義。

“如果說(shuō),基準(zhǔn)測(cè)試堪稱人工智能領(lǐng)域的‘科舉制’,那么,‘唯分?jǐn)?shù)論’輸贏,是不可能訓(xùn)練出真正的好模型。要打破此種現(xiàn)象,一方面需要采用更全面的評(píng)估方法,另一方面可以考慮把問(wèn)題分而治之,比如用多個(gè)AI模型解決復(fù)雜問(wèn)題,把復(fù)雜問(wèn)題轉(zhuǎn)化為簡(jiǎn)單確定的問(wèn)題。簡(jiǎn)單且經(jīng)過(guò)優(yōu)化的基線模型往往優(yōu)于更復(fù)雜的方法。谷歌的研究人員為常見(jiàn)的AI任務(wù)引入了不確定基線庫(kù),來(lái)更好評(píng)估AI應(yīng)用的穩(wěn)健和處理復(fù)雜不確定的能力。”遠(yuǎn)望智庫(kù)人工智能事業(yè)部部長(zhǎng)、圖靈機(jī)器人首席戰(zhàn)略官譚茗洲指出。

雖然行業(yè)正在改變對(duì)于基準(zhǔn)的態(tài)度,但目前基準(zhǔn)測(cè)試研究仍然是一個(gè)小眾研究。谷歌在一份研究中采訪了工業(yè)界和學(xué)術(shù)界的53位AI從業(yè)者,其中許多人指出,改進(jìn)數(shù)據(jù)集不如設(shè)計(jì)模型更有成就感。

譚茗洲表示,AI應(yīng)用基準(zhǔn)研究是構(gòu)建國(guó)內(nèi)統(tǒng)一大市場(chǎng)的內(nèi)在需要,當(dāng)前AI已經(jīng)在國(guó)計(jì)民生的各類領(lǐng)域中得到廣泛應(yīng)用,更需要設(shè)立標(biāo)準(zhǔn)對(duì)AI模型進(jìn)行全面有效的評(píng)估,片面追求和采用高分AI模型,可能會(huì)讓模型在復(fù)雜極端場(chǎng)景下出現(xiàn)“智障”行為,并且可能由于訓(xùn)練和推理能的低效,造成不良社會(huì)影響、經(jīng)濟(jì)損失和環(huán)境破壞。

譚茗洲強(qiáng)調(diào),AI應(yīng)用基準(zhǔn)研究關(guān)乎國(guó)家戰(zhàn)略。針對(duì)重要領(lǐng)域,建立我國(guó)自己的AI基準(zhǔn)測(cè)試標(biāo)準(zhǔn)、AI數(shù)據(jù)集、AI模型評(píng)估標(biāo)準(zhǔn)等迫在眉睫。

據(jù)了解,西安電子科技大學(xué)的DvcLab也在AI基準(zhǔn)測(cè)試這個(gè)領(lǐng)域進(jìn)行了前瞻研究,特別是針對(duì)AI應(yīng)用基準(zhǔn)測(cè)試中數(shù)據(jù)集的整體質(zhì)量與動(dòng)態(tài)擴(kuò)展兩個(gè)關(guān)鍵問(wèn)題,正在開發(fā)可在線協(xié)作的數(shù)據(jù)標(biāo)注與AI模型研發(fā)托管項(xiàng)目,并計(jì)劃今年陸續(xù)開源,正在為構(gòu)建國(guó)家AI基準(zhǔn)評(píng)估標(biāo)準(zhǔn)體系進(jìn)行積極探索。(◎本報(bào)記者 華 凌)

標(biāo)簽: 解決AI高分低能 需要升級(jí) 考核機(jī)制

相關(guān)閱讀

解決AI“高分低能” 需要升級(jí)的是考核機(jī)制

科技

目前部分人工智能沉迷刷榜,在基準(zhǔn)測(cè)試時(shí)高分通過(guò),表現(xiàn)優(yōu)異,但實(shí)際應(yīng)用中卻還會(huì)犯一些非常基礎(chǔ)的錯(cuò)誤。近日,有媒體報(bào)道,目前部分人工智

2022-06-14

高精度智能線蟲誕生可蠕動(dòng)前行 讓屏幕前的

科技

近日,在2022智源大會(huì)開幕式上,北京智源人工智能研究院(以下簡(jiǎn)稱智源研究院)發(fā)布了天演團(tuán)隊(duì)最新科研成果高精度智能線蟲天寶1 0。畫面中,

2022-06-14

研究人員發(fā)現(xiàn)常見(jiàn)大麥蟲能吃掉塑料垃圾

科技

據(jù)10日發(fā)表在《微生物基因組學(xué)》雜志的一項(xiàng)研究,澳大利亞昆士蘭大學(xué)的研究人員發(fā)現(xiàn),常見(jiàn)的大麥蟲(Zophobas morio,又稱超級(jí)麥皮蟲)可以

2022-06-13

將人類基因與其功能一一對(duì)應(yīng) 項(xiàng)目數(shù)據(jù)在線

科技

人類基因組計(jì)劃完成20多年后,美國(guó)懷特黑德研究所喬納森·韋斯曼及其同事展示了在人類細(xì)胞中表達(dá)基因的第一份綜合功能圖譜。6月9日在線發(fā)表

2022-06-13

“智能皮膚”可探測(cè)微生物 有助促進(jìn)靈敏機(jī)

科技

歷經(jīng)6年努力,意大利和奧地利研究人員開創(chuàng)性地研發(fā)出一種三合一混合材料,被稱為新一代智能皮膚。其靈敏度是真實(shí)皮膚的1000倍,能探測(cè)觸覺(jué)

2022-06-13

解決AI“高分低能” 需要升級(jí)的是考核機(jī)制

科技

目前部分人工智能沉迷刷榜,在基準(zhǔn)測(cè)試時(shí)高分通過(guò),表現(xiàn)優(yōu)異,但實(shí)際應(yīng)用中卻還會(huì)犯一些非?;A(chǔ)的錯(cuò)誤。近日,有媒體報(bào)道,目前部分人工智

2022-06-14

高精度智能線蟲誕生可蠕動(dòng)前行 讓屏幕前的很多觀眾瞪大了眼睛

科技

近日,在2022智源大會(huì)開幕式上,北京智源人工智能研究院(以下簡(jiǎn)稱智源研究院)發(fā)布了天演團(tuán)隊(duì)最新科研成果高精度智能線蟲天寶1 0。畫面中,

2022-06-14

研究人員發(fā)現(xiàn)常見(jiàn)大麥蟲能吃掉塑料垃圾

科技

據(jù)10日發(fā)表在《微生物基因組學(xué)》雜志的一項(xiàng)研究,澳大利亞昆士蘭大學(xué)的研究人員發(fā)現(xiàn),常見(jiàn)的大麥蟲(Zophobas morio,又稱超級(jí)麥皮蟲)可以

2022-06-13

將人類基因與其功能一一對(duì)應(yīng) 項(xiàng)目數(shù)據(jù)在線發(fā)表于《細(xì)胞》雜志上

科技

人類基因組計(jì)劃完成20多年后,美國(guó)懷特黑德研究所喬納森·韋斯曼及其同事展示了在人類細(xì)胞中表達(dá)基因的第一份綜合功能圖譜。6月9日在線發(fā)表

2022-06-13

“智能皮膚”可探測(cè)微生物 有助促進(jìn)靈敏機(jī)器人和智能假肢的研發(fā)

科技

歷經(jīng)6年努力,意大利和奧地利研究人員開創(chuàng)性地研發(fā)出一種三合一混合材料,被稱為新一代智能皮膚。其靈敏度是真實(shí)皮膚的1000倍,能探測(cè)觸覺(jué)

2022-06-13

神秘“軸向希格斯模式”新粒子發(fā)現(xiàn) 研究成果在線發(fā)表于最近的《自然》雜志

科技

美國(guó)波士頓學(xué)院物理學(xué)家領(lǐng)導(dǎo)的一個(gè)跨學(xué)科團(tuán)隊(duì)發(fā)現(xiàn)了被稱為軸向希格斯模式的新粒子,這是一種以前無(wú)法檢測(cè)到的量子激發(fā),也是著名的希格斯玻

2022-06-13

仿生橡膠航空輪胎全流程技術(shù)鏈條貫通

科技

一架飛機(jī)沖向藍(lán)天,離不開腳上一雙能夠在高載荷、高溫、高沖擊條件下正常工作的鞋子,這雙鞋子就是航空輪胎。由于其制造技術(shù)壁壘極高,航空

2022-06-13

科學(xué)家們對(duì)“隼鳥2號(hào)”帶回的小行星樣本首次全面分析

科技

據(jù)New Atlas報(bào)道,一次為期六年的小行星往返旅行,使人們對(duì)太陽(yáng)系的形成有了前所未有的認(rèn)識(shí)??茖W(xué)家們對(duì)從小行星龍宮返回的樣本進(jìn)行了首次

2022-06-13

巨大的“鱷魚臉”恐龍被發(fā)現(xiàn) “歐洲最大的陸地捕食者”

科技

據(jù)CNET報(bào)道,由南安普頓大學(xué)的古生物學(xué)家領(lǐng)導(dǎo)的一項(xiàng)新研究已經(jīng)確定了歐洲有史以來(lái)最大的陸地捕食者之一的遺?。阂环N長(zhǎng)度超過(guò) 10 米、生活

2022-06-13

研究發(fā)現(xiàn):犬類與人為友的遺傳線索

科技

據(jù)《科學(xué)報(bào)告》9日發(fā)布的一項(xiàng)研究發(fā)現(xiàn),黑素皮質(zhì)素受體-2(MC2R)基因可能在犬類的馴化中發(fā)揮了作用,使它們發(fā)展出社會(huì)認(rèn)知技能,與人類交流

2022-06-10

遇見(jiàn)旗袍是于萬(wàn)千人群中的驚鴻一瞥 沿途灑滿了愛(ài)的芬芳

旗袍,中國(guó)和世界華人女性的傳統(tǒng)服裝,被譽(yù)為中國(guó)國(guó)粹和女性國(guó)服。雖然其定義和產(chǎn)生的時(shí)間至今還存有諸多爭(zhēng)議,但它仍然是中國(guó)悠久服飾文化

北京市電影院有序恢復(fù)開放 周五預(yù)售部分場(chǎng)次已滿座

7月21日,北京市政府發(fā)布《北京市電影局關(guān)于在疫情防控常態(tài)化條件下有序推進(jìn)電影院恢復(fù)開放的通知》,宣布全市低風(fēng)險(xiǎn)地區(qū)影院,可于7月24日

近期持續(xù)強(qiáng)降雨影響 第46屆武漢渡江節(jié)因長(zhǎng)江水位過(guò)高取消

?武漢7·16渡江節(jié)組委會(huì)14日發(fā)布公告,由于長(zhǎng)江武漢關(guān)水位超警戒水位,按照規(guī)定取消2020年第46屆武漢7·16渡江節(jié)。受近期持續(xù)強(qiáng)降雨影響,

“非遺”普及受眾最看重“動(dòng)手”參觀大師工作室非常享受

過(guò)去一段時(shí)間,國(guó)家級(jí)非遺項(xiàng)目灰塑傳承人邵成村,多次在陳家祠等工作現(xiàn)場(chǎng),向身邊那些帶著好奇目光的人們講解灰塑的種種技術(shù)細(xì)節(jié):草根灰、

璧山冷酒夜市 豐富市民夜間文旅活動(dòng)

7月13日,位于璧山區(qū)南門唐城夜市街區(qū)的璧山冷酒夜市開街。這是璧山區(qū)打造夜間經(jīng)濟(jì)消費(fèi)載體、培育夜間經(jīng)濟(jì)活動(dòng)品牌的舉措之一。璧山市民一

年內(nèi)兩市超過(guò)500家上市公司完成回購(gòu) 累計(jì)回購(gòu)金額超332億元

近期A股市場(chǎng)持續(xù)震蕩,不少上市公司或其重要股東推出回購(gòu)、增持計(jì)劃,用真金白銀力挺股價(jià)。記者根據(jù)同花順數(shù)據(jù)統(tǒng)計(jì),今年以來(lái),兩市超過(guò)500

持續(xù)發(fā)力補(bǔ)鏈強(qiáng)鏈加大研發(fā)搶占市場(chǎng) 渝企跑出“加速度”

玥湖路渝快電充換電站 一輛新能源汽車,離不開研發(fā)、動(dòng)力、配套等多個(gè)環(huán)節(jié)。作為汽車制造重鎮(zhèn),重慶在這些環(huán)節(jié)的多個(gè)板塊上,正在加速奔跑

重啟上市公司資本運(yùn)作 康佳集團(tuán)去年半導(dǎo)體業(yè)務(wù)營(yíng)業(yè)收入為3.22億元

近日,康佳集團(tuán)正式對(duì)外發(fā)布2021年年度業(yè)績(jī)報(bào)告。2021年,康佳集團(tuán)實(shí)現(xiàn)全年?duì)I收491 07億元,歸屬于母公司的凈利潤(rùn)為9 05億元,同比增長(zhǎng)89 5

偉祿集團(tuán)連續(xù)6年增長(zhǎng) 去年?duì)I收同比增長(zhǎng)37.5%

深港通標(biāo)的之一的深圳企業(yè)偉祿集團(tuán)近日公布2021年業(yè)績(jī)。財(cái)報(bào)數(shù)據(jù)顯示,偉祿集團(tuán)全年?duì)I業(yè)收入11 95億港元,同比增長(zhǎng)37 5%,連續(xù)6年穩(wěn)步增長(zhǎng);

龍頭企業(yè)去年凈利倍增 整個(gè)行業(yè)營(yíng)收規(guī)模有望創(chuàng)造歷史新高位

近日,面板龍頭TCL科技、京東方分別發(fā)布2021年度業(yè)績(jī)快報(bào),兩家企業(yè)去年歸屬于上市公司股東的凈利潤(rùn)分別增長(zhǎng)129 3%、412 86%,實(shí)現(xiàn)超過(guò)百億

深圳國(guó)企全力為市民 守好“菜籃子”“米袋子”保障量足價(jià)穩(wěn)

疫情防控形勢(shì)下,民生物資供應(yīng)是否充足成為市民最為關(guān)注的問(wèn)題之一。連日來(lái),深農(nóng)集團(tuán)、深糧控股等企業(yè),充分發(fā)揮國(guó)企擔(dān)當(dāng),全力為深圳市民