中國企業(yè)回應(yīng)被斯坦福大學(xué)抄襲
發(fā)布時間:06-04?? 發(fā)布者:智東西 點擊:0次
作者 | 程茜
編輯 | 心緣
智東西6月3日消息,大模型“套殼”的回旋鏢,這次扎到了美國科研團(tuán)隊身上。最近幾天,斯坦福大學(xué)AI團(tuán)隊陷入抄襲風(fēng)波,被質(zhì)疑“套殼”清華系大模型開源成果,引起輿論嘩然。
起因是這個團(tuán)隊在5月29日發(fā)布了一個多模態(tài)大模型Llama3-V,聲稱只花500美元訓(xùn)練,就能實現(xiàn)在多個基準(zhǔn)測試中比肩GPT-4的性能。但很快有人發(fā)現(xiàn),該模型跟清華系大模型創(chuàng)企面壁智能5月發(fā)布的MiniCPM-Llama3-V 2.5模型有不少相似處,而且沒有任何相關(guān)致謝或引用。
一開始團(tuán)隊面對抄襲質(zhì)疑還嘴硬否認(rèn),只承認(rèn)使用了MiniCPM-Llama3-V的分詞器,后來證據(jù)越來越多——不僅架構(gòu)和代碼高度相似,而且被發(fā)現(xiàn)作者曾在Hugging Face導(dǎo)入MiniCPM-V的代碼,然后改名成Llama3-V。
最絕的是Llama3-V連國產(chǎn)AI模型的“胎記”都抄走了,跟MiniCPM-V一樣能識別清華戰(zhàn)國竹簡“清華簡”,而且連出錯的樣例、在高斯擾動驗證后的正確和錯誤表現(xiàn)方面都高度相似。
而基于非公開訓(xùn)練數(shù)據(jù)的清華簡識別能力,是面壁MiniCPM團(tuán)隊耗時數(shù)月、從卷帙浩繁的清華簡中逐字掃描并逐一數(shù)據(jù)標(biāo)注,融入模型中的。
面對鐵一般的證據(jù),Llama3-V團(tuán)隊終于立正挨打,一套道歉流程行云流水,火速刪庫、發(fā)文致歉外加撇清關(guān)系。其中來自斯坦福計算機(jī)科學(xué)專業(yè)的兩位作者澄清說他們并未參與代碼工作,所有代碼都是畢業(yè)于南加州大學(xué)的Mustafa Aljadery負(fù)責(zé)的,他一直沒交出訓(xùn)練代碼。
▲Llama3-V作者:Siddharth Sharma(左)、Aksh Garg(中)、Mustafa Aljadery(右)
這樣看來,Llama3-V團(tuán)隊并不能算嚴(yán)格意義上的斯坦福團(tuán)隊,不過因為此事聲譽(yù)受損的斯坦福大學(xué)至今沒有采取任何公開措施。
面壁智能團(tuán)隊的回應(yīng)很有涵養(yǎng)。今日,面壁智能聯(lián)合創(chuàng)始人兼CEO李大海在朋友圈回應(yīng)說“深表遺憾”,這也是一種“受到國際團(tuán)隊認(rèn)可的方式”,并呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境。
一、網(wǎng)友細(xì)數(shù)五大證據(jù),作者刪庫跑路、不打自招
Llama3-V的模型代碼與MiniCPM-Llama3-V 2.5高度相似,同時其項目頁面沒有出現(xiàn)任何與MiniCPM-Llama3-V 2.5相關(guān)的聲明。
公開的基準(zhǔn)測試結(jié)果顯示,Llama3-V在所有基準(zhǔn)測試中優(yōu)于GPT-3.5,在多個基準(zhǔn)測試中優(yōu)于GPT-4,且模型尺寸是GPT-4V的1/100,預(yù)訓(xùn)練成本為500美元。這也使得該模型一經(jīng)就沖上Hugging Face首頁。
但當(dāng)細(xì)心網(wǎng)友發(fā)現(xiàn)Llama3-V疑似“套殼”面壁智能此前發(fā)布的開源多模態(tài)模型MiniCPM-Llama3-V 2.5,在評論區(qū)發(fā)表評論后,Llama3-V項目作者最初否認(rèn)抄襲,并稱他們的項目開始時間先于MiniCPM-Llama3-V 2.5發(fā)布,只是使用了MiniCPM-Llama3-V 2.5的分詞器。
當(dāng)網(wǎng)友拋出三大事實質(zhì)疑后,Llama3-V的做法是——不回應(yīng)直接刪除網(wǎng)友評論。
昨日下午,網(wǎng)友在MiniCPM-V頁面下將事情經(jīng)過全部公開,并公開@面壁智能讓其項目團(tuán)隊投訴。
當(dāng)日晚間,面壁智能研發(fā)人員發(fā)布推文,其驗證結(jié)果也印證了網(wǎng)友的說法,Llama3-V與MiniCPM-Llama3-V 2.5高度相似。同時公開喊話Llama3-V研發(fā)團(tuán)隊:“鑒于這些結(jié)果,我們擔(dān)心很難用巧合來解釋這種不尋常的相似性。我們希望作者能夠?qū)@個問題給出官方解釋,相信這對開源社區(qū)的共同利益很重要?!?/span>
以下就是Llama3-V被質(zhì)疑抄襲MiniCPM-Llama3-V 2.5的五大證據(jù):
1、Llama3-V的代碼是對MiniCPM-Llama3-V 2.5的重新格式化,其模型行為檢查點的噪聲版本高度相似。
其中,Llama3-V只是對代碼進(jìn)行了重新格式化和變量重命名,包括但不限于圖像切片、標(biāo)記器、重采樣器和數(shù)據(jù)加載。面壁智能研發(fā)人員也證實,Llama3-V有點類似于MiniCPM-Llama3-V 2.5的噪聲版本。
2、起初網(wǎng)友在Llama3-V的Hugging Face頁面質(zhì)疑抄襲時,其作者回應(yīng)稱只是使用了其分詞器,并且項目開始時間比MiniCPM-Llama3-V 2.5更早。
當(dāng)網(wǎng)友進(jìn)一步詢問如何在MiniCPM-Llama3-V 2.5發(fā)布前使用其分詞器,作者給出的答案是使用了MiniCPM-V-2的分詞器,但很明顯,兩個版本的分詞器完全不同。
3、Llama3-V提供的代碼無法與Hugging Face的檢查點兼容。
但網(wǎng)友將Llama3-V模型權(quán)重中的變量名稱更改為MiniCPM-Llama3-V 2.5的名稱后,該模型可以與MiniCPM-V代碼一起運行。
面壁智能的研發(fā)人員的調(diào)查結(jié)果也顯示:更改參數(shù)名稱后,可以使用MiniCPM-Llama3-V 2.5的代碼和config.json運行Llama3-V。
4、Llama3-V項目的作者害怕面對質(zhì)疑,刪除了質(zhì)疑者在Llama3-V上提交的質(zhì)疑他們偷竊的問題。并且目前Llama3-V項目已經(jīng)從開源網(wǎng)站中下架刪除。
5、在一些未公開的實驗性特征上,比如在內(nèi)部私有數(shù)據(jù)上訓(xùn)練的古漢字清華竹簡,Llama3-V表現(xiàn)出與MiniCPM-Llama3-V 2.5高度相似的推理結(jié)果。這些訓(xùn)練圖像是最近從出土文物中掃描并由面壁智能的團(tuán)隊注釋的,尚未公開發(fā)布。
例如下圖中的幾個古漢字識別:
MiniCPM-Llama3-V 2.5中未公開的WebAgent功能上,在框選內(nèi)容大小時,Llama3-V與之犯了相同的錯誤:
二、仨作者內(nèi)訌,Aljadery全權(quán)負(fù)責(zé)寫代碼,但拿不出訓(xùn)練代碼
昨天,Aksh Garg、Siddharth Sharma在外媒Medium上公開回應(yīng):“非常感謝在評論中指出(Llama3-V)與之前研究相似之處的人。我們意識到我們的架構(gòu)與OpenBMB的‘MiniCPM-Llama3-V2.5:手機(jī)上的GPT-4V級多模態(tài)大模型’非常相似,他們在實現(xiàn)方面領(lǐng)先于我們。為了尊重作者,我們刪除了原始模型?!盇ljadery沒有出現(xiàn)在聲明中。
▲Aksh Garg、Siddharth Sharma的回應(yīng)聲明
Mustafa曾在南加州大學(xué)從事深度學(xué)習(xí)研究,并在麻省理工學(xué)院從事并行計算研究,擁有南加州大學(xué)計算機(jī)科學(xué)學(xué)士學(xué)位和計算神經(jīng)科學(xué)理學(xué)士學(xué)位,目前其沒有在公司任職。
Garg在社交平臺X中發(fā)布的致歉聲明中提到,Mustafa全權(quán)負(fù)責(zé)編寫Llama3-V的代碼,他與Sharma因忙于全職工作并未參與代碼編寫。
在聽取了Mustafa描述的Idefics、SigLip等架構(gòu)擴(kuò)展創(chuàng)新、查看了最新論文后,他們二人就在未被告知該項目與開源代碼關(guān)系的情況下,幫助Mustafa在外媒Medium和社交平臺X對Llama3-V進(jìn)行了宣傳推廣。
在昨天看到關(guān)于Llama3-V的抄襲指控后,Garg和Sharma就與Mustafa進(jìn)行了原創(chuàng)性討論,并要求他提供訓(xùn)練代碼,但目前未收到任何相關(guān)證據(jù)。
目前,Aljadery的推特賬號顯示“只有獲得批準(zhǔn)的關(guān)注者才能看到”。
三、首個基于Llama-3構(gòu)建的多模態(tài)大模型
此前,Garg在介紹Llama3-V的文章中提到,Llama3-V是首個基于Llama-3構(gòu)建的多模態(tài)大模型,訓(xùn)練費用不到500美元。并且與多模態(tài)大模型Llava相比,Llama3-V性能提升了10-20%。
除了MMMU之外,Llama3-V在所有指標(biāo)上的表現(xiàn)都與大小為其100倍的閉源模型非常相近。
他們所做的就是讓Llama 3能理解視覺信息。Llama3-V采用SigLIP模型獲取輸入圖像并將其嵌入到一系列塊嵌入中。然后,這些嵌入通過投影塊與文本標(biāo)記對齊,投影塊應(yīng)用兩個自注意力塊將文本和視覺嵌入放在同一平面上。最后,投影塊中的視覺標(biāo)記就被添加到文本標(biāo)記前面,并將聯(lián)合表示傳遞給Llama 3。
結(jié)語:Llama3-V套殼實錘,或損害開源社區(qū)健康發(fā)展
不論從網(wǎng)友的質(zhì)疑還是Llama3-V作者的回應(yīng)來看,該模型套殼MiniCPM-Llama3-V2.5已經(jīng)基本實錘,高度相似的代碼以及部分基于面壁智能內(nèi)部未公開訓(xùn)練數(shù)據(jù)訓(xùn)練的功能,都證明這兩大模型的相似性。
目前來看,對于大模型“套殼”沒有明確的界定,但開源大模型以及開源社區(qū)的構(gòu)建本意是促進(jìn)技術(shù)的共享和交流,加速AI的發(fā)展,但如果以這種直接“套殼”、更改變量的形式使用,或許會與這一發(fā)展愿景背道而馳,損害開源社區(qū)的健康發(fā)展。
本文標(biāo)簽:
上一篇:
南方部分地區(qū)可能出現(xiàn)極端高溫
下一篇:
C羅在姆巴佩評論區(qū)送祝福