近日,開源平臺GitHub一項研究稱,華為盤古大模型與阿里通義千問Qwen-2.5 14B模型在注意力參數(shù)分布上有相關性,超正常范圍。隨后華為人工智能研究部門駁斥了網(wǎng)絡上有關其盤古大語言模型抄襲阿里巴巴模型的指控,稱其為自主研發(fā)并獨立訓練的模型。
@HonestAGI的研究指出,盤古Pro MoE與Qwen-2.5 14B模型在多個技術細節(jié)上存在高度相似性。例如,QKV偏置分析顯示,兩種模型在所有三種投影類型(Q、K、V)上都存在驚人相似性,尤其是早期層特有的尖峰特征及隨后的收斂行為。此外,注意力層歸一化權重分析進一步強化了相似性,盤古和Qwen-2.5 14B在層序列上展現(xiàn)出極為一致的趨勢,具有平行的初始化模式和收斂行為。
7月5日,華為諾亞方舟實驗室發(fā)布聲明,堅決否認抄襲指控。聲明指出,盤古Pro MoE模型是基于昇騰硬件平臺開發(fā)、訓練的基礎大模型,并非基于其他廠商模型增量訓練而來。華為強調,盤古Pro MoE在架構設計、技術特性上做了關鍵創(chuàng)新,例如全球首個面向昇騰硬件平臺設計的分組混合專家(MoGE)架構,有效解決了大規(guī)模分布式訓練的負載均衡難題。
此外,華為還指出,盤古Pro MoE部分基礎組件的代碼實現(xiàn)參考了業(yè)界開源實踐,涉及其他開源大模型的部分開源代碼。華為嚴格遵循Apache License 2.0等開源協(xié)議要求,在開源代碼文件中清晰標注開源代碼的版權聲明。
值得注意的是據(jù)媒體報道,在7月6日凌晨,一位自稱是盤古大模型團隊的網(wǎng)友自曝:確實存在套殼、續(xù)訓、洗水印的現(xiàn)象。截至發(fā)稿前,該網(wǎng)友爆料的信息未得到有效證實,華為方尚未對此爆料內容發(fā)表聲明。
此外,有網(wǎng)友爆料華為盤古自研曝光后,華為開始修改官網(wǎng),從全棧“自研”,變成全棧“自主?”。
來源:電車之家 http://m.qsdwkyb.com/news/show-1657903067.html