微信的大數據有多厲害?
大規模語言模型,微信版,來了!
并且甫一登場,就沒藏著掖著:
論文、API接口、在線試玩網站……一條龍全都齊備。
續寫文本、閱讀理解等常規任務就不說了,這個名叫WeLM的AI,竟然直接讓我和李白跨時空聊起了杜甫:
我:現在有一首關于你的歌,其中一句歌詞是「要是能重來,我要選李白」,請問你自己有什么看法?
李白:我要選杜甫。
這還不算完,WeLM甚至還治好了我不會聊天的毛病,分分鐘教會我如何高情商說話。
這么一個AI,參數量不算大,目前處于百億水平。
但值得關注的是,實驗結果顯示,它在18個中文語言任務里,效果堪比參數量是其25倍的模型。
是不是有點手癢想上手一試了?先奉上鏈接,咱們再仔細說說,這波微信是怎么做到的。
體驗鏈接:
https://welm.weixin.qq.com/docs/playground/
API接口:
https://welm.weixin.qq.com/docs/api/
論文地址:
https://arxiv.org/abs/2209.10372
「學富五車」的大模型
微信語言大模型WeLM,全名Well-Read Language Model,也就是「學富五車的語言模型」。
在翻譯任務上,WeLM不光可以做到基本的,甚至三語夾雜也難不倒它。
在文本續寫任務上,只需給出開頭就能生成適應不同風格的文本。
這種多語言、多任務能力是怎么做到的?
其實WeLM與著名的GPT-3是同類,都是自回歸解碼器結構,微信團隊選擇這種結構就是看中其在海量數據中掌握無窮范式的能力。
在具體實現方法上,WeLM還有兩項特色。
一是采用RoPE相對位置編碼,與傳統的固定位置編碼相比能更好處理長文本,比如理解整篇文章甚至整本書。
二是使用62k個token的SentencePiece并保留其中的空格和Tab,這樣更有利于下游任務。
使用這些方法,WeLM總共設計了從13億到100億參數的三個版本,可按需調用。
其中100億參數的滿血版WeLM在14項中文任務中整體表現超過同大小的模型,甚至在零樣本任務上超過比它大25倍的模型。
這其中最大的秘訣就是精心準備的高質量訓練數據上充分訓練,也就是「學富五車」的含義所在。
高質量訓練數據包括從Common Crawl下載的近兩年中文網頁、大量書籍、新聞、論壇數據和學術論文。
收集到的數據總量超過10TB,其中包含750G英文數據,中文中夾雜的英日韓語為了語義連貫也全部保留。
不過這還不算完,需要經過清洗、去重等一系列步驟才能算得上是高質量數據。
首先是去除噪聲和臟數據,結合使用規則和模型檢測后,超過87%的數據被過濾。
再利用SimHash算法去重,進一步過濾掉40%的數據。
接下來要去除一切和測評相關的數據,保證公平性,以 17-gram 為檢測重復粒度再次過濾了0.15%的數據。
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。
