2021 IDEA大會重磅宣布,“封神榜”大模型開源計劃開啟

2021-11-23 16:32:30

11月22日,由深圳市福田區人民政府、深圳市福田區科技創新局和粵港澳大灣區數字經濟研究院(International Digital Economy Academy, 簡稱“IDEA”)聯合舉辦的2021 IDEA大會在深圳福田成功召開。大會以“The World Needs a Few Good IDEAs”為主旨,圍繞人工智能與數字經濟展開討論。上午10時,IDEA創院理事長、美國國家工程院外籍院士、英國皇家工程院外籍院士沈向洋,在創新展示會環節宣布, IDEA認知計算與自然語言研究中心(簡稱“IDEA CCNL”)將啟動 “封神榜”大模型開源計劃。

2021 IDEA大會重磅宣布,“封神榜”大模型開源計劃開啟

沈向洋宣布“封神榜”大模型開源計劃

兩年,預訓練逐漸成為整個認知智能的基礎,自然語言和計算機視覺的算法全方面的依賴于預訓練模型來構建。

預訓練模型的規模從最初的1億參數BERT到一千多億參數的GTP-3,正在以每年10倍的速度增加。針對不同的下游任務,我們需要不同的結構,不同的尺寸和不同的專業領域的預訓練模型。

這個世界需要更多更大的模型。但是,有限的算力資源是限制整個領域進一步發展的瓶頸。尤其是高校、小公司和一些傳統公司,根本不具備足夠的算力來訓練和使用大規模預訓練模型。這些都阻礙了整個人工智能技術更進一步的落地。

這個世界需要一個答案。

2021 IDEA大會重磅宣布,“封神榜”大模型開源計劃開啟

“封神榜”大模型系列模型矩陣

會上,沈向洋代表IDEA CNNL正式宣布:開啟 “封神榜”大模型開源計劃。在這個計劃中,IDEA CCNL全方面地開源一系列的自然語言預訓練大模型。此系列模型將覆蓋不同的模型結構、不同的模型尺寸、不同的專業領域。IDEA CCNL也將對此系列模型做持續的升級,不斷融合最新的數據和最新的訓練算法,致力于打造中文認知智能的通用基礎設施,避免重復建設,為全社會節省算力。

2021 IDEA大會重磅宣布,“封神榜”大模型開源計劃開啟

本次IDEA宣布開源的“封神榜”大模型家族

同時,IDEA CCNL表示,希望各個公司、高校、機構加入到這個開源計劃中,一起共建大模型開源體系。未來,當大家需要一個新的預訓練模型,都應該是首先從封神榜中選取一個最適合各自任務的開源大模型,做繼續訓練,然后再把新的模型開源回這個體系。這樣,每個人用最少的算力,就能得到自己的模型,同時這個開源大模型體系也能持續擴大。

二郎神系列

二郎神系列是Encoder結構為主的雙向語言模型,專注于解決各種自然語言理解任務。13億參數的二郎神-1.3B大模型采用280G數據,運用32張A100訓練14天,是最大的開源中文Bert大模型。2021年11月10日在中文語言理解權威評測基準FewCLUE 榜單上登頂。其中,CHID(成語填空)、TNEWS(新聞分類)超過人類,CHID(成語填空)、CSLDCP(學科文獻分類)、OCNLI(自然語言推理)單任務第一,刷新小樣本學記錄,詳情可參見https://mp.weixin.qq.com/s/bA_9n_TlBE9P-UzCn7mKoA。未來,二郎神系列會持續在模型規模、知識融入、監督任務輔助等方向不斷優化。

2021 IDEA大會重磅宣布,“封神榜”大模型開源計劃開啟

二郎神登頂FewCLUE榜單

領域模型-余元系列

IDEA CCNL負責人張家興博士也曾表示,“封神榜”大模型開源計劃不會止步于此,在學術、醫療、金融、法律等重要領域方向上也會逐步開源領域專屬大模型,比如即將在醫學領域推出應用的余元系列擁有35億參數余元-3.5B大模型,采用50G的醫療領域數據和知識,在已有的通用模型基礎上,運用256張A100繼續訓練28小時,該模型參數記錄了大量醫療知識,在醫療事實判斷上,準確率可以接90%。

周文王系列

周文王系列是IDEA CCNL聯合追一科技有限公司的新結構大模型。該模型在訓練階段就統一考慮LM(Language Model)和MLM(Mask Language Model)任務,增加了旋轉位置編碼技術,讓模型同時具備生成和理解的能力。、13億參數的周文王-1.3B大模型采用280G數據,運用32張A100訓練14天,是中文領域同時做LM和MLM任務最大的模型。將來會在模型規模、知識融入、監督任務輔助等方向不斷優化。

聞仲系列

聞仲系列是Decoder結構為主的單向語言模型,是一系列強大的生成模型。35億參數的聞仲-3.5B大模型采用100G數據,運用256張A100訓練28小時,具備強大的生成能力。

燃燈系列

燃燈系列是Transformer結構為主的編解碼語言模型,把所有NLP任務轉化成文本生成任務,7.7億參數的燃燈-770M大模型采用280G數據,運用16張A100訓練14天,能夠很好地完成自然語言生成和理解任務。

上述的模型只是“封神榜”大模型開源計劃的開始,后續IDEA CCNL將持續的開源更多的模型。同時IDEA表示,希望更多業界伙伴一起加入開源計劃,一起推動中文認知智能和自然語言的深入發展和產業落地。

關閉
精彩放送
亚洲AV无码AV中文AV日韩AV