荀子古籍大語言模型發(fā)布會(huì)在京成功舉辦
來源:中國社會(huì)科學(xué)網(wǎng)
時(shí)間:孔子二五七四年歲次癸卯十一月初六日庚戌
耶穌2023年12月18日
中國社會(huì)科學(xué)網(wǎng)訊(通訊員 趙志梟)12月2日,國家社科基金重大項(xiàng)目“中國古代典籍跨語言知識(shí)庫構(gòu)建及應(yīng)用研究”課題組主辦的荀子古籍大語言模型發(fā)布會(huì)暨古籍智能化研究與產(chǎn)業(yè)應(yīng)用研討會(huì)在北京舉行。來自高校、出版界和互聯(lián)網(wǎng)頭部企業(yè)的專家學(xué)者參會(huì)。古籍大語言模型主研專家、南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授王東波進(jìn)行專題匯報(bào)。
發(fā)布荀子古籍大語言模型
荀子古籍大語言模型是由王東波擔(dān)任首席專家的國家社科基金重大項(xiàng)目“中國古代典籍跨語言知識(shí)庫構(gòu)建及應(yīng)用研究”課題組聯(lián)合古聯(lián)公司歷時(shí)數(shù)月研究推出的專門應(yīng)用于古籍處理與研究的智能工具,是以提供古籍信息處理的大型基座模型、對(duì)話模型與智能代理為主要目標(biāo)的開源的、公益的古籍大語言模型。王東波團(tuán)隊(duì)以“荀子古籍大語言模型構(gòu)建及應(yīng)用研究”為題,介紹了大語言模型古籍處理能力評(píng)測,古籍處理基座模型構(gòu)建和對(duì)話模型構(gòu)建三個(gè)方面的研究內(nèi)容。
在匯報(bào)過程中,王東波首先闡述了如ChatGPT一類的大語言模型在AI產(chǎn)業(yè)中引發(fā)的革命,并揭示了古籍領(lǐng)域?qū)Υ笳Z言模型的需求以及國家層面的關(guān)注。他表示,盡管目前已有200多個(gè)通用模型在各領(lǐng)域得到應(yīng)用,但古籍領(lǐng)域仍缺乏專業(yè)的大語言模型,并且當(dāng)前的各種評(píng)測基準(zhǔn)很難準(zhǔn)確地衡量各種大語言模型的古文處理能力。隨后,王東波簡要介紹了為解決這些問題所進(jìn)行的工作。為了緩解用戶群體選擇模型過程中的“信息過載”現(xiàn)象,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)覆蓋13項(xiàng)自然語言處理任務(wù)的ACHeval評(píng)測基準(zhǔn),該基準(zhǔn)分為文本理解能力評(píng)估、文本生成能力評(píng)估和知識(shí)能力評(píng)估三個(gè)模塊,包含文本分類、分詞、命名實(shí)體識(shí)別、古現(xiàn)翻譯等各種不同的處理任務(wù),團(tuán)隊(duì)將世界各地善于理解中文的大語言模型都參與了較量。不僅包括代表性的千億級(jí)閉源模型,還納入了在各大通用表單上取得出色表現(xiàn)的優(yōu)質(zhì)開源模型。團(tuán)隊(duì)使用小樣本提示技術(shù)規(guī)范模型的輸出答案,并對(duì)最終結(jié)果進(jìn)行后處理計(jì)算對(duì)應(yīng)指標(biāo),以量化各種模型的表現(xiàn)。課題組根據(jù)評(píng)價(jià)結(jié)果,確定了最終用于領(lǐng)域化訓(xùn)練的開源基座大模型Qwen-7b。隨后,王東波介紹了基座大模型和對(duì)話大模型的構(gòu)建的方法,團(tuán)隊(duì)通過大量實(shí)驗(yàn)論證不同預(yù)訓(xùn)練數(shù)據(jù)的選擇和配比,以及超參數(shù)的選取對(duì)大模型最終性能所產(chǎn)生的影響。結(jié)果表明,由于現(xiàn)代漢語和古代漢語之間存在較大的語法差異,單純使用古籍文本增強(qiáng)模型會(huì)使得模型出現(xiàn)災(zāi)難性遺忘現(xiàn)象損失現(xiàn)代漢語能力,更傾向于生成古籍文本。為此,團(tuán)隊(duì)在分析古籍本身和對(duì)話任務(wù)特性的基礎(chǔ)上,采集了大約5GB的古籍語料,并與現(xiàn)代漢語文本、指令數(shù)據(jù),平行語料等其他類型的語料混合,形成了一個(gè)包含40億個(gè)中文字符的混合數(shù)據(jù)集,分別用于學(xué)習(xí)古籍文本字符分布特征、防止災(zāi)難性遺忘、增強(qiáng)對(duì)指令響應(yīng)以及將現(xiàn)代文習(xí)得的知識(shí)進(jìn)一步外推,并以此數(shù)據(jù)集訓(xùn)練荀子基座模型。在訓(xùn)練過程中,王東波團(tuán)隊(duì)綜合使用多種加速技術(shù)、內(nèi)存優(yōu)化技術(shù)和訓(xùn)練技巧提升模型的訓(xùn)練效率,最終成功在8卡A800計(jì)算集群上實(shí)現(xiàn)了17500token/秒的訓(xùn)練吞吐量,在保證基座模型性能的同時(shí)最大程度的利用了已有計(jì)算資源。為使模型遵循根據(jù)用戶請(qǐng)求回答問題,團(tuán)隊(duì)基于以往研究的經(jīng)驗(yàn),設(shè)計(jì)一系列指令數(shù)據(jù)集,這些任務(wù)涵蓋常見的古籍處理場景,包括詞法分析、實(shí)體識(shí)別、關(guān)系抽取、文本分類與匹配、古現(xiàn)翻譯、文本摘要、自動(dòng)問答、詩歌生成、文本摘要等等。除此之外,為了恢復(fù)模型的現(xiàn)代漢語理解能力,團(tuán)隊(duì)還從互聯(lián)網(wǎng)開源高質(zhì)量指令微調(diào)數(shù)據(jù)集中篩選出符合條件的指令,按照一定比例混合后獲得了綜合指令數(shù)據(jù)集,訓(xùn)練了“荀子”系列對(duì)話模型。最后,王東波團(tuán)隊(duì)的技術(shù)人員對(duì)荀子對(duì)話大模型的各項(xiàng)古籍處理能力進(jìn)行現(xiàn)場演示,通過這一環(huán)節(jié),與會(huì)者親身體驗(yàn)?zāi)P偷膶?shí)用性和直觀效果,進(jìn)一步證明了其在古籍處理領(lǐng)域的應(yīng)用潛力。
隨后,古聯(lián)公司總經(jīng)理洪濤分享了在古籍智能化領(lǐng)域的探索歷程,介紹了古聯(lián)公司的多方經(jīng)驗(yàn),對(duì)于利用古籍大模型進(jìn)行優(yōu)化OCR、自動(dòng)標(biāo)點(diǎn)、自動(dòng)翻譯、自動(dòng)注釋、自動(dòng)生成主題詞與摘要、自動(dòng)構(gòu)建古籍知識(shí)庫等系統(tǒng)能力做了分析。除了在專業(yè)領(lǐng)域推動(dòng)古籍整理、古籍?dāng)?shù)字化、古籍利用與傳播,洪濤也分析了大模型在大眾領(lǐng)域的應(yīng)用前景,比如通過實(shí)現(xiàn)基于“中華經(jīng)典古籍庫”的語義檢索和回答,讓大眾用戶能夠順暢地利用古籍的內(nèi)容。古籍大模型還可以用于AI寫作、AI教學(xué)、數(shù)字文娛等。
荀子古籍大語言模型發(fā)布會(huì)暨古籍智能化研究與產(chǎn)業(yè)應(yīng)用研討會(huì)在北京舉行。國家社科基金重大項(xiàng)目“中國古代典籍跨語言知識(shí)庫構(gòu)建及應(yīng)用研究”課題組/供圖
全面推動(dòng)古籍處理技術(shù)進(jìn)步
來自高校、出版界和互聯(lián)網(wǎng)頭部企業(yè)的與會(huì)專家學(xué)者分別立足于各自領(lǐng)域,圍繞大模型在古籍整理、研究和普及等方面展開了熱烈的探討,就大模型在古籍整理、傳統(tǒng)文化傳承、數(shù)字化轉(zhuǎn)型和技術(shù)挑戰(zhàn)等方面進(jìn)行了深入探討。與會(huì)專家一致認(rèn)為,荀子一類大語言模型的應(yīng)用與推廣對(duì)于中華優(yōu)秀傳統(tǒng)文化的傳播和傳承有著重要的意義。構(gòu)建高質(zhì)量古文處理模型的關(guān)鍵在于數(shù)據(jù)質(zhì)量,古聯(lián)公司與南京農(nóng)業(yè)大學(xué)的合作能夠充分發(fā)揮各自的優(yōu)勢,更加全面的推動(dòng)古籍處理技術(shù)的進(jìn)步。
目前,作為開源的、公益的研究成果的荀子古籍大語言模型已在相關(guān)網(wǎng)站開源,用戶可自行下載模型權(quán)重文件與代碼文件進(jìn)行模型部署。此次會(huì)議,是南京農(nóng)業(yè)大學(xué)古籍大語言模型研發(fā)團(tuán)隊(duì)和古聯(lián)公司合作探索古籍大語言模型的第一步。未來,古聯(lián)公司將基于百億級(jí)古籍大數(shù)據(jù),著手研發(fā)下新一版商用古籍大模型,為古籍智能整理、大眾傳播的產(chǎn)業(yè)應(yīng)用提供強(qiáng)大的技術(shù)支持,推動(dòng)古籍事業(yè)的新發(fā)展。
(通訊員單位:南京農(nóng)業(yè)大學(xué)信息管理學(xué)院)
責(zé)任編輯:近復(fù)
儒家網(wǎng)
青春儒學(xué)
民間儒行
儒家網(wǎng)
青春儒學(xué)
民間儒行