7799精品视频天天在看,日韩一区二区三区灯红酒绿,国产xxxxx在线观看,在线911精品亚洲

<rp id="00a9v"></rp>

<rp id="00a9v"></rp>

<track id="00a9v"><dl id="00a9v"><delect id="00a9v"></delect></dl></track>

<noscript id="00a9v"><dl id="00a9v"></dl></noscript>

<rt id="fv939"><label id="fv939"></label></rt>

<i id="fv939"><ins id="fv939"></ins></i>

<source id="fv939"><ins id="fv939"></ins></source>

荀子古籍大語言模型發(fā)布會(huì)在京成功舉辦

欄目：新聞快訊

發(fā)布時(shí)間：2023-12-19 22:27:09

標(biāo)簽：

荀子古籍大語言模型發(fā)布會(huì)在京成功舉辦

來源：中國社會(huì)科學(xué)網(wǎng)

時(shí)間：孔子二五七四年歲次癸卯十一月初六日庚戌

耶穌2023年12月18日

中國社會(huì)科學(xué)網(wǎng)訊（通訊員趙志梟）12月2日，國家社科基金重大項(xiàng)目“中國古代典籍跨語言知識(shí)庫構(gòu)建及應(yīng)用研究”課題組主辦的荀子古籍大語言模型發(fā)布會(huì)暨古籍智能化研究與產(chǎn)業(yè)應(yīng)用研討會(huì)在北京舉行。來自高校、出版界和互聯(lián)網(wǎng)頭部企業(yè)的專家學(xué)者參會(huì)。古籍大語言模型主研專家、南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授王東波進(jìn)行專題匯報(bào)。

發(fā)布荀子古籍大語言模型

荀子古籍大語言模型是由王東波擔(dān)任首席專家的國家社科基金重大項(xiàng)目“中國古代典籍跨語言知識(shí)庫構(gòu)建及應(yīng)用研究”課題組聯(lián)合古聯(lián)公司歷時(shí)數(shù)月研究推出的專門應(yīng)用于古籍處理與研究的智能工具，是以提供古籍信息處理的大型基座模型、對(duì)話模型與智能代理為主要目標(biāo)的開源的、公益的古籍大語言模型。王東波團(tuán)隊(duì)以“荀子古籍大語言模型構(gòu)建及應(yīng)用研究”為題，介紹了大語言模型古籍處理能力評(píng)測，古籍處理基座模型構(gòu)建和對(duì)話模型構(gòu)建三個(gè)方面的研究內(nèi)容。

在匯報(bào)過程中，王東波首先闡述了如ChatGPT一類的大語言模型在AI產(chǎn)業(yè)中引發(fā)的革命，并揭示了古籍領(lǐng)域?qū)Υ笳Z言模型的需求以及國家層面的關(guān)注。他表示，盡管目前已有200多個(gè)通用模型在各領(lǐng)域得到應(yīng)用，但古籍領(lǐng)域仍缺乏專業(yè)的大語言模型，并且當(dāng)前的各種評(píng)測基準(zhǔn)很難準(zhǔn)確地衡量各種大語言模型的古文處理能力。隨后，王東波簡要介紹了為解決這些問題所進(jìn)行的工作。為了緩解用戶群體選擇模型過程中的“信息過載”現(xiàn)象，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)覆蓋13項(xiàng)自然語言處理任務(wù)的ACHeval評(píng)測基準(zhǔn)，該基準(zhǔn)分為文本理解能力評(píng)估、文本生成能力評(píng)估和知識(shí)能力評(píng)估三個(gè)模塊，包含文本分類、分詞、命名實(shí)體識(shí)別、古現(xiàn)翻譯等各種不同的處理任務(wù)，團(tuán)隊(duì)將世界各地善于理解中文的大語言模型都參與了較量。不僅包括代表性的千億級(jí)閉源模型，還納入了在各大通用表單上取得出色表現(xiàn)的優(yōu)質(zhì)開源模型。團(tuán)隊(duì)使用小樣本提示技術(shù)規(guī)范模型的輸出答案，并對(duì)最終結(jié)果進(jìn)行后處理計(jì)算對(duì)應(yīng)指標(biāo)，以量化各種模型的表現(xiàn)。課題組根據(jù)評(píng)價(jià)結(jié)果，確定了最終用于領(lǐng)域化訓(xùn)練的開源基座大模型Qwen-7b。隨后，王東波介紹了基座大模型和對(duì)話大模型的構(gòu)建的方法，團(tuán)隊(duì)通過大量實(shí)驗(yàn)論證不同預(yù)訓(xùn)練數(shù)據(jù)的選擇和配比，以及超參數(shù)的選取對(duì)大模型最終性能所產(chǎn)生的影響。結(jié)果表明，由于現(xiàn)代漢語和古代漢語之間存在較大的語法差異，單純使用古籍文本增強(qiáng)模型會(huì)使得模型出現(xiàn)災(zāi)難性遺忘現(xiàn)象損失現(xiàn)代漢語能力，更傾向于生成古籍文本。為此，團(tuán)隊(duì)在分析古籍本身和對(duì)話任務(wù)特性的基礎(chǔ)上，采集了大約5GB的古籍語料，并與現(xiàn)代漢語文本、指令數(shù)據(jù)，平行語料等其他類型的語料混合，形成了一個(gè)包含40億個(gè)中文字符的混合數(shù)據(jù)集，分別用于學(xué)習(xí)古籍文本字符分布特征、防止災(zāi)難性遺忘、增強(qiáng)對(duì)指令響應(yīng)以及將現(xiàn)代文習(xí)得的知識(shí)進(jìn)一步外推，并以此數(shù)據(jù)集訓(xùn)練荀子基座模型。在訓(xùn)練過程中，王東波團(tuán)隊(duì)綜合使用多種加速技術(shù)、內(nèi)存優(yōu)化技術(shù)和訓(xùn)練技巧提升模型的訓(xùn)練效率，最終成功在8卡A800計(jì)算集群上實(shí)現(xiàn)了17500token/秒的訓(xùn)練吞吐量，在保證基座模型性能的同時(shí)最大程度的利用了已有計(jì)算資源。為使模型遵循根據(jù)用戶請(qǐng)求回答問題，團(tuán)隊(duì)基于以往研究的經(jīng)驗(yàn)，設(shè)計(jì)一系列指令數(shù)據(jù)集，這些任務(wù)涵蓋常見的古籍處理場景，包括詞法分析、實(shí)體識(shí)別、關(guān)系抽取、文本分類與匹配、古現(xiàn)翻譯、文本摘要、自動(dòng)問答、詩歌生成、文本摘要等等。除此之外，為了恢復(fù)模型的現(xiàn)代漢語理解能力，團(tuán)隊(duì)還從互聯(lián)網(wǎng)開源高質(zhì)量指令微調(diào)數(shù)據(jù)集中篩選出符合條件的指令，按照一定比例混合后獲得了綜合指令數(shù)據(jù)集，訓(xùn)練了“荀子”系列對(duì)話模型。最后，王東波團(tuán)隊(duì)的技術(shù)人員對(duì)荀子對(duì)話大模型的各項(xiàng)古籍處理能力進(jìn)行現(xiàn)場演示，通過這一環(huán)節(jié)，與會(huì)者親身體驗(yàn)?zāi)Ｐ偷膶?shí)用性和直觀效果，進(jìn)一步證明了其在古籍處理領(lǐng)域的應(yīng)用潛力。

隨后，古聯(lián)公司總經(jīng)理洪濤分享了在古籍智能化領(lǐng)域的探索歷程，介紹了古聯(lián)公司的多方經(jīng)驗(yàn)，對(duì)于利用古籍大模型進(jìn)行優(yōu)化OCR、自動(dòng)標(biāo)點(diǎn)、自動(dòng)翻譯、自動(dòng)注釋、自動(dòng)生成主題詞與摘要、自動(dòng)構(gòu)建古籍知識(shí)庫等系統(tǒng)能力做了分析。除了在專業(yè)領(lǐng)域推動(dòng)古籍整理、古籍?dāng)?shù)字化、古籍利用與傳播，洪濤也分析了大模型在大眾領(lǐng)域的應(yīng)用前景，比如通過實(shí)現(xiàn)基于“中華經(jīng)典古籍庫”的語義檢索和回答，讓大眾用戶能夠順暢地利用古籍的內(nèi)容。古籍大模型還可以用于AI寫作、AI教學(xué)、數(shù)字文娛等。

荀子古籍大語言模型發(fā)布會(huì)暨古籍智能化研究與產(chǎn)業(yè)應(yīng)用研討會(huì)在北京舉行。國家社科基金重大項(xiàng)目“中國古代典籍跨語言知識(shí)庫構(gòu)建及應(yīng)用研究”課題組/供圖

全面推動(dòng)古籍處理技術(shù)進(jìn)步

來自高校、出版界和互聯(lián)網(wǎng)頭部企業(yè)的與會(huì)專家學(xué)者分別立足于各自領(lǐng)域，圍繞大模型在古籍整理、研究和普及等方面展開了熱烈的探討，就大模型在古籍整理、傳統(tǒng)文化傳承、數(shù)字化轉(zhuǎn)型和技術(shù)挑戰(zhàn)等方面進(jìn)行了深入探討。與會(huì)專家一致認(rèn)為，荀子一類大語言模型的應(yīng)用與推廣對(duì)于中華優(yōu)秀傳統(tǒng)文化的傳播和傳承有著重要的意義。構(gòu)建高質(zhì)量古文處理模型的關(guān)鍵在于數(shù)據(jù)質(zhì)量，古聯(lián)公司與南京農(nóng)業(yè)大學(xué)的合作能夠充分發(fā)揮各自的優(yōu)勢，更加全面的推動(dòng)古籍處理技術(shù)的進(jìn)步。

目前，作為開源的、公益的研究成果的荀子古籍大語言模型已在相關(guān)網(wǎng)站開源，用戶可自行下載模型權(quán)重文件與代碼文件進(jìn)行模型部署。此次會(huì)議，是南京農(nóng)業(yè)大學(xué)古籍大語言模型研發(fā)團(tuán)隊(duì)和古聯(lián)公司合作探索古籍大語言模型的第一步。未來，古聯(lián)公司將基于百億級(jí)古籍大數(shù)據(jù)，著手研發(fā)下新一版商用古籍大模型，為古籍智能整理、大眾傳播的產(chǎn)業(yè)應(yīng)用提供強(qiáng)大的技術(shù)支持，推動(dòng)古籍事業(yè)的新發(fā)展。

（通訊員單位：南京農(nóng)業(yè)大學(xué)信息管理學(xué)院）

責(zé)任編輯：近復(fù)

分享到：新浪微博微信 QQ空間更多

【上一篇】【張重崗】孔子詩教的文化價(jià)值

【下一篇】【李華瑞】關(guān)于重建北宋經(jīng)學(xué)及學(xué)術(shù)思想的思考 ——《荊公新學(xué)研究（增訂版）》序言

微信公眾號(hào)

儒家網(wǎng)

青春儒學(xué)

民間儒行

圖書每滿100減50（點(diǎn)擊購買）

微信公眾號(hào)

儒家網(wǎng)

青春儒學(xué)

民間儒行

圖書每滿100減50（點(diǎn)擊購買）

7799精品视频天天在看,日韩一区二区三区灯红酒绿,国产xxxxx在线观看,在线911精品亚洲

<rp id="00a9v"></rp>

<rp id="00a9v"></rp>

<track id="00a9v"><dl id="00a9v"><delect id="00a9v"></delect></dl></track>

<noscript id="00a9v"><dl id="00a9v"></dl></noscript>

尤物福利在线观看永久视频日本v片视频一区二区三区在线观看午夜看看AV在线欧美日韩呦女一区二区三区亚洲区日韩精品中文字幕

<td id="3oemq"><tr id="3oemq"><label id="3oemq"></label></tr></td>

<p id="3oemq"><ins id="3oemq"></ins></p>

<source id="3oemq"><ins id="3oemq"></ins></source>