揚子晚報網1月7日訊 (記者 薄云峰)1月5日,由南京大學歷史學院數智史學實驗室主辦的南京大學數智文獻處理平臺暨近代紅色資源庫發(fā)布會在南京舉行。
![]()
會議現場。 薄云峰 攝
在浩瀚的書籍等史料中,利用數智文獻技術可實現有效信息的快速檢索,同時也可實現高效的數據拼圖。記者打開南京大學數智文獻處理平臺,首頁上的“史冊新生·萬卷可及”特別形象描繪出該平臺的使用特點。
該平臺采用高度友好的交互設計,用戶無需任何編程基礎,通過文獻一鍵導入即可輕松上手。支持批量文獻一鍵導入,將復雜的技術環(huán)節(jié)封裝于后臺。上傳文獻后即收入“個人圖書館”,打造智能時代專屬藏書庫。
平臺介紹。 薄云峰 攝
平臺集成了前沿的多模態(tài)大語言模型,在OCR文字識別與跨語言翻譯兩大關鍵環(huán)節(jié)實現突破。 不僅能高精度識別印刷體、手寫體、豎排及多語種文本,更能結合歷史語境進行語義化翻譯,顯著提升原始文獻的數據化質量與效率。
![]()
平臺介紹。 薄云峰 攝
數智史學實驗室負責人、南京大學歷史學院助理教授金伯文介紹,該平臺是基于生成式大語言模型打造的資源庫,通過ORC增強和智能優(yōu)化,將非結構化內容數字化,進行語義校正與漏識補全,能快速準確地進行多語種翻譯,依靠強大的翻譯能力和自然語言能力,支持跨語種檢索和語義檢索,實現了史學文獻識別、編目、檢索以及人機交互、寫作的高度智能化。
以“明清海洋史研究多語種文獻數據庫”為例,共計收錄1000余冊文獻,共計7億字,多為 15、16世紀西班牙語、葡萄牙語等文獻,實現全文識別與翻譯。龐大的工作量通過數智技術極大提高效率,南京大學歷史學院明史研究中心1名青年教師帶領3位碩士生,僅耗時1-2月完成。
談及人工智能時代的史學研究,南京大學歷史學院院長梁晨認為,人工智能可以高效處理規(guī)范性的基礎性研究任務,從而解放人腦,使人們在學術研究中有更多精力思考更為復雜、更具有深刻價值的學術問題。
校對 陶善工