首页 | 版面导航 | 标题导航
   第01版:头版
   第02版:新闻
   第03版:新闻
   第04版:新闻
   第05版:新闻
   第06版:新闻
   第07版:社会工作
   第08版:社会工作
   第09版:新闻
   第10版:新闻
   第11版:新闻
   第12版:公益资讯
   第13版:公益资讯
   第14版:公益资讯
   第15版:益言堂
   第16版:寻找慈善传统
“心启航”公益项目启动 助力偏远地区先心病患儿康复
北京大学携字节跳动推出古籍数字化平台 以公益方式推进古籍修复和活化
9月大额捐赠一览:共出现117笔大额捐赠,“9·5”泸定地震备受关注

版面目录

第01版
头版

第02版
新闻

第03版
新闻

第04版
新闻

第05版
新闻

第06版
新闻

第07版
社会工作

第08版
社会工作

第09版
新闻

第10版
新闻

第11版
新闻

第12版
公益资讯

第13版
公益资讯

第14版
公益资讯

第15版
益言堂

第16版
寻找慈善传统

新闻内容
2022年10月18日 星期二上一期下一期
北京大学携字节跳动推出古籍数字化平台 以公益方式推进古籍修复和活化

    “识典古籍”网页截图

    10月11日,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。

    据了解,上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线,即是双方合作的最新进展。

    当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示,现存的20多万种古籍中,只有八万种完成影像数字化扫描,近四万种完成文本数字化。据专家统计,从1949年到2019年,国内共修复整理出版古籍近3.8万种,要将现存古籍全部修复整理出来,可能需要300年时间;若利用人工智能技术辅助修复整理,大概二三十年就能完成。

    记者了解到,早在2021年6月,字节跳动与中国文物保护基金会成立古籍保护专项基金,用于国家图书馆等机构的古籍修复、人才培养,目前国图修复珍贵古籍五十多册。2021年7月,字节跳动公益联合中国文物保护基金会、国家图书馆发起“寻找古籍守护人”活动,招募推动古籍活化、助力传统文化传承的创作者。

    据“识典古籍”项目负责人介绍,上述平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

    与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。

    抖音集团副总裁李涛表示,此前团队曾调研了其他机构做的类似项目,发现大部分项目是出于商业目的考虑,从公益角度出发开展的项目比较少,这在一定程度上阻碍了古籍保护工作的快速推进。“因此,我们选择通过公益的方式开展项目,这也是我们同合作的机构及专家一起讨论的结果,大家觉得这样推动项目开展可能更智能、更开放也更高效。”

    据介绍,未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。

    一年多来,字节跳动在古籍修复和活化上也有所进展。此前,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件,包括一批稀有的样式雷图档。在活化方面,抖音平台推出“寻找古籍守护人”计划,旨在激励创作者通过音乐、说书、绘画、复原美食等形式,普及古籍知识、演绎古籍内容,让古籍鲜活起来。(皮磊)