|
||||
|
||||
■ 本报记者 皮磊 眼下,数字技术、人工智能、AI已成为社会发展热词。今年的政府工作报告中提到,深化大数据、人工智能等研发应用,开展“人工智能+”行动。这是“人工智能+”首次被写入政府工作报告,为各行各业发展释放了积极的信号。在公益慈善领域,前沿技术的发展也促进了行业不断升级迭代,新的公益项目、公益产品不断涌现。 2022年3月,字节跳动向北京大学教育基金会进行捐赠,支持“北京大学—字节跳动数字人文开放实验室”。字节跳动依托在OCR(光学字符识别)、自然语言处理、知识图谱等技术领域的经验积累,以及互联网产品设计与研发优势,探索借助人工智能提高古籍修复、整理工作效率。当年10月,由该实验室研发的古籍数字化平台——“识典古籍”上线,让古籍保护与传承工作步入“快车道”,更多中华文化瑰宝得以进入大众视野。 有报道指出,“识典古籍”平台不仅是一个公益性数字化平台,对于古籍爱好者尤其是专业研究人员来说,其更是一座横跨千年历史的知识宝库。目前,该平台对社会免费开放的古籍超过了2900部,其提供的分词检索、图文对照、字典释义等功能,让普通人也能轻松阅读古籍文献。 不过,随着该平台上线的古籍数量越来越多,平台功能和相关工具不断优化,如何让用户学会使用越来越多的工具,更加高效便捷地找到自己需要的资料来源,成为一个新的问题。 记者从字节跳动方面了解到,为进一步解决“找不到”“不会用”等问题,“识典古籍”平台于近期上线古籍智能助手。简单来说,通过古籍智能助手,用户可以用平常说话的方式与正在阅读的古籍进行对话。当遇到不懂的古文时,用户可以点击“问AI”,就能够看到这句话的翻译,还可以让智能助手总结古文的主要内容,提出可供参考的研究问题。 这也是大语言模型技术在古籍数字化以及公益领域的一个创新案例。 据“识典古籍”产品负责人王宇介绍,古籍保护与文化传承一直是字节跳动公益重点关注的领域,“识典古籍”平台一方面是一个面向社会公众的数字化古籍阅读工具,同时也是一个开放的古籍数字化智能整理平台。“从2022年上线到现在,我们根据用户的反馈对平台功能进行了一系列优化。我们也在探索一些更高效的方式,开发更好的产品和工具,帮助大家更好地阅读和理解古籍。此次依托大语言模型技术,上线古籍智能助手,也是我们在这一领域的思考和创新。” 此前爆火的ChatGPT让很多人第一次听说了“大语言模型”这个专业术语。简单来说,一些使用了大模型技术的产品,能和用户自然地对话和交流。不过,将该技术应用在古籍检索及阅读领域,目前并没有先例。加之古籍内容的特殊性和专业性,如何更好地利用这一技术,使其能够准确识别用户意图并给出让人满意的结果,仍是不小的挑战。 具体而言,在“识典古籍”平台,当用户输入问题或者选中古籍中的文字请AI进行解释时,古籍智能助手首先会对用户提出的问题进行意图判断;如果回答这个问题需要利用字典中的条目或者古籍数据库搜索结果作为上下文,智能助手会获取相关的上下文,然后通过大语言模型综合总结并给出回复。经过前期测试,其准确率也已达到了较高的水平。 不过,由于目前没有可供参考的应用案例,为了让大模型能够准确地回答用户的问题,“识典古籍”研发团队付出了不少努力。为了让大模型在回答问题时采用专业的参考来源,古籍智能助手采用了检索增强生成(RAG)技术,即通过检索不同资料来源,获得所需上下文,以此增强大模型生成答案的质量。 此外,王宇介绍说,根据用户意图如何判断该使用什么样的检索工具,如何优化提供上下文的内容,团队也花了不少精力。比如,从古籍数据库里检索古籍资料,为了让用户获得的上下文更加相关,在关键词检索之外,研发团队也开发了语义检索,让智能助手在回答时能参考到文字不一样但含义相关的相关古籍段落。研发团队也有意在答案后加上原文链接,在界面上也会提示“回答由人工智能生成,请注意查证”,方便用户去查证原文并做出自己的判断。 借助新技术将复杂的事情简单化,是研发团队的方向和目标。 据不完全统计,我国现存古籍约有20万种,其中有数字化扫描影像的有8万种,实现文本数字化的仅有3-4万种左右。由于古籍种类、数量繁杂,保存程度不一,加之从事古籍修复的专业人员数量不足、资金匮乏等多重原因,古籍资源的挖掘传承保护工作仍面临巨大压力。 记者了解到,目前“识典古籍”除了网页版,今日头条产品侧还设置了“古籍”频道。由于公益项目的延展性,在字节跳动内部,有很多不同业务板块的员工参与其中,为此还专门成立了一个古籍保护公益社团。这种开放、协作的氛围,也是平台在两年时间内实现上线并不断优化的基础。 “古籍智能助手的定位是提升查阅古籍的效率,它代替不了专业的学术判断和阅读积累,但我们希望它能为使用古籍及阅读工具的人节约时间、开拓新的思路。”王宇表示,因为是一个创新性功能,古籍智能助手目前还有一定的实验性,但字节跳动决定将其免费开放给公众使用,一方面是希望用户能够多使用、多反馈,为后续优化提供更多建议,另一方面也是希望通过实践和应用来打磨出更好的产品。 2022年“识典古籍”平台刚刚上线时,为自己设定了一个三年目标:未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。对于项目团队来说,距离目标的实现仍有一定的差距。 记者获悉,除了配套开展多种形式的宣传倡议活动,下一步,“识典古籍”研发团队将有计划地为古籍智能助手开发更多的工具。除此之外,该团队还将继续提升AI在古籍整理等领域的应用,希望能够整理和校对更多的古籍,并将其数字化,促进古籍资源的高效利用,让平台在文化传承中发挥更大的作用。 |