文/羊城晚报全媒体记者 王丹阳 图/受访者提供
从千年前沉睡的残卷,到如今普通人触手可及的云上文物,AI大模型搭建起贯通古今的敦煌千年数字图书馆。
5月31日,敦煌“数字藏经洞”数据库平台(https://cave17.e-dunhuang.com)正式上线,9900多卷敦煌文书经卷、60700多幅图像的数字化版本与全球用户“零距离”接触,内容涵盖佛经、律典、契约、绢画等。
这场跨越时空的数字文化之旅背后,是敦煌研究院与腾讯的深度合作。基于混元大模型和智能检索技术,腾讯所提供的古籍检索、多语言翻译、文白互译、智能问答、AI归纳等功能,让丰富而深厚的敦煌文化内容,被更好地展现和理解。
自2017年达成战略合作以来,敦煌研究院与腾讯联袂推出了“敦煌数字供养人”、“云游敦煌”小程序、敦煌动画剧等数字文创精品内容。2022年,双方进一步成立数字敦煌文化遗产数字创意技术联合实验室,推出全球首个基于区块链的数字文化遗产开放共享平台“数字敦煌开放素材库”等亮点项目。今年适逢敦煌莫高窟藏经洞发现125周年,此次发布的“数字藏经洞”数据库平台,是双方在探索前沿数字技术创新应用于文化遗产保护和传承中的又一次具有开拓性的重要尝试。
浩瀚经卷数字化呈现
进入“数字藏经洞”数据库平台,只见浩瀚的文物内容在数字世界全面直观呈现。平台不仅收录了世界上最早的印本书籍《金刚经》、柳公权真迹拓本等传世珍宝,还集纳了唐代《放妻书》、中国最早的育儿教材《太公家教》、现存唐诗中的第一巨制《秦妇吟》等珍贵内容。
以《金刚经》为例,卷首的版画描绘了释迦牟尼在祇树给孤独园讲法的场景,卷尾清晰标注了868年的刊印日期。借助腾讯数字技术能力,用户不仅能欣赏到这些古籍的细节,还能与背后的故事进行深度互动。
AI技术带来了“解读”这些古经卷的全新方式。例如,点击平台的“AI归纳”功能,网站即刻提炼出《金刚经》的核心思想,并通过智能推理将其与同期壁画中的佛陀说法场景进行关联。
此外,面对繁体字、无标点、竖排的原文,AI可一键将内容转换为简体字,并且自动生成白话文翻译。平台的AI小助手24小时营业,用户可随时就古籍当中的疑惑“问AI”。
更令人惊叹的是,平台还为学者们提供了全链路的学术支持系统。借助智能检索引擎,结合中国图书馆分类法与多条件筛选,文献的精准定位可秒级完成。
经卷浏览模块采用了“字-列-文”三维解析工具,帮助学者逐字查阅生僻字、恢复原卷结构、跨版本对照,同时利用百亿像素图像识别与人工校验确保学术严谨性。
面向全球用户,平台支持中、英、法、日等多语言互译,帮助敦煌文化在全球范围内无障碍传播。
AI这样“读懂”古籍“天书”
作为“数字藏经洞”数据库平台的技术支持方,腾讯通过智能检索平台(腾讯云ES)实现了古籍数据的智能化处理和精准检索。
据腾讯技术团队介绍,首先,平台对古籍数据进行了重新分词,确保文本能够被AI系统理解并有效处理。由于敦煌经卷中存在大量繁体字、异形字和生僻字,加之竖排、无标点,给传统文本处理带来挑战。因此,技术团队引入了“古籍专属词典”,并与敦煌专家团合作优化了复杂词汇的分词方式。
其次,平台无缝集成大模型,将其强大的推理能力与智能检索平台结合,形成双模驱动的RAG(检索增强生成)技术架构。腾讯云大数据专家表示,这是当前AI技术中最成熟和前沿的技术范式——大模型协同智能检索平台构建的RAG技术体系。该体系应用的大模型腾讯混元和DeepSeek,是当前最“聪明”的国产AI大脑,全球权威评测平台Chatbot Arena显示,这两款模型在全球排名前列。
在处理复杂的古籍内容时,RAG技术能够将历史文献与现代技术相结合,实现“从海量文献中秒级锁定真知”。经敦煌专家团测试,该技术体系生成的答案准确率高达95%。
近年来,敦煌学研究愈发深入。借助AI等前沿技术,“数字藏经洞”数据库平台全球上线,也将集中展示“流失海外敦煌文物数字化复原项目”成果,持续扩大与世界各地敦煌学收藏和研究机构的合作,为全球学术界和社会公众了解、获取敦煌文化艺术资源贡献一项统一完整、权威准确、开放共享、便捷智能的国际性公共文化服务产品。