在没有电脑的年代,古人为了便捷地查询资料,发明了很多古代的搜索引擎,其中的佼佼者就是《永乐大典》,它也是中国最为人所知的典籍之一。
它有一个巨大的数据库,汇集了先秦至明初的七八千种典籍,共22877卷,分装11095册,总字数约3.7亿,被《不列颠百科全书》称为“世界有史以来最大的百科全书”。它的使用原理是 “用韵以统字,用字以系事” 的编排方式,先找出单字,再将与这个字有关的各种材料分类汇集,方便读者逐字查询相关资料。
但这套重要的典籍却命途多舛,如今正本已经消失在历史中,重抄的副本也仅仅存世437册,分藏在8个国家和地区的30多家藏书机构和个人手中。对于《永乐大典》的保护和研究,数字化显得势在必行。

“识典古籍”App可阅读《永乐大典》
今年10月,字节跳动公益旗下的古籍数字化平台“识典古籍”上线了存世400余册《永乐大典》的高清扫描影像和文字精校版,这意味着《永乐大典》现存公开的影像全部被汇集在一起,面向公众开放。《永乐大典》的数字化过程中,结合了字节跳动的人工智能技术,产品研发能力,以及北京大学的学术能力,将更方便学者和古籍爱好者查阅这一经典古籍。
1、鲁迅守护64册《永乐大典》
《永乐大典》的流散,从清朝中期就已经开始。
史料记载,乾隆三十七年(1772年)开四库全书馆时,对《永乐大典》进行了一次清查,发现已缺1000多册。此后,还有官员借修纂《四库全书》的机会将《永乐大典》偷走。到一百多年后的光绪元年,再次清点大典已不到5000册,少了超过一半的数量。又过二十年再查,只剩800册,不到总数10%。1900年八国联军入侵,仅存的这几百本的大部分也都散落民间和海外。
这一情况从鲁迅介入开始发生改变。
1912年中华民国成立后,鲁迅担任教育部社会教育司第一科科长,主管图书馆、博物馆等事务。在清末筹建京师图书馆时,曾决定将内阁翰林院残存的 64 册《永乐大典》移交该馆庋藏,但这批书却被翰林院掌院学士陆润庠搬至其家秘藏,未能及时办理交接。鲁迅接手工作后,意识到这批国宝集中保管的紧迫性,多次以教育部的名义致函陆润庠,要求把《永乐大典》交给国家,还多次亲自上门索要。

识典古籍的《永乐大典》专题页
经多方努力,1912年7月16日,这64册大典正式入藏京师图书馆,开启了国家图书馆系统收藏《永乐大典》的历程。
与此同时,鲁迅还为京师图书馆的建设殚精竭虑。当时京师图书馆位于广化寺,环境潮湿,空间也比较狭促,作为图书馆并不合适。为了选一个合适地址,鲁迅先后找了很多地方踩点、考察,终于在1917年的方家胡同重开新馆,为《永乐大典》提供了更好的保藏条件。
高树伟是北京大学中国语言文学系博雅博士后,长期研究《永乐大典》,他介绍,近代很多文化学者都为保护大典出过力,比如上海商务印书馆的董事张元济,1951年在他倡议下,商务印书馆将所藏的21册大典全部捐给国家。张元济对该书十分珍爱,他告诉经办人:“一切手续完备之后,乞将全书送下一阅。此生不能再与此书相见,临别不无余恋也。”他的爱书与爱国之心于此可见一斑。
近几十年,国家图书馆入藏了很多在民间发现的《永乐大典》。其中一个传奇的故事是在1983年,山东掖县一户农民家中发现了一册大典。此书是家中老太太所有,因为制作精良便用来夹鞋样。幸运的是虽然她不认字,但也懂得敬字惜纸,只把书的“天头地脚”裁了下来,这才基本保存了所有内容。这一册大典收入中国国家图书馆后,由专业修复人员做了修复,馆中至此又增加了“门”字韵的一册。
目前,最晚入藏的是“湖”字韵的一册。2007年,古籍专家在上海遇到了从加拿大回国的一位女士,她带回一册《永乐大典》居然是真品。巧合的是,这册书的顺序正好在中国国家图书馆收藏的“湖”字韵两册书的中间,将原有的两册书关联起来了。

《永乐大典》“湖”字册
“湖”字册入藏后得到了修复。2021年6月,中国文物保护基金会“字节跳动古籍保护专项基金”在国家图书馆正式启动。该项目首批资金为1000万元,定向用于古籍修复、人才培养、古籍活化与数字化等公益项目。在古籍修复项目中,专家组选择了104册件古籍列入修复计划,《永乐大典》“湖”字册也在其中,并于2023年完成修复。
“《永乐大典》有这么多册,现在只有400多册,说不定哪天又出来一册,我相信在国外的小图书馆或者民间,应该还会有这样一些有趣的线索。”高树伟说,“每一次这样的消息出现,大家都非常关注,原因是每一册《永乐大典》都是独特的,对于研究中国古代来说,都是打开了一扇新的窗户。”
2、既要又要的“缝合怪”
《永乐大典》的独特之处从编纂时就已经存在。
那是永乐元年(1403年),刚刚登基不久的明成祖朱棣下了一道圣旨,认为古今天下的事物被分散在太多书里,不易翻看,如果有一本书能把这些汇聚在一起,那检索查阅资料就太方便了,于是让解缙等一众大臣“修辑一书,毋厌浩繁”。
解缙召集了147人,仅仅一年后便编成一书进呈。虽然皇帝赐名《文献大成》,但他并不满意,认为过于简单,“所纂尚多未备”,不符合他“毋厌浩繁”的原意。于是又过了一年,再命姚广孝重新主持修纂,编纂队伍规模扩大到2169人。永乐五年,姚广孝撰写了《永乐大典表》进呈。明成祖审阅后非常满意,并亲自撰写了序言,赞扬“上自古初,迄于当世,旁搜博采,汇聚群书,著为奥典”,并正式定名为《永乐大典》。
全书依照《洪武正韵》的韵目,“用韵以统字,用字以系事”的编辑方法,将自古以来书籍中的有关资料整段整篇,甚至整部地抄入。据不完全统计,当时辑入的图书包括经、史、子、集、释藏,道经、北剧、南戏、平话、工技、农艺、医学、志乘等达七八千种。

识典古籍的《永乐大典》专题页
《永乐大典》的第一次大劫是在嘉靖三十六年(1557),皇宫中发生火灾,嘉靖帝连下数道命令将大典抢救出来。经此一劫,嘉靖帝任命高拱等人严格按照永乐正本的册式行款重录一部《永乐大典》,以防患于未然。自此,大典有了永乐正本和嘉靖副本之分,可惜此后正本不知所踪,现留存下来的400余册残本也都是嘉靖副本。
从现存副本来看,大典做工考究,极具皇家气度。书衣用多层宣纸硬裱,外部用黄绢包裹,高50.4厘米,宽30厘米,尺寸近似于完全打开平放的笔记本电脑。书写、墨、纸均严格筛选,除标题首字用多种篆、隶、草体书写外,正文都是书手们用明代官用楷书“台阁体”,墨用的是明代最好的徽州墨,纸用的是白棉纸,质地洁白柔韧,不容易撕裂,六百年不变黄。
在高树伟看来,《永乐大典》“有点像缝合怪”,底层的编纂是以类书的模式做的 “知识检索工具”,可以按韵查找相关内容,但因为皇帝不满意觉得太简单,又以全书的形式,将上自先秦、下迄明初以来书籍中的有关资料整段、整篇甚至整部一一抄录。
但这也正是它的价值所在,大典因此收录了大量古代典籍,即便后世原书丢失成了佚书,后人还可以根据大典记载,知道丢失的书在讲什么,甚至可以重新整理出来,这被称为辑佚佚书。

从《永乐大典》中辑出的《宋会要》
高树伟介绍,著名的例子是二十四史原本只有二十三史,《旧五代史》是完整丢失的,现在看到的《旧五代史》是从《永乐大典》和《册府元龟》两部书里归拢起来的。除此之外,还有《续资治通鉴长编》、《文心雕龙》宋本、一些方志、宋元人的诗文集等,都是从大典中辑佚出的秘籍。宋元时期的戏曲唱本也因大典收录,目前可以看到三种宋元戏文,为戏曲史研究提供了关键史料。
“《永乐大典》就像明初皇家藏书的一个镜像,以另外的形态保存了,很多东西在流传过程中丢了,但是有一支文脉可以通过《永乐大典》又被看到。”高树伟说,“我们研究一些重要典籍,尤其是宋元时期的一些文献,这是绕不过去的。”
3、几代人的古籍数字化进程
2020年7月,在法国巴黎的一家拍卖行,两册《永乐大典》的拍卖引起了许多人关注,估价仅为5000-8000欧元,但经过十多分钟竞价,最终远远超过估价,以640万欧元(不含佣金,合约5000万人民币)成交。
高树伟有感觉,这样高的成交价带来了一个明显的影响,很多地方的《永乐大典》不太好借阅了。他确信,古籍数字化之路势在必行,《永乐大典》这样重要的典籍更是如此。
在他印象里,国内最早的古籍数字化开始于《四库全书》。1996年,有公司历时两年完成了文渊阁《四库全书》的全部数字化工作,以光盘的形式在流传。这是古籍数字化发展的一个标志性事件,“《四库全书》有三千多种书八亿字,数字化后可以全文检索,在当时是不可思议的。我们老师这一辈的人说,当时谁有一个四库全书的光盘,就是做学术的利器。”
几年前,高树伟自己和学计算机的同学也尝试做了一个关于《永乐大典》的数字化平台,具有一键辑佚的功能。虽然用户访问量很多,但没有外部资金投入,全是他们自己拿钱做,每个月的耗费都非常高,所以这个平台又暂停了。
他设想,好的数字化不仅可以检索信息,还应该能够体现古籍在物理层面的细节,即便是看不到原书的情况下,学者也可以方便做研究。
令他欣喜的是,这样的古籍数字化平台已经存在了。“识典古籍”是一个免费开放的古籍资源平台,结合了字节跳动的人工智能技术优势、产品研发能力及北京大学数字人文研究中心的学术能力。
2021年11月,国家图书馆委托国家图书馆出版社进行《永乐大典》高清数据库项目的制作。2021年12月,北京大学数字人文研究中心开始承担该项目的设计与研发。研究中心以“北京大学—字节跳动数字人文开放实验室”为基地,整合北京大学和字节跳动双方的力量,组成联合设计与研发团队,建成了《永乐大典》高清影像数据库。

《永乐大典》专题页面可翻动
2023年2月,“识典古籍”发布了“《永乐大典》高清影像数据库”,首次在线公开了国图珍藏的40册《永乐大典》,包括75卷内容,共涉及14个韵部、17个韵字、1800部书。
在“识典古籍”阅读了《永乐大典》后,高树伟非常满意,“技术方面已经完全超出我对古籍的数字化期待了,现在的效果非常好。”
4、能够感受纸张纹理与历史痕迹的数字化
《永乐大典》通常只有在博物馆才能看到,为了让用户对此有可感受、可触摸的沉浸式体验,字节跳动技术团队结合了多项3D技术。例如,技术团队使用点光、平行光、漫反射光等不同的光源,并为这些光源配置不同的位置、角度、光照强度、光源颜色、光源衰减量,力求360度还原《永乐大典》原貌。
这样,用户能在线360度翻阅大典,不仅可以看到《永乐大典》原本影像,感受纸张纹理与历史痕迹,还可以与数字化文本相互对照。
得益于字节跳动技术团队的优势,包括《永乐大典》在内“识典古籍”已上线3.6万部古籍,具备全文检索和OCR文字识别、自动标点等智能整理功能,新上线“深度研究助手”功能还能基于已收录的所有古籍挖掘知识,进而生成报告,为学者提供专业的研究支持。

《永乐大典》的原本影像
40册《永乐大典》的上线仅仅只是开始。“识典古籍”的工作人员介绍,后台数据显示,这些《永乐大典》大家非常爱看,上线更多《永乐大典》的想法便随之而来。
此前,现存的《永乐大典》虽然基本已经全做了高清扫描,但是就像《永乐大典》流散在各地一样,这些扫描件也分散在各个网站,且文本难以便捷检索。
“识典古籍”改变了这一现状,工作人员介绍,识典古籍基于字节跳动的技术研发,通过OCR技术可以将《永乐大典》古籍图像转化为可编辑文本,针对褪色、残缺文字,利用多光谱成像与深度学习算法精准还原墨迹纹理,补全缺损部分。同时,平台将古籍数字化流程拆解为 “AI初校—大众粗校—专家精校” 三级体系,最后由北大的专业力量把关, “流水线式” 作业让整理效率大大提升。
随着400余册《永乐大典》的高清扫描影像全部上线到“识典古籍”,所有人都可以随时、随地翻阅大典,从而有机会更深入地了解这一中华典籍瑰宝。这让高树伟十分感慨,“《永乐大典》全本都在的时候,没有向公众公开,利用度不高,现在可以公开给所有人,无论是对研究、传播、教学、文化传承,都有很大的作用。”
(中国发展网)



京公网安备 11010202009593号
| 新闻信息服务许可证编号:10120230001
| 国家发展改革委主管 | 互联网新闻信息稿源单位