几天前,我们做了一场直播,关于如何用 Serverless 技术让文化古籍“活过来”。
完整视频进入阿里云云原生视频号看直播回放
背景信息:
通过阿里云函数计算帮助复旦大学特藏中心建立数字图书馆,为用户提供更丰富、更具互动性的古籍浏览体验。
最初,复旦大学图书馆特藏中心希望和国外特藏平台的通用标准接轨,把 IIIF 标准用在处理珍贵的数字化印藏图片上,后来经过双方交流,决定用阿里云函数计算来实现。复旦印藏项目的成功,也是国内首次将 IIIF 标准应用于大规模网站的实现和运营。
在直播过程中,针对如何通过技术让古籍活化,我们看到了非常多不同的思路,也看到大家基于自己的经验,分析在实现古籍活化中可能会遇到的问题。
因此,我们联合阿里云开发者社区发起话题 #云上古籍活化
话题地址:https://developer.aliyun.com/ask/535355
针对三个问题,我们收集了部分网友的回答:
问题一:你觉得数字技术可以让古籍活化吗?
-
数字技术可以让古籍里的内容更长久的保存下去,也可以在网上传播给更多的人观看,相比较呆在图书馆里,更有活力了。
-
目前的数字技术在古籍方面的应用主要是通过扫描、拍照以及其他的技术手段来实现古籍的数字化,方便研究学者的在线查阅和研究。这在一定程度上已经算是让古籍活过来了,但是古籍所包含的研究价值不仅仅是古籍上面的文字所承载的文化价值,而是也包括古籍纸张的研究价值。古人为了让古籍保存的更长久,对于纸张的处理,笔墨的处理,都用心良苦,纸张笔墨的技术往往也是研究一个时代造纸技术的发展素材,而这些通过数字技术复活的古籍往往是无法体现的。
-
首先大家对古籍活过来的定义是什么,如果仅仅是修复古籍那么依靠现在的数字技术+ AI 能力是很简单的事情,我个人拙见对于古籍活过来的定义不能仅仅是修复古籍,古籍是一种文化的载体,而文化要靠传播才能生动活泼这才是活过来,那么如何传播如何生动,则是更需要的。
-
数字技术可以为古籍提供多种形式的展示和传播,比如影像、音频、动画、互动等,让古籍的内容更加生动、易懂、有趣。数字技术也可以为古籍提供更多的研究方法和工具,比如文本挖掘、知识图谱、人工智能等,让古籍的价值更加深刻、广泛、创新。
-
数字技术也面临着一些挑战,如版权问题、技术标准和长期保存等方面的考虑。因此,在数字化古籍的过程中,需要综合考虑技术、法律和文化等多个因素。
-
难度很高,目前无论是大模型还是其他 NLP 技术都很少有针对古文设计的数据集。你说"月亮在天上,柳树在下面"或许机器可以理解,但说"人约黄昏后,月上柳梢头",机器就是大写的懵逼。 更不要说古籍中更加晦涩难懂的语言,在人为不强干预的情况下,机器想要明白实在太难。
问题二:你认为利用技术实现古籍活化会遇到的问题是什么?
- 有些古籍可能有残缺,也有可能文字的含义现代人不了解,对于特定领域的古籍,仍需要专业知识的参与。
- 现代技术修复古籍的难点有些古籍缺失的内容太多,相关资料和记载太少。
- 古籍被掠夺的事情很多,很多古籍都不是原稿,只是依靠战火后的人们根据口口相传以及找寻丢失的古籍来补全,期间丢失的和偏颇的一定很多。那么修复的不是原稿又如何保证修复是成功的呢?
- 古籍中的文字可能因为时间的流逝、虫蛀或其他原因而部分丢失。修复时需要通过图像处理、OCR 技术等手段恢复丢失的文字内容。
- 在修复过程中,需要注意保护原始古籍的完整性和真实性,避免过度修复或对古籍进行不可逆的改动。
- 对于古籍中的文字,在千年的文化发展之后,现有的文字库可能并不能识别古籍中的文字,而古籍中的文字目前的系统中也可能不存在,那么经过现代技术修复古籍可能识别的准确度就会比较差。
- 古籍往往都是保存很久远的书籍,那么纸张本身和文字本身的对比度就会比较差,通过拍照或者其他技术手段获取的古籍电子资料在识别上往往效果不会那么好,可能会有识别错误或者识别不出的情况。
- 数字技术可以帮助我们处理复杂的文献和历史遗迹,但需要注意数据的准确性和完整性。传统的处理方法可能无法完全恢复原始的文献和历史遗迹,因此需要使用新的技术和方法来实现。
- 古籍的保存状况往往不容乐观,很多古籍都存在破损、霉变等问题,这些问题会影响到古籍的修复效果;古籍的修复需要专业的技术和知识,需要修复人员具备一定的经验和技能; 古籍的修复需要耗费大量的时间和精力,而且修复的效果也不一定能够得到保证。
问题三:如果有机会参与到古籍活化中,你最想参加哪部分?
- 之前参与的一个项目是有大量的塑像和壁画的图片高清资源,需要在网页里展示,调研过程中接触到了 IIIF 图片处理标准,最后把图片处理的工作都放到函数计算里,费用很低,而且从来不担心服务器压力。国内有大量的古建筑寺庙,那些塑像和壁画随着时间也在慢慢损坏,也需要数字化技术来长久的保存,让后人可以看到欣赏和研究。
- 我希望参与到古籍的文化宣传中,因为相关技术我不会,现学又需要金钱和时间来支撑,所以先干点自己能干的事。
- 我希望参与到古籍的文化传播一部分中来,有现代数字技术传播展示吸引更多的人来喜欢热爱、挖掘、探究、追源古籍。一旦有了更多的人参与进来,那么古籍的修复与活过来之路才会更加健壮与长远。
- 利用我的编程能力,为古籍开发一些有趣的应用或游戏,让更多的人能够接触和了解古籍。利用我的创作能力,为古籍创作一些诗歌或故事,让古籍的精神和文化能够传承和发扬。
- 对古籍进行内容分析和注释,以提供更多的背景信息和解释。
- 我最想参与的就是古籍文字的识别,可以说目前文字识别技术的发展已经算的上成熟了,比如文字识别 OCR 技术,借助于大模型技术不断丰富文字识别的内容,提高识别的精确度;支持多种场景的文字识别,我希望可以将这项技术同样应用于古籍的识别,提高古籍识别的准确度。并且不断的丰富计算机中的文字库,让古代的文字一样可以通过现代的技术打印出来。
- 希望参与翻译与数字化的相关的部分,在参与的期间可以更加清晰的了解历史文化,以及学习到古时候的智慧,这部分是最宝贵的,比如说有些古诗词、有些古文化的科技等等,现在在一些视频上面还能看到古时候的造纸、炼铁、以及瓷器相关的技术,这部分都是我比较感兴趣的。
- 如果有机会为古籍活化助力,我愿意参与开发数字化修复算法:参与研发高效准确的数字化修复算法,通过图像处理技术帮助修复古籍图片的质量和可视化效果。
- 我更想做的是维护元数据,因为我还是要扩展元数据库,想要做一个模型,来识别古物的材质,能够在未来还原历史。
- 我想参与古籍数字化和修复的工作。古籍数字化可以将古籍的内容进行数字化,方便人们在线阅读和研究。同时,古籍数字化也可以帮助我们对古籍进行保护和修复。
未来的某一天,点击浏览器进入一个网站,就可以看到珍贵的典籍陈列在首页上。随机点开一本,就可以沉浸式回到历史里的某个时间点,那里可能是甲骨文刻字,也可能是敦煌莫高窟……
对于这个话题,你还有哪些想法,点击此处 ,进入话题专区参与讨论。