智能文字识别技术——AI赋能古彝文保护

前言

人工智能在古彝文古籍保护方面具有巨大的潜力和意义。通过数字化、自动化和智能化的手段,可以更好地保护和传承古彝文的文化遗产,促进彝族文化的传承和发展。

文章目录

  • 前言
  • 一、古彝文是什么?
    • 1.1古彝文的背景
    • 1.2古彝文古籍保护背景
  • 二、古彝文识别的重难点
    • 2.1古彝文原籍难以获取
    • 2.2古彝文翻译过程繁琐
  • 三、合合信息智能文字识别技术
  • 四、古彝文识别的意义
  • 五、总结

一、古彝文是什么?

1.1古彝文的背景

古彝文是中国彝族人民使用的一种古老文字系统,彝族是中国的一个少数民族,主要分布在云南、四川、贵州等地。古彝文起源于公元前13世纪左右,是彝族人民长期积累和发展的产物,具有悠久的历史和独特的文化内涵。

古彝文的使用范围广泛,包括文献、神话、诗歌、歌谣、家谱等各个方面。彝族人民利用古彝文记录了丰富的历史、文化、宗教和社会信息。古彝文不仅是彝族人民的重要交流工具,也是他们传承文化、宣扬思想、表达情感的重要媒介。

然而,由于历史的变迁和社会的变化,古彝文的使用逐渐减少,目前,古彝文面临着保护和传承的挑战,相关机构和学者正致力于研究和保护古彝文,以确保其珍贵的文化遗产不会失落。

1.2古彝文古籍保护背景

目前,包括Google在内,全球许多技术厂商都在使用AI、OCR等数字化技术来保护古籍。国内如龙泉寺还发明了名为“佛原生”的AI技术,利用基于深度学习的单字识别引擎成功地将《六十华严》的大藏经版本进行电子化。

这些项目和技术的出现,为古籍保护和数字化提供了新的可能性。促进人工智能领域与古彝文保护领域的合作与共享,吸引更多的人工智能专家和学者参与到古彝文的保护工作中。通过跨学科和跨领域的合作,可以充分发挥人工智能在古彝文保护方面的作用,提高保护效果。

然而,数字化技术在古籍保护方面仍面临一些挑战。古籍的复杂性、纸质的脆弱性以及文字的特殊性都需要我们持续努力去解决。同时,还需要加强对数字化古籍的存储、备份和安全性的考虑,以确保这些宝贵的文化遗产得到长期的保护和传承。

二、古彝文识别的重难点

2.1古彝文原籍难以获取

首先,彝族祭司布摩通常不愿意出售祖传书籍。对他们来说,出售书籍被认为是一种耻辱,因为这些书籍承载着祖先的智慧和文化传承。他们更倾向于将这些书籍传承给合适的继承人,而不是出售给外部的研究者。

其次,有些彝族祭司在去世时会要求将自己的经书与自己一同火化。这意味着这些书籍可能会被毁灭,使得获取古彝文原籍更加困难。

此外,古彝文研究者需要在当地长期驻扎,并与彝族社区建立良好的关系。这需要时间和耐心,以获得当地人的信任和支持。只有与古彝文传承人建立起密切的关系,才有可能获得他们的授权和许可,进而获取古彝文原籍。

拿到古籍后,页面如有残缺、粘滞,需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅,一些因年代久远出现脆化的纸片还需重新拼接,像这样:

2.2古彝文翻译过程繁琐

1、古彝文翻译过程繁琐的原因主要有以下几点:

  1. 1.古彝文的保护和研究较为困难:古彝文是一种古老的文字系统,目前尚未被数字化,也没有预留的Unicode编码区段。在翻译过程中,需要彝文缮写员手工抄写彝文字,并将国际编码与彝文字对应起来。
  2. 彝语母语者的参与:如果翻译家的母语不是彝语,他们需要在彝语母语者的帮助下进行音译。这种合作过程可能需要时间和精力,增加了翻译的困难度。
  3. 3.多次翻译过程:首先,翻译家需要逐字用汉语进行直译,将古彝文的文字转化为汉语的文字。然后,他们需要用流畅的汉语进行意译,将古彝文的意思转化为汉语的表达方式。这种多次转换增加了翻译的复杂性和耗时性。

这种四行体彝汉文对译的方式,既保留了古籍原貌,又使得翻译内容易于理解。虽然这种方式在数字化方面存在一些困难,但它为保护古籍和传承彝族文化做出了重要的贡献。

过去的古籍翻译通常到这一步就结束了,速度较快的翻译者可能只需一两年就能出版一本译著,而较慢的可能需要数年时间。具体情况取决于原稿的长度。

如果能够有效建立起古彝文的数据库和翻译系统,高效识别古彝文字将成为可能。

三、合合信息智能文字识别技术

在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,学术成果在CVPR、AAAI、ACL等顶会上发表,并取得优秀的应用效果,这为古彝文研究提供了技术支持。

智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

作为世界上最古老的文字之一,古彝文是中华文明地图上神秘而耀眼的印记。合合信息联合上海大学、华南理工大学团队针对现有的西南彝志、云贵一带古彝文字符开展统一编码,并于近期发布了业内首个古彝文基础编码数据库(简称“数据库”)。

据悉,数据库包含上千个古彜文基础编码,通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛,以数字化手段助力传统文化保护、创新之路。

研究古彝文字集,有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护,同时通过建立古彝文数据库,填补当前国内外研究的空白。合合信息与华南理工大学共同成立文档图像分析识别与理解联合实验室,联合上海大学社会学院,共同解决数据库建设中的学术性、技术性难点。

此外,合合信息旗下扫描全能王还推出“智能高清滤镜”。该功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题并判定图像的优化方式,实现模糊、阴影、手指、屏幕纹等干扰因素一键全处理。使用者无需思考拍摄角度、光源、背景,只要点击单拍、多拍、扫描等任意拍摄按钮,便可得到一张如原稿打印般清晰、平整的图片。

左图为原图,右图为智能高清滤镜功能识别后的彝文古籍

这些努力为古彝文的研究和传承开辟了新的道路。未来,随着技术的不断进步,我们有望实现更高效、准确的古彝文识别和翻译,为古彝文的保护和传承做出更大的贡献。

四、古彝文识别的意义

古彝文识别的意义在于保护和传承文化遗产、促进语言和文化研究、保护和推广文化多样性,以及提供学习和教育资源。通过数字化技术的应用,我们可以更好地理解和传承彝族文化,促进文化的多元发展和交流。

近两年世界人工智能大会期间,合合信息展示的甲骨文识别、西周钟鼎文识别项目更是成为了场上的“人气黑马”,其背后涉及到的技术点“弯曲矫正”“复杂场景文字识别”等技术已被应用于以扫描全能王为代表的产品中,优化图像处理效果,提升文字识别精度,去满足更多群体更多元的需求。

比如“手写擦除”功能,原理就是用智能文字识别技术将待处理图像划分为手写“擦除区域”和印刷题干等“非擦除区域”,对噪点、阴影、背景杂乱等复杂场景进行处理,同时运用切边矫正、图像增强等滤镜技术,去擦除试卷、作业上的手写笔记,并且为用户呈现清晰美观的卷面图像,在家长、学生中很受欢迎。

五、总结

合合信息前期在甲骨文、金文中所作的研究,让古彝文识别成为一件“水到渠成”的事情。

此次合合信息与上海大学联合开启的“贵州古彝文图像识别及数字化校对项目”校企合作,将填补当前国内外研究的空白,也将成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。

未来,合合信息还将重点关注自然语言处理领域,不断精进AI“读懂”古文的能力,去实现更多理解层面的事情,以此更好地促进学术研究效率提升,并通过降低古文理解门槛,在文旅、文创领域触达更广泛的社会群体,让传统文化焕发新的生机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/145574.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

福利!这两款我自制的免费配色工具你领到了吗?

​前两天刚入职,还没干过啥活儿,就迎来了中秋3天国庆7天总共8天的假期,美滋滋。 在这么喜庆的日子里,我觉得大家应该也无心科研,所以不如给大家发点儿福利,继续乐呵乐呵。 当然,说是福利&…

【聊天系统的优化】RPC方式的优化

RPC方式的优化 聊天系统的中RPC的选择Jsonprotobufmsgpack 聊天系统的中RPC的选择 在RPC方式中,常用的三种方式:Json,protobuf,Msgback 设定一个简单的加和服务,客户端发送一个list给服务端,需要将list的…

API接口数据流转常见安全机制

01 什么是API? 百度百科给出了API的定义: API(应用程序接口)是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需…

C++ 类构造函数 析构函数

类的构造函数 类的构造函数是类的一种特殊的成员函数,它会在每次创建类的新对象时执行。 构造函数的名称与类的名称是完全相同的,并且不会返回任何类型,也不会返回 void。构造函数可用于为某些成员变量设置初始值。 下面的实例有助于更好地…

Vue以及整合ElementUI

初始化vue项目 #vue 脚手架使用 webpack 模板初始化一个 appname 项目 vue init webpack appname启动 vue 项目 #项目的 package.json 中有 scripts,代表我们能运行的命令 npm start npm run dev #启动项目 npm run build:将项目打包项目结构 运行流程…

el-menu 导航栏学习(1)

最简单的导航栏学习跳转实例效果: (1)index.js路由配置: import Vue from vue import Router from vue-router import NavMenuDemo from /components/NavMenuDemo import test1 from /components/test1 import test2 from /c…

Firefox 开发团队对 Vue 3 进行优化效果显著

Mozilla 官方博客近日发表文章《Faster Vue.js Execution in Firefox》,介绍了 Firefox 开发团队对 Vue 3 进行的优化。 文章写道,在使用 Speedometer 3 对 Firefox 进行基准测试时,他们发现 Vue.js test 的测试结果从 Vue 2 升级到 Vue 3 后…

MySQL单表查询与多表查询

目录 一、单表查询 ​编辑 1、显示所有职工的基本信息。 ​编辑2、查询所有职工所属部门的部门号,不显示重复的部门号。 ​编辑3、求出所有职工的人数。 4、列出最高工和最低工资。 ​编辑5、列出职工的平均工资和总工资。 ​编辑6、创建一个只有职…

【数据结构】队列实现+层序遍历详解+一些练题

欢迎来到我的:世界 希望作者的文章对你有所帮助,有不足的地方还请指正,大家一起学习交流 ! 目录 前言队列的实现层序遍历详解强化练习1.判断是不是完全二叉树求二叉树的最大深度 总结 前言 国庆到了,也要内卷一下,感…

ElasticSearch 同步数据变少了

一、前言 这几天对接ES遇到几个坑,我们将一张库存表同步到ES发现Docs Count和我们表中的数据对不上,需要加上Docs deleted才对得上,也不知道批量写入数据为什么有些数据就会成 Docs deleted。 二、ID和版本号 ES中每一个Document都有一个_…

c#中的接口

使用IEnumerable统一迭代变量类型 class Program {static void Main(string[] args){int[] nums1 new int[] { 1, 2, 3, 4, 5 };ArrayList nums2 new ArrayList { 1, 2, 3, 4, 5 };Console.WriteLine(Sum(nums1));Console.WriteLine(Sum(nums2));Console.WriteLine(Avg(nums…

oracle-使用PLSQL工具自行修改用户密码

1、使用PLSQL工具,输入用户名和原密码登录,如下图 2、登录后,在会话下拉菜单中找到”Change password..” 3、在跳出的窗口中配置新密码,修改完成后单击”确认”,后退出PLSQL 4、重新打开PLSQL,使用新密码登…

【Spring Cloud】深入理解 Eureka 注册中心的原理、服务的注册与发现

文章目录 前言一、微服务调用出现的问题1.1 服务消费者如何获取服务提供者的地址信息?1.2 如果有多个服务提供者,消费者该如何选择?1.3 消费者如何得知服务提供者的健康状态? 二、什么是 Eureka2.1 Eureka 的核心概念2.2 Eureka 的…

C语言数据结构之排序整合与比较(冒泡,选择,插入,希尔,堆排序,快排及改良,归并排序,计数排序)

前言:排序作为数据结构中的一个重要模块,重要性不言而寓,我们的讲法为下理论掌握大致的算法结构,再上代码及代码讲解,助你一臂之力。 一,冒泡 冒泡排序应该是大家学习以来第一个认识的排序方法&#xff0…

buuctf-[WUSTCTF2020]CV Maker

打开环境 随便登录注册一下 进入到了profile.php 其他没有什么页面&#xff0c;只能更换头像上传文件&#xff0c;所以猜测是文件上传漏洞 上传一句话木马看看 <?php eval($_POST[a]);?>回显 搜索一下 添加文件头GIF89a。上传php文件 查看页面源代码&#xff0c;看…

Leetcode---364场周赛

题目列表 2864. 最大二进制奇数 2865. 美丽塔 I 2866. 美丽塔 II 2867. 统计树中的合法路径数目 一、最大二进制奇数 这题只要你对二进制有了解(学编程的不会不了解二进制吧)&#xff0c;应该问题不大&#xff0c;这题要求最大奇数&#xff0c;1.奇数&#xff1a;只要保证…

谷歌扩展下载

Chrome 扩展下载安装网站推荐 # 1. 极简插件优质crx应用 ●地址&#xff1a;https://chrome.zzzmh.cn ●推荐&#xff1a;★★★★★ 一个非常良心 & 干净 & 简洁的 Chrome 扩展下载网站&#xff0c;体验非常不错&#xff01; 侧边栏可以通过类型对扩展进行筛选和排序&…

Android LiveData 介绍

Android LiveData 介绍 系列文章目录前言一、LiveData是什么&#xff1f;二、简单使用依赖测试数据准备1.创建可观察的livedata2.观察它3.更新它 总结 系列文章目录 Android LiveData 介绍&#xff08;本文&#xff09; 前言 本系列根据官网介绍Jetpack中的数据通信组件&…

大数据Doris(三):Doris编译部署篇

文章目录 Doris编译部署篇 一、Doris编译

侯捷 C++ STL标准库和泛型编程 —— 4 分配器 + 5 迭代器

4 分配器 4.1 测试 分配器都是与容器共同使用的&#xff0c;一般分配器参数用默认值即可 list<string, allocator<string>> c1;不建议直接用分配器分配空间&#xff0c;因为其需要在释放内存时也要指明大小 int* p; p allocator<int>().allocate(512,…