探索图文处理的未来:知名学府与合合信息团队分享NLP实践经验,人工智能引领技术革新


相信最近很多朋友关注的公众号和短视频号都有关于ChatGPT的文章或者视频,对此我就不再过多描述“生成式人工智能”是促成ChatGPT落地的重要技术,“ChatGPT之父”阿尔特曼曾说:“我认为我们离生成式人工智能还有一定距离。至于判断标准,根据我过去五年甚至更长时间的观察和思考,生成式人工智能的诞生是一个渐进式过程(也就是所谓的“缓慢起飞”),而不会是某一清晰的时刻——至少不会是某个获得公认的清晰时刻。”

既然生成式人工智能的诞生是一个渐进式过程,那么哪些领域场景将会逐渐展现出强大的人工智能适用性呢?在由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG图像图形企业行”活动中,我们得以思索一二。

此次活动以“图文智能处理与多场景应用技术展望”为主题,特邀来自上海交大、厦门大学、复旦大学、中科大的学者与合合信息技术团队一道,面向行内研究者分享图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等研究及实践成果。

一、生成式人工智能是否会是下一个风口?

上海交通大学人工智能研究院杨小康院长在大会上分享了生成式人工智能与元宇宙为主题的技术研究。

1.何为生成式人工智能?

判别式人工智能是以“分析-识别”为基础,开拓了目标识别和分类回归等一系列的研究应用,而生成式人工智能则以“重建合成”方式用于生成各种形式的内容。生成式人工智能是一种人工智能技术,可以学习大量数据并生成与原始数据类似的新数据。生成式人工智能通常使用神经网络或其他机器学习算法来学习数据的模式和规律,并使用这些模式和规律生成新的数据。与传统的分类或回归任务不同,生成式人工智能的目标是生成新的数据而不是对现有数据进行分类或回归。

生成式人工智能通常有两种主要的方法:基于概率模型的生成式模型和基于深度学习的生成式模型。基于概率模型的生成式模型使用概率分布来描述数据的生成过程,并从中抽样生成新的数据。基于深度学习的生成式模型通常使用变分自编码器(VAE)或生成对抗网络(GAN)等深度学习模型来生成新的数据。这些模型可以从数据中学习到复杂的分布和模式,并使用这些分布和模式来生成新的数据。

2.生成式人工智能面临的挑战

生成式人工智能的应用范围非常广泛,但它也面临着一些挑战:

  1. 数据不足:生成式人工智能需要大量的数据才能学习到数据的模式和规律,但在某些领域中,如医疗、金融等,数据的获取和共享可能受到限制,因此可能会面临数据不足的问题。

  1. 模型不稳定:生成式人工智能模型通常比传统的分类或回归模型更加复杂,因此可能会面临模型不稳定的问题,即同样的输入数据可能会生成不同的输出数据。

  1. 难以控制生成结果:生成式人工智能生成的数据通常是自动生成的,因此难以对其进行控制,无法保证生成结果的准确性和可靠性。

  1. 生成结果可能不符合伦理和道德标准:生成式人工智能可能生成具有敏感性和争议性的内容,如虚假新闻、歧视性评论等,这可能会对社会和公众产生负面影响。

  1. 难以评估和验证:生成式人工智能生成的数据通常没有明确的标准和指标来评估其质量和准确性,因此难以进行验证和评估。

针对这些挑战,研究人员正在开发新的方法和技术来解决这些问题,如使用更加稳定的模型结构、引入更多的约束和先验知识来控制生成结果等。同时,加强伦理和道德标准的监管和规范也是必要的。

3.生成式人工智能场景运用

杨小康院长还分享了生成式世界模型以及生成式虚拟数字人,通过此类技术可以让世界模型更逼近物理现实: 表观模拟到物理现象内部机理去推断,使得数字人更逼真、更通用:;在世界模型上训练智能体,可反哺真实世界中的决策过程,通过立体视觉渲染、多模态驱动、动态模拟技术实现数字人与世界模型交互。

此外,他还介绍了物理现象的视觉仿真与推理: 神经流体研究上的一些突破进展,以及世界模型的持续预测学习的挑战和难点,世界模型表征解耦等学术研究。总结为生成式人工智能为构建基于视觉直觉的物理世界模型和虚拟数字人提供了可行的途径。

此外生成式人工智能在各个领域都有广泛的应用:

  1. 文本生成:生成式人工智能可以用来生成各种类型的文本,如新闻文章、小说、诗歌等。这项技术可以被应用于自动化写作、智能客服、智能推荐等场景中。

  1. 图像生成:生成式人工智能可以生成新的图像,例如艺术风格转换、图像修复、视频超分辨率等。这项技术可以被应用于电影制作、视频游戏开发、产品设计等场景中。

  1. 音频生成:生成式人工智能可以生成各种类型的音频,如音乐、人声、环境声音等。这项技术可以被应用于音乐创作、语音合成、声音修复等场景中。

  1. 对话生成:生成式人工智能可以通过学习人类对话的模式和语言规律来生成对话。这项技术可以被应用于智能客服、智能语音助手等场景中。

  1. 视频生成:生成式人工智能可以生成新的视频内容,例如视频剪辑、视频合成、视频特效等。这项技术可以被应用于电影制作、广告制作、视频游戏开发等场景中。

  1. 3D模型生成:生成式人工智能可以生成各种类型的3D模型,如人物、建筑、汽车等。这项技术可以被应用于产品设计、游戏开发、虚拟现实等场景中。

总之,生成式人工智能在各种场景中都有广泛的应用,可以帮助人类创造更多、更优秀的内容,并提高人类的生产力和创造力。

二、复杂图文处理的未来发展将如何?

中国科学技术大学语音及语言信息处理国家工程研究中心副教授杜俊就团队在文档结构层次化重建领域的最新进展进行分享:如何让机器像人一样可以结合不同模态信号认识理解世界。

1.更深层次的汉字解构研究

基于部首建模的汉字识别、生成与评测,是一种利用汉字的组成部分(部首)来进行汉字处理的方法。该方法可以应用于汉字的识别、生成和评测等多个领域。可以有效提高识别的准确率和速度,用于自动生成汉字书法字体,或者用于生成汉字组合成语言文字,如汉藏语、汉文蒙文等。

  1. 基于部首建模的汉字识别、生成与评测的实现过程是一个基于数据、特征和模型的训练和应用过程,需要涉及到数据处理、特征提取、模型训练、预测和优化等多个方面的技术和方法。

  1. 部首分解:将汉字按照部首进行分解,得到每个汉字的部首组成部分。

  1. 特征提取:对每个部首进行特征提取,例如提取每个部首的笔画数、形状、结构等特征。

  1. 模型训练:基于提取的特征,建立机器学习模型,例如支持向量机(SVM)、神经网络等模型,并利用已知的汉字数据集进行训练。

2.自动分析表格结构

杜俊教授提出基于SEM的表格结构识别,SEM(Structural Element Matching)是一种基于结构元素匹配的表格结构识别方法。该方法的原理是在表格识别过程中,将表格的结构看作一种由多个结构元素组成的结构,并将每个结构元素表示为一组特征,然后通过比对待识别表格和预定义的结构元素库中的结构元素,来确定待识别表格的结构和单元格内容。

具体而言,SEM的步骤如下:

  1. 预处理:对待识别表格进行预处理,包括图像二值化、去除表格线等。

  1. 结构元素库构建:构建包含常见表格结构元素的结构元素库,如表头、行、列、合并单元格等。

  1. 特征提取:对待识别表格中的每个像素点提取一组特征,如像素点的颜色、位置、大小、形状等。

  1. 结构元素匹配:将待识别表格中的每个像素点的特征与结构元素库中的结构元素进行比对,找出与之最匹配的结构元素。

  1. 结构元素组合:根据匹配结果,将结构元素组合成表格的结构和单元格内容。

通过这样的方式,SEM能够对表格进行准确的结构和内容识别,具有较高的准确率和鲁棒性。但是,该方法需要预定义结构元素库,因此对于不同类型和形式的表格,需要进行相应的结构元素库设计和优化,这可能会带来一定的挑战。

3.更精细化的文档解构模型

杜俊教授提还出现阶段文档分析任务中,大多数研究是针对单页内的文章要素的解析,但从内容角度看,许多文档页与页之间内容有关联。该方法的原理是利用预训练的语言模型(如BERT、GPT等)对篇章级的文档进行编码和表示,然后使用相应的解码器将文档中的每个句子或段落与相应的结构类型(如标题、正文、列表等)进行匹配和分类。在这个过程中,模型通常会利用上下文信息、语法规则和语义知识等多个方面的信息,以提高分类的准确性和鲁棒性。

具体而言,该方法的步骤如下:

  1. 预处理:对篇章级的文档进行预处理,如分句、分段、去除停用词等。

  1. 文档编码:使用预训练的语言模型对文档中的每个句子或段落进行编码,得到其语义表示。

  1. 结构类型分类:将文档中的每个句子或段落与相应的结构类型(如标题、正文、列表等)进行匹配和分类,通常使用基于机器学习或深度学习的分类器来实现。

  1. 结构化输出:将分类结果转化为结构化的数据,如HTML、XML或JSON等格式,以便进行自动化处理和分析。

这种方法的优点在于可以将篇章级的文档转化为结构化的数据,使得文本数据的自动化处理和分析变得更加容易和高效。但是,该方法需要大量的标注数据和计算资源来训练和优化模型,因此对于某些场景可能不太适用。

三、人工智能结合机器视觉又会在图文处理有何种突破?

1.底层视觉与图像扫描的结合

底层视觉(Low-level vision)主要研究如何提高或恢复各类场景下的图像/视频内容,如清晰度提升,低质量及破损图像恢复等,是计算机视觉领域的重要研究方向之一。其理论和方法在手机图像采集与处理,医疗图像分析等领域发挥着至关重要的作用。底层视觉技术的缺陷将会导致很多high-level视觉系统(检测,识别理解)难以作为成熟产品真正落地。合合信息郭丰俊博士在本次报告中,分享了合合信息技术团队在文档图像处理系统中所做的底层视觉研究工作,从底层视觉技术的直接应用及对下游任务的影响等方面,阐述底层视觉技术在文档图像处理/识别场景下的价值与思考

2.文档处理与人工智能的结合

文档处理与人工智能的结合,是指将人工智能技术应用于文档处理领域,通过自然语言处理、图像识别、机器学习等技术,对文档进行自动化处理和分析。

具体而言,文档处理与人工智能的结合可以实现以下功能:

1. 文本识别:通过图像识别技术,将纸质文档或扫描件转化为可编辑的文本格式,以便进行后续处理和分析。

2. 文本分类:通过机器学习技术,将文本按照特定的分类方式进行自动分类,如按主题、按语言、按情感等。

3. 信息抽取:通过自然语言处理技术,从文本中自动抽取出特定的信息,如人名、地名、时间等,以便进行自动化处理和分析。

4. 文本摘要:通过自然语言处理技术,将长篇文本自动化地进行摘要,提取出其中的关键信息,以便浏览和阅读。

5. 文档翻译:通过自然语言处理技术,将文档进行自动翻译,实现多语言文档的处理和分析。

6. 知识图谱:通过自然语言处理和图谱技术,将文档中的知识点提取出来,并将其构建为知识图谱,以便进行知识管理和分析。

文档处理与人工智能的结合,可以实现对大量文档的自动化处理和分析,提高工作效率和准确性,降低人力成本和时间成本,对于企业的知识管理和业务分析具有重要的意义。

合合信息智能文档处理技术采用精准的图像裁剪、形变矫正以及去除阴影和摩尔纹等技术,利用人工智能技术对文档图像进行增强和清晰度提升,从而提高文档图像的质量和阅读体验。通过这种方法,可以有效提升文档处理下游任务的质量和效率,例如识别转换和图像分析等。目前,该技术已经被应用于智能文字识别产品,为来自全球上百个国家和地区的数亿用户提供了服务。

四.活动展望总结

根据众位学术技术大咖的分享来看,未来图文智能处理的发展将会更加智能化、自动化和可定制化。具体来说,未来的图文智能处理技术将会更加注重生成式人工智能技术的应用,例如深度学习、自然语言处理、计算机视觉等。这将使得处理效果更加准确和高效。同时,未来的图文智能处理技术将会更加自动化,例如自动识别文档类型、自动分类文档、自动提取文档信息等,这将进一步提高文档处理的效率和准确性。此外,未来的图文智能处理技术也将会更加可定制化,根据不同的行业和应用场景,为客户提供量身定制的解决方案。这将有助于满足客户的不同需求,提升客户的体验和满意度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15969.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能Python-python_movie

Python 在电影产业中的作用 Python 是一种高级编程语言,被广泛用于软件开发和数据科学,但你可能会惊讶地发现,Python 还在电影产业中扮演着一个不可替代的角色。Python 的出现不仅能够加速电影和动画的生产,而且在电影制作中&…

chatgpt赋能python:Python做动画特效:构建令人惊叹的动画

Python做动画特效:构建令人惊叹的动画 Python是一种功能强大的编程语言,可以用来建立各种应用程序,从后端Web服务到数据分析、机器学习和人工智能。然而,很少有人会将Python与动画特效联系在一起,这在技术和艺术的融合…

与ChatGPT的有趣对话|Adobe是什么软件?

Adobe是一家知名的软件公司,其产品涵盖了许多不同的领域,包括图像编辑、视频编辑、音频编辑、桌面出版、网页设计等等。以下是Adobe公司的一些主要产品: Photoshop:一款图像编辑软件,可以用于调整照片的颜色、对比度、…

AI绘画设计师专用单词表;游戏业AI正在疯抢工作;使用AI工具翻译整本英文书;用GPT-4搞定调研报告 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『如果是皮克斯制作了哈利波特系列』又萌又暖还可爱,想 rua!! 皮克斯是美国顶级的电脑动画制作公司…

任务 04、Midjourney提示词使用初指南:AI绘画不再难

4.1 任务简介 本次实验任务帮助读者掌握MidJourney提示词的使用为主题。任务分为四个部分,包括掌握提示词的基本使用结构、了解编写提示词的基本原则、探索提示词的基本用法以及通过实例快速体验提示词绘图。通过学习本任务,读者能够全面了解并熟练运用MidJourney提示词,在…

Stable Diffusion,给大家一点小小的固有印象

输入文字自动生成 AI 绘图,喜欢吗?😋 下面测试一下简单的提示词生成效果,可以认为体现了模型的默认固有印象(训练集平均)。 Model: Protogen v2.2 Prompt: two asian women 经典吊梢眼、宽眼距、塌鼻子。…

【内含实物图】一款可独立行走且支持远程对话的微型巡逻摄像头——硬件方案

一、概述 随着科技的不断发展,机器人也越来越被大家所熟知。像各大商场,银行,餐厅等地方,机器人已经是被广泛使用在方方面面,使大家的生活越来越便捷。特别是人工智能的发展和视觉技术的成熟,机器人的功能也…

Softing工业将亮相2023年汉诺威工业博览会

Softing工业将亮相2023年汉诺威工业博览会 ——提供全球范围内的IIoT数据集成解决方案 机器的连接性是数字工厂的核心组成部分。只有当设备和系统之间端到端互联时,才能灵活且安全地部署物联网、监控和数据分析等应用。 在展会上,我们将向您展示如何轻…

没有银弹,ChatGPT并不是凭空出现的神话。

ChatGPT热度高居不下。从12月至今,其热度已经持续了三个月有余,甚至还有继续延续的趋势。 ChatGPT上线后的短短5天内,用户破百万,一朝引爆全网关注,AI概念股价格飙升。新版微软Bing上线内测,一个更加智能和…

从rookie到基佬~009:无密码卸载Symantec

今天是变直小技巧 今日份洗脑:无密码情况下卸载Symantec(赛门铁克) 结论:赛门铁克的服务一旦启动,怎么卸载都需要密码,反过来说,你不让他启动,他就是待宰的羔羊。 坐标国内某企业…

网络模拟器 eNSP、EVE-NG、GNS3、Packet Tracert

工欲善其事必先利其器,学习网络不可能都有真实的网络环境可以使用,这时就需要使用网络模拟软件,模拟一些网络环境,构建一些网络拓扑,然后学习研究网络技术 初学时不要在模拟器的选择上纠结,PT、GNS3 就足够…

Umi‘s Friends——突破GameFi传统,游戏界新的P2E潮流先锋

“打破GameFi传统玩法,Umis Friends引领玩赚新趋势”主题AMA活动圆满落幕! 2023年3月25日晚上20点整,Umis Friends官方Discord迎来了一场热闹非凡的AMA活动。此次演讲嘉宾为Umis Friends CTO Mike和中文社区Mod Frank。两位嘉宾为Umis Frien…

关于趋势科技防毒墙网络版的卸载

这个软件我是很佩服 如果不知道密码 卸载很麻烦 网上的方法很多 当然 我这个电脑趋势的卸载 最后成功了 本来是老妈公司的系统 所以说密码不知道 网上最多的情况就是Allow Unistall 的键值不允许由0 改为1 好吧 我也是进了这坑 说说卸载过程 1 1.1 控制面板-&…

EVE-NG 安装

EVE-NG 简介 EVE-NG(全称Emulated Virtual Environment - NextGeneration),继Unetlab 1.0后的Unetlab的2.0新版本,改了名字,原名是UnifiedNetworking Lab统一网络实验室。笔者觉得名字改的非常合理,这款模…

chatgptH5源码开发

hatGPTH5源码开发需要以下步骤: 确定需求:在开发ChatGPTH5应用之前,需要明确用户的需求和目标,以便进行合理的设计和开发。 技术选型:选择适合的前端技术框架和工具,如React、Vue、Angular等&#…

ChatGPT常用的提示语(prompts)系列一

以下内容翻译自:https://github.com/f/awesome-chatgpt-prompts 1、作为Linux终端 英文原文: I want you to act as a linux terminal. I will type commands and you will reply with what the terminal should show. I want you to only reply with…

5个令人惊艳的AI项目,开源了。。

大家好,我是 Jack。 今天清明,小伙伴们都去哪里玩了? 上个月我已经出去浪过了,清明就老实在家歇着了。 翻看了一些最近热点的开源项目,发现还是 AIGC 的天下。 今天,我将继续着重挑选几个近期的优质开源…

替代MySQL半同步,Meta技术团队推出MySQL Raft共识引擎

【CSDN 编者按】Meta运行着世界上最大规模的MySQL部署之一。该部署驱动着社交图谱以及许多其他服务,如消息、广告和动态。在过去几年中,他们实施了MySQL Raft,这是一个与MySQL集成的Raft共识引擎,用于构建复制状态机。目前已大部分…

突然放大,Midjourney 来中国了!

突然放大,Midjourney 来中国了! 一、 Midjourney内测版本的推出 Midjourney,一款新颖的 AI 视觉艺术平台,近日在中国开放了内测版。这个内测版本在 QQ 频道上进行,每周一和周五的 18:00 开放入口,人数一旦满…

Spring Boot + 规则引擎 URule,可视化配置太爽了!

点击关注公众号,Java干货及时送达 学习 Spring Cloud 微服务的正确姿势! 用上 ChatGPT 啦,强的离谱! 几乎覆盖 Spring Boot 所有操作! 作者:知了一笑来源:juejin.cn/post/7210194936276680759 一…