垂直大模型渐入佳境,解码国内首个智能校对领域大模型“蜜度文修”

一枝独秀不是春,百花齐放春满园。

ChatGPT的兴起,引发了全球性的大模型竞赛热潮。走过开始的混沌期,大模型竞技场当前越来越呈现出两条清晰的路线:一是以云服务厂商为代表的巨头们逐鹿的基础通用大模型赛道;二是在基础通用大模型之上,深耕千行百业多年的行业“老司机”们抢滩构建的垂直行业大模型。

在WAIC 2023 世界人工智能大会会场,我们发现了一家名为“蜜度”的厂商,既有与各大头部厂商媲美的特装展位,又主办了“语言智能与内容生成高峰论坛”。这是何等的底气,让蜜度如此高调?

蜜度之“秘”

从蜜度的网站,可以发现其创立于2009年,是一家以人工智能技术为核心的语言智能科技企业,专注于多模态多语言智能科技,为政府和企业各类办公场景提供智能应用软件,致力于为数字政府、数字营销、数字媒体、数字城市的建设提供全方位的智能应用解决方案。

蜜度利用先进的跨模态检索(CMR)、多语言校对(MLC)、计算机视觉(CV)、自然语言处理(NLP)、内容生成(AIGC)、知识图谱(KG)等人工智能技术为企业和政府机构提供智能校对、智能生成、智能检索等应用软件产品,赋能企业和政府的办公场景数字化、智能化转型升级。

截至目前,蜜度已服务于20000+政府客户,10000+知名企业、大型企业。

蜜度文修国内首个智能校对领域大模型

智能校对,一个听起来相对小众的领域,作为蜜度的主打领域之一,蜜度正在把它做到极致。在本届WAIC上,蜜度发布了国内首个智能校对领域大模型“蜜度文修”。

“蜜度文修”之名取自“欧阳修曾任馆阁校勘,校对亦有修文之意”。蜜度文修以大语言模型(LLM)为技术底座,通过运用高质量数据学习多种特色子任务,大幅提升中文校对和润色能力的智能化程度。截至目前,在公开测试语料评测结果中,蜜度文修实现各类校对项目F1值(模型精确率与召回率的调和平均数,用以阐述模型完成指定任务的质量)的全面SOTA(state-of-the-art,指模型在指定任务中的表现为当前业界最优)。蜜度文修不仅辅助专业用户提高校对质量、提升校对速度、降低差错率,也为新闻出版、媒体稿件、政务公文等专业领域带来革命性的工作模式迭代与效率提升,为新时代语言文字工作高质量发展注智赋能。

“蜜度文修在中文拼写勘误、语法纠正任务上的表现显著优于通用大模型ChatGPT,大约有20%~30%的效果提升。”蜜度CTO刘益东这样点评道。

创新非一日之功

据了解,蜜度文修的推出,历经三年,方磨一剑。

早在2020年,蜜度就推出了智能文本检测服务,并以深度学习模型为技术开发策略,尝试智能化地解决错别字等基础校对问题。

2021年,蜜度成立多语言校对检测实验室,逐步完善校对能力体系建设,围绕“文字标点差错”、“知识性差错”、“内容导向风险识别”三个主要能力开展建设。

2022年的WAIC上,蜜度发布了支持本地化部署的蜜度校对通AI-Box,这也是首个通过华为昇腾AI生态认证的自然语言处理智能文本校对应用解决方案。

进入2023年,蜜度在智能校对领域的动作明显加快。年初,蜜度智能校对系统入选国家新闻出版署2022年出版业科技与示范创新项目“科技创新成果”;4月,蜜度智能校对多语言版正式上线,除了汉字、英文之外,还覆盖了蒙古文、藏文、维吾尔文、朝鲜文、壮文、哈萨克文、傣文、乌孜别克文、柯尔克孜文、俄罗斯文、彝文、傈僳文共计12种少数民族语言文字;6月,蜜度正式推出中文润色服务,重点解决用词不当、句式杂糅等措辞与表述问题。

直到本届WAIC大会现场,蜜度推出全新的蜜度文修,让大模型时代的全新工作范式走入校对场景,除了刷新多类校对任务的最佳效果之外,还完善了过去较为薄弱的易混词细微语义辨析难题,同时在尊重原意表达的基础上,更好地修正句式杂糅、逻辑错乱等问题,使句子表达更流畅,实现对句子的润色功能。蜜度文修的发布,可以视为蜜度在大模型时代,采用与时俱进的前沿科技积极赋能垂直办公场景的一次实践。

据蜜度智能校对事业部总经理张晓娟介绍,蜜度文修的创新集中体现在两个方面。

首先,引入多任务学习策略提升校对能力,设计了与校对任务密切相关的多种子任务,让模型进行自监督学习,通过做关联任务提升校对的智能化程度。

其次,大幅度提升模型学习的数据质量,引入自动化手段对大规模数据进行质量评估,解决噪音数据对校对任务的影响更为敏感的问题,同时,蜜度文修对通用规范汉字实现了全覆盖,拥有更全的专业词汇表,让更多汉字能够输入模型进行学习。

未来创新不止

在实际服务新闻出版、媒体、政府等机构客户中,蜜度发现用户对一致性检测、专业知识校对、版面校对等都有强烈需求,但当前仍有技术制约无法高质量解决。针对这些需求,蜜度算法团队已在紧锣密鼓研发,希望通过大语言模型的能力更好地满足用户不同层次的校对需求,为校对能力的再提升贡献力量。

同时,针对政务机构需要在内网环境使用的校对需求,蜜度文修计划一方面启动模型压缩任务,在效果有限损失的约束下,降低对硬件资源的开销,二是将提供插件式本地学习服务,在用户可信赖的计算环境下,实现对非公开数据的增量学习,提升校对效果。

随着大模型越来越进入垂直行业、细分场景,对整个社会生产力提升的作用愈加明显。以蜜度文修为代表的垂直领域大模型,未来可期。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19122.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

目标检测算法——YOLOv5/YOLOv7改进之结合GAMAttention

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 超越CBAM&#xff0c;全新注意力GAM&#xff1a;不计成本提高精度&#xff01; &#xff08;一&#xff09;前沿介绍 1.GAM结构图 2.相关实验结果 &#xff08;二&#xff09;YOLOv5/YOLOv7改进之结…

chatgpt赋能python:Wi-FiPython拦截抓包基础知识

Wi-Fi Python拦截抓包基础知识 Wi-Fi Python拦截抓包的技术可以用于网络安全研究、漏洞挖掘和应用开发等领域中。本文将基于Python语言介绍Wi-Fi Python拦截抓包的基础知识。 前置条件 在学习Wi-Fi Python拦截抓包之前&#xff0c;需要掌握以下知识&#xff1a; Python编程…

WireShark提取特定软件的网络包

WireShark的下载安装以及简单的使用方法这里就不赘述&#xff0c;可以参考&#xff1a; 网络抓包分析工具Wireshark的下载、安装和使用_wireshark下载教程_初见未晚的博客-CSDN博客https://blog.csdn.net/weixin_45054982/article/details/123257808?ops_request_misc%257B%2…

chatgpt赋能python:抓包是什么?

抓包是什么&#xff1f; 当我们在浏览器中访问一个网站时&#xff0c;我们的电脑会向网络服务器发送请求并接收响应。这个过程中&#xff0c;有一些工具可以让我们查看和分析这些请求和响应&#xff0c;其中最常用的就是“抓包”。 抓包就是指截获网络通信过程中的数据包并分…

chatgpt赋能python:Python抓取数据包:如何从网络中提取有用数据

Python抓取数据包&#xff1a;如何从网络中提取有用数据 在数据分析和网络安全中&#xff0c;使用Python抓取数据包是一种常见的技术。Python拥有强大的网络编程能力&#xff0c;可以用于捕获、分析和保存从网络流中提取出的数据。本文将介绍如何使用Python进行数据包捕获&…

【考研复试】某985考研复试英语面试问题汇总(综合面试+英语口语面试)

写在前面的话&#xff1a; 本科是某985Top10&#xff0c;研究生考的是自己院。笔试成绩中等&#xff0c;专业面试倒数第一&#xff0c;机试与英语面试第一。总分在录取的人员名单中倒数第一&#xff0c;稳稳压线上岸。 在准备复试时&#xff0c;我花了1个小时准备机试&#xff…

信息收集(二)

目录 DNS服务器的类型 DNS解析流程 ping / nslookup PING nslookup IP归属查询 如何获取CDN背后的真实IP 什么是CDN CDN的优势 几种访问方式的不同 CDN的配置 常见的CDN服务商 获取CDN背后的真实IP 超级ping 查询子域名 国外访问 DNS服务器的类型 DNS解析流程 pi…

外网信息收集

拿到一个目标&#xff0c;不考虑钓鱼的情况下。如果正常从web入手&#xff0c;至少需要收集以下的信息。 1、公司的域名 2、公司的子域名 3、全资子公司&#xff08;可能从下级单位打上去&#xff09; 4、公司的ip信息&#xff08;大公司可以直接跑C段&#xff09; 一般经过上面…

信息收集------总

前言 前段时间&#xff0c;看了一本书名为《Kali Linux 渗透测试的艺术》&#xff0c;我发现书中第四章信息搜集那部分有些内容不能适应有些内容不能适用国内&#xff0c;这勾起了我想总结一下国内信息搜集的欲望&#xff0c;于是就有了这篇文章。 什么是信息搜集 信息搜集也称…

内网信息收集

目录 域或工作组环境判断 判断当前登录账户为本地账户还是域账户 本机信息收集 获取本机⽹络配置信息 查询操作系统和版本信息 查看系统体系结构 查看安装的软件及版本、路径 查询本机服务信息 查询进程列表 查看本机端口开放情况 查看主机开机时间 查看当前在线⽤…

信息收集工具使用详解

要求&#xff1a;熟练掌握域名收集、子域名、IP地址收集的各种工具的使用&#xff0c;结果写入实验报告 警示&#xff1a;遵纪守法 工具&#xff1a;kail 信息收集 信息收集又称 网络踩点(footprinting)&#xff0c;攻击者通过各种途径对要攻击的目标进行有计划和有步骤的信息…

章节1:信息收集

章节1:信息收集 1 信息收集概览 01 为什么要做信息收集&#xff1f; 渗透测试的流程 确定目标 信息收集 漏洞扫描 漏洞利用 形成报告 信息收集包括的内容 域名信息、IP段、开放的端口、网站架构、文件目录结构、软件版本、WAF、旁站、C段… 分类 域名相关信息IP相关…

03、主动信息收集

第四章 主动信息收集 本篇文章所讲内容&#xff1a; 4.1 主动信息收集的原理 4.2 基于 ping 命令的探测 4.3 基于 Nmap 的扫描方式 4.4 实战 1-使用 scapy 定制数据包进行高级扫描 4.5 实战 2-僵尸扫描 4.1 主动信息收集的原理 4.1.1 主动信息收集的特点 1.直接与目标…

信息收集总结

目录 1.信息收集内容回顾 域名信息收集 ip信息收集 端口服务信息 CMS指纹识别 CDN指纹识别 WAF指纹识别 搜索引擎收集信息 网络空间搜索引擎 目录扫描 Git信息收集 2.kali信息收集工具概览 存活主机识别&#xff1a; DNS分析 IDS/IPS识别&#xff1a; wafw00f:WAF…

2.信息收集概述

1 为什么要做信息收集&#xff1f; 也可以叫做资产收集 或者 踩点。如果没有信息收集&#xff0c;后面渗透测试的范围就很盲目。有可能遗漏很多重要的安全隐患。 信息收集可以帮我们建立一个信息的数据库&#xff0c;明确攻击的范围。精准地做好后面攻击的工作。 比如&#x…

信息收集与运用

目录 一.实验目的 二.实验原理 三.实验内容 一.收集信息 二.猜解密码 三.密码强度检测 源码 测试用例 程序输出结果​编辑 ​四.小结与讨论 1.举出保护个人敏感信息的方法&#xff08;最少三点&#xff09;。 2.如何提高你的密码强壮性&#xff0c;以避免黑客利用密…

美股全线收涨 特斯拉涨超7% 瑞幸大跌近13%

据外媒报道&#xff0c;美国时间周一&#xff0c;美股收盘再次全线上扬&#xff0c;推动标准普尔500指数今年实现上涨。随着美国各州继续重新开放&#xff0c;投资者对美国经济迅速复苏越来越乐观。 标准普尔500指数收于3232.39点&#xff0c;上涨1.20%。截止周一收盘&#xff…

马斯克发起投票:是否应该出售特斯拉10%的股票?超5成粉丝赞成

整理 | 祝涛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 近期&#xff0c;特斯拉CEO埃隆马斯克依旧活跃于社交媒体平台——回应“联合国逼捐”&#xff0c;怒斥“亿万富豪税”&#xff0c;发布中文《七步诗》&#xff0c;把美国总统拜登称之为全美汽车工人联…

马斯克掷重金收购英

人前主义&#xff0c;人后生意。在带领一众科技圈大佬签署了呼吁暂停研发比GPT-4更强AI模型的公开信后不久&#xff0c;马斯克却转头豪掷千金收购了10000块英伟达GPU。 一些网友吐槽&#xff0c;以马老板的格局而言&#xff0c;这次价值过亿的投资绝对不是为了借着AI概念火爆来…

【热门】特斯拉股价飙升,马斯克访华背后有何玄机?

特斯拉CEO马斯克时隔三年再次访华&#xff0c;引发了各方的关注和猜测。他与政府部门、企业家、员工等进行了深入交流&#xff0c;并考察了电池、储能、汽车等领域的发展情况。他展示了他对中国市场和员工的重视和感激&#xff0c;并表达了他对未来发展的信心和期待。马斯克访华…