多语言语料库万卷·丝路2.0开源,数据模态全面升级,搭建文化交流互鉴AI桥梁

3月22日,上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库,通过构建多语言开源数据底座,以人工智能赋能“一带一路”高质量建设。

在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语匈牙利语捷克语3类语料,涵盖四大数据模态共计1,150万条数据,并运用精细化处理技术使数据质量达到“工业级”标准,实现“开箱即用”。

开源链接:https://opendatalab.com/applyMultilingualCorpus

“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点,更新速览:

1. 语种数量扩充:阿拉伯语俄语韩语越南语泰语5个语种基础上,新增塞尔维亚语匈牙利语捷克语等3个稀缺语料数据。

2. 数据模态、总量全面升级:在纯文本数据基础上,新增图片-文本音频-文本视频-文本特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。

3. 超精细数据,多场景适用:经成熟数据生产管线及安全加固,结合过滤算法与当地专家人工精细化地标注质检,“万卷·丝路2.0”  已成为覆盖多模态、多领域的大规模高质量数据集,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,为开发者提供得力助手。

图片

为验证语料库质量与应用前景,上海AI实验室研究团队基于“万卷·丝路2.0”,训练出匈牙利语大模型,通用能力对标国际主流大模型,在本地化特色、安全性与中国关联性上表现出显著优势,可适用于本地生活与中匈合作领域场景。

目前,该模型已衍生出对话平台多语言AI教师助手AI匈中双语词典等创新应用上海AI实验室同时与外研在线库帕思多家机构开展合作,推动“万卷·丝路2.0”在教育、文旅、技术交流领域落地,助力多语言AI生态发展。

一、新增四大模态数据,满足多样化研究需求

今年1月,上海AI实验室开源“万卷·丝路1.0”综合性文本语料库,“万卷·丝路2.0”在1.0的基础上新增了4大模态数据,可满足多领域研究人员的多样化研究需求。

 1. 图片-文本:视觉与语言的桥梁

● 数据构成:

“万卷·丝路2.0”开源的图文数据集包含200万余张图片原始图片总大小362.174G,专注于科技、自然风光、民俗传统等10个高关注度领域且数据分布均匀,采用Alt-text基础描述 + 视觉模型生成扩展描述的双重标注,大幅提升了信息丰富度。为AI大模型行业从业人员和小语种研究人员等专业人士,提供了低成本获取特定语言语料的便利工具。

● 标签分布:

图片

图片-文本数据标签分布

 2. 音频-文本:真实交流的记录

● 数据构成:

“万卷·丝路2.0”构建了涵盖8种语言的大规模语音语料库每种语言均包含200小时超高精度标注数据,并结合环境噪声消除技术有效提高了音质,使数据质量显著高于同类开源数据集,人工校验通过率为98.2%。

数据内容聚焦社会人文娱乐媒体学识教育生活文化四大主题,涵盖真实对话场景,记录自然交流中的语音,更贴近实际生活,为跨语种语音研究者提供了坚实的数据基础。

● 样例展示:

图片

越南语音频-文本样例

 3. 视频-文本:动态叙事场景

● 数据构成:

“万卷·丝路2.0”视频-文本子集涵盖8种语言,总视频片段数量超过800万条原视频总时长超过28,000小时,清洗后仍保留16,000多小时的高质量内容。该数据集包括了8种语言(含匈牙利语/塞尔维亚语等)低资源语种,填补了这些语言在视频数据集中的空白,是多模态研究和低资源语种处理的宝贵资源。

数据类别覆盖广泛,从科技与战略文化电影动画,到旅行人物动物访谈音乐新闻教育体育等多个领域,满足多样化的研究需求,为推动视频领域技术进步与应用创新提供保障。

● 样例展示:

图片

 4. 特色指令微调SFT:避免文化偏见

● 数据构成:

“万卷·丝路2.0”特色指令微调SFT涉及了8种语言,总共提供18.4万条SFT数据,覆盖了本地文化日常对话代码数学科学等领域。

每个语种提供2.3万条,每个语种均有3,000条由当地国家居民设计的关于本地文化的特色问答对数据;其余2万条来自公开数据翻译,并经一套结合规则和模型打分的质检pipeline筛选出高质量SFT数据。

● 样例展示:

图片

捷克语SFT样例

二、多元文化数据基座,驱动全球化AI落地

作为全球首个聚焦"一带一路"研究的大规模、多模态、多领域、高质量的语料库,“万卷·丝路2.0”将有效破除AI全球化进程中"语言孤岛"与"文化断层"的双重壁垒,为AI普惠、跨国合作搭建数字桥梁。

上海AI实验室研究团队认为,通过整合多模态数据与精细化标注技术,“万卷·丝路2.0”首次实现了对低资源语言的系统性覆盖,尤其扩充了塞尔维亚语、匈牙利语、捷克语等语言的高质量语料建设,为文化交流互鉴带来可量化、可迭代的智能新维度。

新华社新闻信息中心上海中心副主任陈侃琪指出,“万卷·丝路2.0” 的发布,将构建互联互通的多元文明交融格局,为更精准广泛的国际传播和更本地化的文化产品提供数据基础。通过“万卷·丝路2.0” 的多维应用,媒体能够更准确地针对不同文化背景下的社会受众呈现更加多元、真实的全球新闻产品。与此同时,“万卷·丝路2.0” 的建设可为语言的保护与传承提供技术赋能,助力维护语言多样性,为构建更加包容、互联的世界贡献中国力量。

外研在线CEO商其坤认为,多语言语料库是AI时代的关键物资,是教学资源开发的基础、语言保护与传承的数字化载体,有助于语言节后分析与教学法优化,有利于促进教育公平与全球化能力。

中旅旅行入境游欧洲市场总监周占峰表示,国内入境旅游日渐升温,但小语种导游从业者较为稀缺。通过“万卷·丝路2.0”,既能完善入境游小语种导游的培训内容,也可以打造导游智能体,为入境游游客提供定制增值服务,切实帮助和促进入境游发展。

万卷·丝路”语料库下载链接:https://opendatalab.com/applyMultilingualCorpus

参赛有奖:上海AI实验室携手库帕思,联合举办的2025·语料数据智能创意大赛火热进行中利用“万卷·丝路2.0”多语言多模态开源数据集,设计满足教育、文旅等行业要求,具备技术创新性与产业落地潜力的数据集构建方案,即可赢取奖励,欢迎大家踊跃报名:https://www.kupasai.com/cicc/#/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39506.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows桌面采集技术

在进入具体的方式讨论前,我们先看看 Windows 桌面图形界面的简化架构,如下图: 在 Windows Vista 之前,Windows 界面的复合画面经由 Graphics Device Interface(以下简称 GDI)技术直接渲染到桌面上。 在 Wi…

C# BULK INSERT导入大数据文件数据到SqlServer

BULK INSERT 的核心原理 BULK INSERT 是一种通过数据库原生接口高效批量导入数据的技术,其核心原理是绕过逐条插入的 SQL 解析和执行开销,直接将数据以二进制流或批量记录的形式传输到数据库。 在.NET中,主要通过 ​SqlBulkCopy 类​&#x…

Power BI嵌入应用:常见问题与调试技巧

将Power B 嵌入应用时的常见问题与调试技巧 Power BI Embedded 是一项 Microsoft Azure 服务,允许开发人员将交互式 Power BI 报表和仪表板嵌入到外部自定义应用程序或网站中。将Power BI嵌入应用程序能有效提升用户体验,但实施过程中可能面临一些典型问…

Android Studio编译问题

文章目录 GradleJDK版本不兼容 Gradle JDK版本不兼容 Incompatible because this component declares an API of a component compatible with Java 11 and the consumer needed a runtime of a component compatible with Java 8 查看module内gradle文件是否设置jdk版本&…

Four.meme是什么,一篇文章读懂

一、什么是Four.meme? Four.meme 是一个运行在 BNB 链的去中心化平台旨在为 meme 代币供公平启动服务。它允许用户以极低的成本创建和推出 meme 代币,无需预售或团队分配,它消除了传统的预售、种子轮和团队分配,确保所有参与者有…

解决PHP内存溢出问题的讨论和分析

PHP作为一种广泛使用的服务器端脚本语言,在处理大量数据或复杂任务时,常常会遇到内存溢出的问题。内存溢出不仅会导致程序崩溃,还可能影响服务器的稳定性。本文将探讨解决PHP内存溢出问题的最佳实践,并通过代码示例进行详细说明。…

git,openpnp - 根据安装程序打包名称找到对应的源码版本

文章目录 git,openpnp - 根据安装程序打包名称找到对应的源码版本概述笔记备注 - 提交时间不可以作为查找提交记录的依据END git,openpnp - 根据安装程序打包名称找到对应的源码版本 概述 想在openpnp官方最新稳定版上改一改,首先就得知道官方打包的安装程序对应的…

基于Spring Boot的停车场管理系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

基于Spring Boot + Vue的银行管理系统设计与实现

基于Spring Boot Vue的银行管理系统设计与实现 一、引言 随着金融数字化进程加速,传统银行业务向线上化转型成为必然趋势。本文设计并实现了一套基于Spring Boot Vue的银行管理系统,通过模块化架构满足用户、银行职员、管理员三类角色的核心业务需求…

Unity | Tag、Layer常量类生成工具

在项目开发中我们可以对诸如Layer、Tag等编辑器数据进行常量生成,来代替在代码中通过输入字符串生成常量的形式以提高开发效率。 Layer的生成可以通过LayerMask.LayerToName获取层名称(也可以从TagManager.asset中获得 ),Tag的生成…

两个手机都用流量,IP地址会一样吗?深入解析

在日常生活中,我们常常会同时使用多台手机设备上网,尤其是在流量充足的情况下。你是否曾好奇过,当两台手机同时使用流量上网时,它们的IP地址会是一样的吗?这个问题看似简单,却涉及移动网络的技术原理。本文…

后端——AOP异步日志

需求分析 在SpringBoot系统中,一般会对访问系统的请求做日志记录的需求,确保系统的安全维护以及查看接口的调用情况,可以使用AOP对controller层的接口进行增强,作日志记录。日志保存在数据库当中,为了避免影响接口的响…

Qt的内存管理机制

在Qt中,显式使用new创建的对象通常不需要显式调用delete来释放内存,这是因为Qt提供了一种基于对象树(Object Tree)和父子关系(Parent-Child Relationship)的内存管理机制。这种机制可以自动管理对象的生命周期,确保在适当的时候释放内存&…

React:React主流组件库对比

1、Material-UI | 官网 | GitHub | GitHub Star: 94.8k Material-UI 是一个实现了 Google Material Design 规范的 React 组件库。 Material UI 包含了大量预构建的 Material Design 组件,覆盖导航、滑块、下拉菜单等各种常用组件,并都提供了高度的可定制…

排序算法(插入,希尔,选择,冒泡,堆,快排,归并)

1.插入排序 插入排序的主要思想是额外申请一个空间cur,让cur一开始等于数组的第1号位置,设置i1,让i-1的元素与其比较,如果arr[i-1]>arr[i],就让arr[i1] arr[i],当进行到最后一次对比结束,i-1,再让arr[…

python学习笔记--实现简单的爬虫(二)

任务:爬取B站上最爱欢迎的编程课程 网址:编程-哔哩哔哩_bilibili 打开网页的代码模块,如下图: 标题均位于class_"bili-video-card__info--tit"的h3标签中,下面通过代码来实现,需要说明的是URL中…

Vue3 实现pdf预览

1.使用到的插件 vue3-pdf-app 以及预览效果 2.下载依赖 // 可以使用npm 以及pnpm // 下载版本1.0.3 pnpm install vue3-pdf-app^1.0.3 3.封装pdfModel组件复用 <template><VuePdfApp :page-scale"pageScale" :theme"theme" :style"width: …

SpringBoot集成Elasticsearch 7.x spring-boot-starter-data-elasticsearch 方式

SpringBoot集成Elasticsearch 7.x | spring-boot-starter-data-elasticsearch 方式 前言添加maven依赖配置application.properties测试实体类 方式一&#xff1a;继承 ElasticsearchRepository&#xff08;适合简单查询&#xff09; 直接使用想自定义自己的Repository接口 方式…

【Clang AST】基于 Clang 获取分析 AST

The Clang AST AST&#xff08;Abstract Syntax Tree&#xff09;抽象语法树 AST是什么 抽象语法树&#xff08;Abstract Syntax Tree, AST&#xff09;是源代码的抽象表示&#xff0c;广泛用于编译器和分析工具中。 AST将源代码的语法结构转换为树形结构&#xff0c;其中每…

onedav一为导航批量自动化导入网址(完整教程)

OneNav作为一个功能强大的导航工具,支持后台管理、加密链接、浏览器书签批量导入等功能,能够帮助用户轻松打造专属的导航页面。今天,我将为大家详细介绍如何实现OneNav导航站的批量自动化导入网址。 1、建立要批量导入的表格 格局需要创建表格,表格的要求是一定要有需要,…