Meta AI发布SeamlessM4T模型,支持转录和翻译近100种语言|已开源

一、前言

Meta AI 近期的重磅动作频频不断,短短一个多月的时间接连发布了一系列开源大模型,下面我们看看都有哪些有影响力的产品。

2023 年 7 月 14 日

Meta AI 隆重推出 CM3leon,这是一款首个多模态模型,可实现最先进的文本到图像生成性能,计算效率是竞争模型的 5 倍。

2023 年 7 月 18 日

Meta 和 Microsoft 推出下一代 Llama,Llama 2 可免费用于研究和商业用途。

Llama 2 是 Meta 的开源大语言模型 (LLM)。这基本上是 Facebook 母公司对 OpenAI 的 GPT 模型和 Google 的 AI 模型(如 PaLM 2)的回应,但有一个关键区别:它几乎可以免费供任何人用于研究和商业目的。2023 年 8 月 16 日

2023 年 8 月 2 日

Meta 的母公司 Facebook 推出了一款名为 AudioCraft 的新型生成式人工智能工具,该工具允许用户使用文本提示创建高质量的音频和音乐。该工具包括音频模型MusicGen、AudioGen和EnCodec,可以根据文本提示生成音乐和音频。

AudioCraft 由三个模型组成:MusicGen、AudioGen 和 EnCodec。 MusicGen 使用 Meta 拥有且专门授权的音乐进行训练,根据文本提示生成音乐,而 AudioGen 使用公共音效进行训练,根据文本提示生成音频。

2023 年 8 月 23 日

Meta AI 隆重推出 SeamlessM4T,这是第一个一体化多语言多模式翻译模型。这个单一模型可以根据任务执行多达 100 种语言的语音到文本、语音到语音、文本到文本翻译和语音识别任务。

同日,MetaAI 的新 SeamlessM4T 模型现已在 Hugging Face 上提供!

2023 年 8 月 24 日(计划)

据The Information报道,Meta计划于本周四(8月24日)发布开源代码生成AI模型 Code Llama。该模型旨在帮助开发人员在编写代码时自动推荐代码片段,以提升开发效率,同时也旨在使公司更便于创建AI助手。

今天,我们将主要介绍 SeamlessM4T 多语言多任务的模型。

二、关于 SeamlessM4T

Meta AI 于 2023年8月23日发布了一款名为SeamlessM4T的AI开源语言翻译模型,它可以帮助用户将近100种语言进行转录和翻译。这款模型是基于Meta的AI技术开发的,可以帮助用户更快、更准确地翻译各种语言。 Meta AI 声称,经过数十亿个句子和数百万小时的语音数据的训练,它在嘈杂的转录和不太常见的语言方面优于现有模型。

SeamlessM4T 通过解决有限语言覆盖范围和依赖单独系统的挑战,代表了语音到语音和语音到文本领域的重大突破。

SeamlessM4T 大型模型可以在Google Colab 提供的免费 T4 VRAM上运行,在 T4 上占用大约 6GB VRAM,感兴趣的可以快速体验一下,Colab地址在文末处。

https://sundun-rdcenter.feishu.cn/space/api/box/stream/download/asynccode/?code=NTk1Mzk1ZDljZTEwOWYzMzdiNjNhMGUyYjc1YmU2YzlfVXpnQVhiQWJvM3JGYTk5SXgwTlIxZlprbDhnblhreVVfVG9rZW46WUl0bmJNWGt2b2hIMEx4cWJoM2NaQk9HblhnXzE2OTI4NTcyMTk6MTY5Mjg2MDgxOV9WNA

SeamlessM4T是一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。 SeamlessM4T 支持:

  • 自动语音识别近百种语言

  • 近 100 种输入和输出语言的语音到文本翻译

  • 语音翻译,支持近100种输入语言和35种(+英语)输出语言

  • 近 100 种语言的文本到文本翻译

  • 文本转语音翻译,支持近100种输入语言和35种(+英语)输出语言https://sundun-rdcenter.feishu.cn/space/api/box/stream/download/asynccode/?code=NDU2ODJkNDE3Zjg2MGFmMjJjMGQ4ZGJjMDcwMDc0NGJfVDJyc3R4ZFhKc0YwTmpWdDc5YU9NYm15SUV4a0FVZXVfVG9rZW46VHlIM2JwVnlrb3IxWkd4Q1J3RWNYNVB3bjdjXzE2OTI4NTcyMTk6MTY5Mjg2MDgxOV9WNA

与级联方法相比,SeamlessM4T 的单一系统方法减少了错误和延迟,提高了翻译效率和质量,提供了最先进的结果。

关于SeamlessM4T 模型,使用多任务UnitY模型架构,它能够直接生成翻译后的文本和语音。这种新架构还支持自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译,这些功能已经成为普通 UnityY 模型的一部分。多任务 UnitY 模型由三个主要的顺序组件组成。文本和语音编码器的任务是识别近 100 种语言的语音输入。然后,文本解码器将该含义转换为近 100 种文本语言,然后使用文本到单元模型将其解码为 36 种语音语言的离散声学单元。对自监督编码器、语音到文本、文本到文本翻译组件和文本到单元模型进行预训练,以提高模型的质量和训练稳定性。然后将解码的离散单元转换为使用多语言 HiFi-GAN 单元声码器进行语音。

https://sundun-rdcenter.feishu.cn/space/api/box/stream/download/asynccode/?code=N2U5ZTc3YTlhZDVlMjNhYzMyN2E0YjhiOTAzMjhkNTVfcTg3b1RZNDlzaWY1d3BGY1ZHSzc3cko1dUQ0bjdBMGdfVG9rZW46RTdzWWI1bldab3JFa3h4U0hwbWNTVzdDbm43XzE2OTI4NTcyMTk6MTY5Mjg2MDgxOV9WNA

SeamlessM4T是一款非常先进的AI翻译模型,它采用了最新的深度学习技术,可以实现高精度的翻译。这款模型还具有很强的自适应能力,可以根据用户的需求进行自动调整和优化,从而提供更好的翻译效果。

除了翻译外,SeamlessM4T还可以帮助用户进行语音转录和文字转录。这意味着用户可以通过该模型将语音或文字转换为任何一种支持的语言。这对于那些需要跨语言沟通的人来说非常有用。

SeamlessM4T的应用场景非常广泛。例如,在国际贸易、旅游、教育等领域,SeamlessM4T可以帮助人们更好地进行跨语言交流。此外,在政府、医疗等领域,SeamlessM4T也可以发挥重要作用。

三、总结

总之,SeamlessM4T是一款非常强大、先进的AI翻译模型,它可以帮助用户更好地进行跨语言交流。如果你需要进行跨语言沟通,那么SeamlessM4T绝对是一个值得尝试的工具。

四、References

  • SeamlessM4T GitHub Repo
  • https://github.com/facebookresearch/seamless_communication
  • SeamlessM4T Pager
  • https://ai.meta.com/research/publications/seamless-m4t/
  • SeamlessM4T News
  • https://ai.meta.com/blog/seamless-m4t/
  • Hugging Face Space
  • https://huggingface.co/models?search=facebook/seamless-m4t
  • SeamlessM4T Demo
  • https://seamless.metademolab.com/demo
  • SeamlessM4T Colab
  • https://github.com/camenduru/seamless-m4t-colab

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/106622.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode 767. Reorganize String(重组字符串)

重新排列字符串s中的字母,使得任意两个相邻的字母都不相同。 思路: 让相邻字母不同,能想到的办法是先把相同的字母排列, 然后在相同字母的缝隙中插入另一种字母。 比如"aab", 先把"a a"排出来,再…

5G与4G的RRC协议之异同

什么是无线资源控制(RRC)? 我们知道,在移动通信中,无线资源管理是非常重要的一个环节,首先介绍一下什么是无线资源控制(RRC)。 手机和网络通过无线信道相互通信,彼此交…

GPIO输入-外电检测

前言 (1)本系列是基于STM32的项目笔记,内容涵盖了STM32各种外设的使用,由浅入深。 (2)小编使用的单片机是STM32F105RCT6,项目笔记基于小编的实际项目,但是博客中的内容适用于各种单片…

数据结构-链表

吐槽一下: 在我第一次看到链表这个东西的时候,我觉得数据结构好难啊,怎么这么难理解啊,这是什么玩意啊,结果慢慢的我才发现,链表是除了顺序表最简单的一个数据结构了;我以为我学完了链表&#x…

登录认证-登录校验-会话技术方案选择和对比(cookie、session和JWT令牌)

会话技术方案选择和对比 一、背景说明二、会话技术之 Cookie1、为什么说cookie是客户端会话技术2、cookie的优点和缺点 三、会话技术之 Session1、为什么说Session是服务端会话技术2、session的优点和缺点 四、令牌技术JWT1、JWT 的原理2、JWT的优点和缺点 一、背景说明 在开发…

科大讯飞笔试编程第二题(处理Scanner不能先输入数字再输入字符串问题)

问题: 在使用scanner的时候如果先读取一个数字,在读取一行带有空格的字符串,势必会出错或者字符串读不到 public static void main(String[] args) {Scanner scanner new Scanner(System.in);int x scanner.nextInt();String s scanner.n…

【C++杂货铺】探索vector的底层实现

文章目录 一、STL1.1 什么是STL?1.2 STL的版本1.3 STL的六大组件 二、vector的介绍及使用2.1 vector的介绍2.2 vector的使用2.2.1 vector的定义2.2.2 vector iterator2.2.3 vector空间增长问题2.2.4 vector增删查改 2.3 vector\<char\> 可以替代 string 嘛&#xff1f; …

指针-C语言(初阶)

目录 一、什么是指针 二、指针和指针类型 2.1 指针-整数 2.2 指针的解引用 三、野指针 3.1 野指针形成原因 3.2 如何规避野指针 四、指针运算 4.1 指针-整数 4.2 指针-指针 4.3 指针的关系运算 五、指针和数组 六、二级指针 七、指针数组 一、什么是指针 指针是内存中一个…

【八股】2023秋招八股复习笔记4(MySQL Redis等)

文章目录 目录1、MySQLmysql索引实现mysql索引优化mysql索引失效的情况mysql 千万数据优化mysql 事务隔离级别 & 实现原理mysql MVCC版本链&#xff08;undo log&#xff09;mysql数据同步机制 & 主从复制 &#xff08;binlog&#xff09;mysql 日志&数据恢复&…

5G NR:RACH流程-- Msg1之生成PRACH Preamble

随机接入流程中的Msg1&#xff0c;即在PRACH信道上发送random access preamble。涉及到两个问题&#xff1a; 一个是如何产生preamble&#xff1f;一个是如何选择正确的PRACH时频资源发送所选的preamble? 一、PRACH Preamble是什么 PRACH Preamble从数学上来讲是一个长度为…

MyBatis与Spring的集成整合加优化分页功能

目录 一.为什么要将MyBatis和Spring整合&#xff1f;&#xff1f;&#xff1f; 二.配置环境 2.1 pom文件 2.2 xml文件 三.演示举例 四.Aop整合pageHelper 分页插件 今天的分享就到这啦&#xff01;&#xff01;&#xff01; 一.为什么要将MyBatis和Spring整合&#xff1f…

自动驾驶感知传感器标定安装说明

1. 概述 本标定程序为整合现开发的高速车所有标定模块,可实现相机内参标定和激光、相机、前向毫米波 至车辆后轴中心标定,标定参数串联传递并提供可视化工具验证各个模块标定精度。整体标定流程如下,标定顺序为下图前标0-->1-->2-->3,相同编号标定顺序没有强制要求…

【业务功能篇83】微服务SpringCloud-ElasticSearch-Kibanan-docke安装-应用层实战

五、ElasticSearch应用 1.ES 的Java API两种方式 Elasticsearch 的API 分为 REST Client API&#xff08;http请求形式&#xff09;以及 transportClient API两种。相比来说transportClient API效率更高&#xff0c;transportClient 是通过Elasticsearch内部RPC的形式进行请求…

共享内存 windows和linux

服务端&#xff0c;即写入端 #include <iostream> #include <string.h> #define BUF_SIZE 1024 #ifdef _WIN32 #include <windows.h> #define SHARENAME L"shareMemory" HANDLE g_MapFIle; LPVOID g_baseBuffer; #else #define SHARENAME "sh…

使用通信顺序进程(CSP)模型的 Go 语言通道

在并发编程中&#xff0c;许多编程语言采用共享内存/状态模型。然而&#xff0c;Go 通过实现 通信顺序进程&#xff08;CSP&#xff09;模型来区别于众多。在CSP中&#xff0c;程序由不共享状态的并行进程组成&#xff1b;相反&#xff0c;它们通过通道进行通信和同步操作。因此…

wireshark抓包

Wireshark是非常流行的网络封包分析软件&#xff0c;可以截取各种网络数据包&#xff0c;并显示数据包详细信息。常用于开发测试过程各种问题定位。本文主要内容包括&#xff1a; 1、Wireshark软件下载和安装以及Wireshark主界面介绍。 2、WireShark简单抓包示例。通过该例子学…

最新绕过目标域名CDN进行信息收集技术

绕过目标域名CDN进行信息收集 1&#xff0e;CDN简介及工作流程 CDN&#xff08;Content Delivery Network&#xff0c;内容分发网络&#xff09;的目的是通过在现有的网络架构中增加一层新的Cache&#xff08;缓存&#xff09;层&#xff0c;将网站的内容发布到最接近用户的网…

ubuntu下自启动设置,为了开机自启动launch文件

1、书写sh脚本文件 每隔5秒钟启动一个launch文件&#xff0c;也可以直接在一个launch文件中启动多个&#xff0c;这里为了确保启动顺利&#xff0c;添加了一些延时 #! /bin/bash ### BEGIN INIT sleep 5 gnome-terminal -- bash -c "source /opt/ros/melodic/setup.bash…

uniapp - 全平台兼容实现上传图片带进度条功能,用户上传图像到服务器时显示上传进度条效果功能(一键复制源码,开箱即用)

效果图 uniapp小程序/h5网页/app实现上传图片并监听上传进度,显示进度条完整功能示例代码 一键复制,改下样式即可。 全部代码 记得改下样式,或直接

MyBatis的基本入门及Idea搭建MyBatis坏境且如何一步骤实现增删改查(CRUD)---详细介绍

一&#xff0c;MaBatis是什么&#xff1f; 首先是一个开源的Java持久化框架&#xff0c;它可以帮助开发人员简化数据库访问的过程并提供了一种将SQL语句与Java代码进行解耦的方式&#xff0c;使得开发人员可以更加灵活地进行数据库操作。 1.1 Mabatis 受欢迎的点 MyBatis不仅是…