有点恐怖,这个工具能让你在 20 秒内,克隆你的声音,并转成英语!

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!

fc7d1b599a1227e7b5e11e42435b82ea.jpeg

在上学那会,我便一直有个想法,要是能有一个英汉自动翻译机,能把我说的话,直接翻译成英语就好了。这样,我就不需要在凌晨早起背单词语法,在操场上训练口语。

当我在「流浪地球」电影中,看到刘培强用汉语与其它国家宇航员进行跨国界无缝交流时,我觉得,这才是未来该有的样子。

所有人只需要掌握一种语言,便可通过 AI 智能转译功能,快速成为任一国家的 Native Speaker。

前阵子 ChatGPT 横空出世,开始尝试通过理解人类语言以及情感,对语言进行翻译。

这在语言翻译领域,无疑是一次大胆的尝试。

也就是说,现在的 AI,不仅能翻译语言,还能根据你所需要表达的情感对语言进行润色。

现在,就差一个声音克隆以及语言表达工具了。

此前在 GitHub 上有人开源过一款语音克隆工具:Real Time Voice Cloning,它能在 5 秒内完成你的声音克隆,并让 AI 基于文本生成语音。

38926591d14f51519126fa66e8b0cb15.png

🔗 https://github.com/CorentinJ/Real-Time-Voice-Cloning

这个项目已经推出便受到了不少开发者的关注,克隆出来的声音相似度非常高。

唯一美中不足的,就是 AI 克隆出来的声音,说话依旧是冷冰冰的,没有情感。因此,即便声音听起来很像原声,但还是有股浓浓的机械感。

直到今早起床时,我偶然在 Hacker News 看到了一个让我眼前一亮的项目:play.ht

它可以从 20 秒的音频中快速生成克隆语音,并自动转换为英语。

89fd0ab02d9878783c99da363f06535a.png

也就是说,即便你不会说英语,也可以通过语音克隆的方式,立刻说出一口流利的英语。

在使用的过程中,我试了下自己的声音,确实有点震撼。

🔗 playground.play.ht

这里的技术采用了一个名为 Parrot 的模型,它能从几秒的音频克隆出声音,并基于文本,重新生成一段富有情感的语音。

目前该模型只支持英语,不过技术团队已经在开始尝试支持更多语言。

克隆声音的数据样本主要分两种:高保真(20 分钟)和零样本(20 秒),给的音频样本时间越长,其精度就更佳。

下面提供的两段音频示例,是我基于雷总某个采访的声音样本进行克隆的。

这里用的是一段比较粗糙的文本,大概 40 秒左右,就已经能拥有这样的效果:

如果你感兴趣的话,也可以用自己的声音试下。

看着自己的声音被一步步转化成英语,那种感觉,你只有真正体验过,才能知道有多震撼。

未来,该工具将被应用到各类数字内容创作(如游戏、媒体、在线教育)等平台。

你可以想象,未来的 3A 游戏大作,不再需要人工来配台词,而是通过采集声优的各种情绪配音,自动生成所有国家和地区的语言,甚至是方言。

电台主持人、歌手,以及那些可标准化输出声音的职业,都有可能被这个工具取代。

随着 AI 的进步与发展,学习英语的投入产出比正在逐渐降低。

在将来的某一天,或许我们只需要佩戴个入耳式耳机,便能与其他语种的人无缝交流。

一键部署 ChatGPT 网页应用

前两天有好几个朋友都说想自己搭建个 ChatGPT 机器人玩一玩。

这里推荐一个我今天在 GitHub 上看到的开源项目:ChatGPT Next Web,可一键免费部署你的私人 ChatGPT 网页应用。

UI 做的还蛮好看的:

6e53db81b282978d8e036d4b8b713f77.png

🔗 https://github.com/Yidadaa/ChatGPT-Next-Web

主要功能如下:

  • 在 1 分钟内使用 Vercel 免费一键部署;

  • 精心设计的 UI,响应式设计,支持深色模式;

  • 极快的首屏加载速度(~85kb);

  • 自动压缩上下文聊天记录,在节省 Token 的同时支持超长对话;

  • 一键导出聊天记录,完整的 Markdown 支持;

  • 可绑定自己的域名。

感兴趣的同学可以试下。

最后再插个题外话,近期有不少同学反映说收不到公众号文章的推送,有时要等好几天才能刷到。

这个是因为公众号现在改版了,打乱了推文信息流。如果你不对公众号加星标的话,确实没办法第一时间接收到推送。

为了能够第一时间接收到文章推送,建议大家到 GitHubDaily 公众号主页加个星标。

edd0728c12bb6ff51e078c5bef36528d.png

文中所提到的所有开源项目与工具,已收录至 GitHubDaily 的开源项目列表中。

该列表包含了 GitHub 上诸多高质量、有趣实用的开源技术教程、开发者工具、编程网站等内容。

从 2015 年至今,累积分享 3500+ 个开源项目,Star 增长 21000+,有需要的,可访问下方 GitHub 地址或点击文末「阅读原文」自取:

GitHub:https://github.com/GitHubDaily/GitHubDaily

a4454e49eea3e763fb0d556d0aaca485.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16084.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

出门问问×趁早|内测探索“序列猴子”大模型,联手打造“好习惯小助手”

提到虚拟语音助手,你可能会想到siri……她可以随时随地帮你查地图、定闹钟、找餐厅、打电话、播放歌曲…… 但你有没有想到有一天,语音助手可以进化成“外接大脑”般的存在,ta有丰富多彩的形象,千变万化的声音,ta可以…

大语言模型工程化服务系列之二--------MOSS微调数据清洗转换脚本

MOSS微调数据清洗转换脚本 目前市面上的大模型微调开源项目 数据格式都是三段式的,但是不适用于MOSS模型微调,今天给大家分享一个转换脚本 文章目录 MOSS微调数据清洗转换脚本一、原始的数据格式二、转换后的数据格式三、数据转换脚本总结 一、原始的数…

众人围剿,GPT-5招惹了谁

目录 千人呼吁暂停AI训练代表人物分析反对原因分析信息安全人身安全失业利益 总结 GPT-4 火爆全球,引发了人工智能大浪潮。过去的一个月,OpenAI、微软、谷歌加上百度不断释放王炸,所有人都相信,AI 的就是未来的生产力。俗话说&…

AI又进化了,声音克隆革命性突破

大家好,我是 Jack。 因 ChatGPT、Stable Diffusion 让 AI 在文本、图像生成领域火出了圈。 但 AI 在生成方面的能力,可不仅如此,音频领域也出现了很多优秀的项目。 我用我本人的音频数据,训练了一个 AI 模型,生成了…

手把手教你声音克隆(so-vits-svc)

前言 随着ChatGPT的爆火,AIGC(人工智能生成内容)再一次走到人们眼前。尤其是在文本、图像生成领域,通过GPT-4、Midjourney等应用生成各种令人惊叹定的文本和图片。 但 AI 在生成方面的能力,可远非如此如此。 我用长约…

Chatgpt插件爆了,彻底爆了

新插件又双叒叕来了!继两个月前ChatGPT爆出插件功能后,这场插件狂欢真就是越来越热闹。 比如让我们更方便地创建网站: 提取YouTube视频概要: 还有像将文本转换为HQ音频,从照片中提取信息,解析代码&#xf…

说说ChatGPT的插件系统

前一段时间,ChatGPT的两大新功能上了Beta测试,其中一个功能是“Browse with Bing”,另一个功能是“插件系统”。 怎么能使用这两大功能呢?需要订阅plus账号,并且在Setting页面中打开Beta Features的两项设置&#xff1…

思维随想录--ChatGPT商业预见

思维随想录–ChatGPT商业预见 仅代表个人的一些浅见想法,不具有任何权威指导性,欢迎各位同仁批评交流! 后疫情时代,国内市场一片衰颓,百废待兴,国外头部企业裁员浪潮也是接踵而至,甚至是一度逆市…

美版头条ChatGPT上岗写稿消息一出,股价暴涨119%,此前刚裁员12%

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的火,真给烧到媒体行业上了! 当地时间周四,“美版今日头条”BuzzFeed宣布和OpenAI合作,未来将使用ChatGPT帮助创作内容。 据福布斯介绍,BuzzFeed联合创始人兼CEO乔…

谷歌裁员细节曝光:开源主管被裁,61岁程序员在线求职,有人60天找不到工作就被遣返...

上一篇:最新IT类offer档次排名 “开源”谷歌,竟然连开源主管也给裁了。 随着更多裁员细节曝光,不少谷歌开源项目办公室OSPO和其他开源工作的高管已经被裁。 其中甚至还包括了开源运动“先锋”,18年前创立OSPO, Chris D…

GitHub 开源了多款字体「GitHub 热点速览 v.22.48」

作者:HelloGitHub-小鱼干 本期 News 快读有 GitHub 官方大动作一下子开源了两款字体,同样大动作的还有 OpenAI 发布的对话模型 ChatGPT,引燃了一波人机对话。 项目这块,也许会成为新的 Web 开发生产力工具的 leptos 和 Python UI …

裁员潮下的中年人

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) “K哥,我失业快半年了,现在无时无刻不觉得自己是一个‘无用无尊严’的中年loser,我快崩溃了,K哥能帮我推荐一份工作吗?…” 近期&#xff0c…

03定格动画制作

step 1 导入素材 step 2 新建序列 step 3 编排素材 调整节奏 批量更改照片持续时间: 框选所有素材-右击-设置持续时间-8帧 或者快捷键commandR 删除空隙: 方法1:右击空隙-波纹删除 方法2:左上角序列-封闭间隙 方法3:在全选后勾选波纹删除 删除…

如何提升商家转账到零钱的免密支付额度 总限额及笔数

商家转账提供商户同时向多个用户微信零钱转账的能力,商户可以使用商家转账,用于费用的报销、员工福利发放、合作伙伴贷款及服务款项支付等多种场景,提高转账效率。 产品特点 高效:支持页面及API接口转账方式进行批量转账&#x…

Go 中实现用户的每日限额(比如一天只能领三次福利)

如果你写一个 bug 管理系统,用了这个 PeriodLimit 你就可以限制每个测试人员每天只能给你提一个 bug。工作是不是就轻松很多了?:P 如今微服务架构大行其道本质原因是因为要降低系统的整体复杂度,将系统风险均摊到子系统从而最大化保证系统的稳…

免费丨AI内行盛会!2021北京智源大会带你与图灵奖和200+位大牛一起共话AI

数据在爆炸,AI在茁壮。 从2012到2018年,深度学习模型的计算能力增长了30万倍,早已打破摩尔定律。可以预见的是,未来必然属于超大数据和超大模型,而破纪录的中文预训练生成语言模型智源“悟道2.0”发布在即,…

《花雕学AI》13:早出对策,积极应对ChatGPT带来的一系列风险和挑战

ChatGPT是一款能和人类聊天的机器人,它可以学习和理解人类语言,也可以帮人们做一些工作,比如翻译、写文章、写代码等。ChatGPT很强大,让很多人感兴趣,也让很多人担心。 使用ChatGPT有一些风险,比如数据的质…

​麻瓜+AI混合工作流试验 5:原创一个方法论,以及AI对中年人的积极一面

这次试着让AI原创了一个方法论——三见需求评估法。 题图为人类和AI在星巴克开会讨论。 我先解释下这个方法论,然后从“中年职场人”视角说一些最近的感受,最后放出和AI讨论方法论的过程。 是否要做一个需求,要考虑的方面有如人生三见&#x…

AiDD AI+软件研发数字峰会开启编程新纪元

随着OpenAI 推出全新的对话式通用人工智能工具——ChatGPT火爆出圈后,人工智能再次受到了工业界、学术界的广泛关注,并被认为向通用人工智能迈出了坚实的一步,在众多行业、领域有着广泛的应用潜力,甚至会颠覆很多领域和行业&#…

阿里云推出基于大模型的工作学习AI助手“通义听悟”

文章目录 人工智能福利文章什么是通义听语通义听语有哪些优势通义听语能做什么体验地址写在最后 ✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区,欢迎你的加入:全栈弄潮儿的个人社区…