公众号关注 “GitHubDaily”
设为 “星标”,每天带你逛 GitHub!
在上学那会,我便一直有个想法,要是能有一个英汉自动翻译机,能把我说的话,直接翻译成英语就好了。这样,我就不需要在凌晨早起背单词语法,在操场上训练口语。
当我在「流浪地球」电影中,看到刘培强用汉语与其它国家宇航员进行跨国界无缝交流时,我觉得,这才是未来该有的样子。
所有人只需要掌握一种语言,便可通过 AI 智能转译功能,快速成为任一国家的 Native Speaker。
前阵子 ChatGPT 横空出世,开始尝试通过理解人类语言以及情感,对语言进行翻译。
这在语言翻译领域,无疑是一次大胆的尝试。
也就是说,现在的 AI,不仅能翻译语言,还能根据你所需要表达的情感对语言进行润色。
现在,就差一个声音克隆以及语言表达工具了。
此前在 GitHub 上有人开源过一款语音克隆工具:Real Time Voice Cloning,它能在 5 秒内完成你的声音克隆,并让 AI 基于文本生成语音。
🔗 https://github.com/CorentinJ/Real-Time-Voice-Cloning
这个项目已经推出便受到了不少开发者的关注,克隆出来的声音相似度非常高。
唯一美中不足的,就是 AI 克隆出来的声音,说话依旧是冷冰冰的,没有情感。因此,即便声音听起来很像原声,但还是有股浓浓的机械感。
直到今早起床时,我偶然在 Hacker News 看到了一个让我眼前一亮的项目:play.ht。
它可以从 20 秒的音频中快速生成克隆语音,并自动转换为英语。
也就是说,即便你不会说英语,也可以通过语音克隆的方式,立刻说出一口流利的英语。
在使用的过程中,我试了下自己的声音,确实有点震撼。
🔗 playground.play.ht
这里的技术采用了一个名为 Parrot 的模型,它能从几秒的音频克隆出声音,并基于文本,重新生成一段富有情感的语音。
目前该模型只支持英语,不过技术团队已经在开始尝试支持更多语言。
克隆声音的数据样本主要分两种:高保真(20 分钟)和零样本(20 秒),给的音频样本时间越长,其精度就更佳。
下面提供的两段音频示例,是我基于雷总某个采访的声音样本进行克隆的。
这里用的是一段比较粗糙的文本,大概 40 秒左右,就已经能拥有这样的效果:
如果你感兴趣的话,也可以用自己的声音试下。
看着自己的声音被一步步转化成英语,那种感觉,你只有真正体验过,才能知道有多震撼。
未来,该工具将被应用到各类数字内容创作(如游戏、媒体、在线教育)等平台。
你可以想象,未来的 3A 游戏大作,不再需要人工来配台词,而是通过采集声优的各种情绪配音,自动生成所有国家和地区的语言,甚至是方言。
电台主持人、歌手,以及那些可标准化输出声音的职业,都有可能被这个工具取代。
随着 AI 的进步与发展,学习英语的投入产出比正在逐渐降低。
在将来的某一天,或许我们只需要佩戴个入耳式耳机,便能与其他语种的人无缝交流。
一键部署 ChatGPT 网页应用
前两天有好几个朋友都说想自己搭建个 ChatGPT 机器人玩一玩。
这里推荐一个我今天在 GitHub 上看到的开源项目:ChatGPT Next Web,可一键免费部署你的私人 ChatGPT 网页应用。
UI 做的还蛮好看的:
🔗 https://github.com/Yidadaa/ChatGPT-Next-Web
主要功能如下:
在 1 分钟内使用 Vercel 免费一键部署;
精心设计的 UI,响应式设计,支持深色模式;
极快的首屏加载速度(~85kb);
自动压缩上下文聊天记录,在节省 Token 的同时支持超长对话;
一键导出聊天记录,完整的 Markdown 支持;
可绑定自己的域名。
感兴趣的同学可以试下。
最后再插个题外话,近期有不少同学反映说收不到公众号文章的推送,有时要等好几天才能刷到。
这个是因为公众号现在改版了,打乱了推文信息流。如果你不对公众号加星标的话,确实没办法第一时间接收到推送。
为了能够第一时间接收到文章推送,建议大家到 GitHubDaily 公众号主页加个星标。
文中所提到的所有开源项目与工具,已收录至 GitHubDaily 的开源项目列表中。
该列表包含了 GitHub 上诸多高质量、有趣实用的开源技术教程、开发者工具、编程网站等内容。
从 2015 年至今,累积分享 3500+ 个开源项目,Star 增长 21000+,有需要的,可访问下方 GitHub 地址或点击文末「阅读原文」自取:
GitHub:https://github.com/GitHubDaily/GitHubDaily