OpenAI-ChatGPT最新官方接口《语音智能转文本》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(六)(附源码)

Speech to text 语音智能转文本

  • Introduction 导言
  • Quickstart 快速开始
    • Transcriptions 转录
      • python代码
      • cURL代码
    • Translations 翻译
      • python代码
      • cURL代码
  • Supported languages 支持的语言
  • Longer inputs 长文件输入
  • Prompting 提示
  • 其它资料下载

在这里插入图片描述

Speech to text 语音转文本
Learn how to turn audio into text
了解如何将音频转换为文本

ChatGPT 是集人工智能和自然语言处理技术于一身的大型语言模型。它能够通过文字、语音或者图像等多种方式与用户进行交互。其中,通过语音转文字功能,ChatGPT 能够将用户说出的话语,立即转化为文字,并对其进行分析处理,再以文字形式作答。这样的交互方式大大提升了 ChatGPT 与用户之间的交流效率。

Introduction 导言

The speech to text API provides two endpoints, transcriptions and translations, based on our state-of-the-art open source large-v2 Whisper model. They can be used to:
语音到文本API提供了两个端点, transcriptionstranslations ,基于我们最先进的开源大型v2 Whisper模型。它们可用于:

  • Transcribe audio into whatever language the audio is in.
    将音频转录为音频所用的任何语言。
  • Translate and transcribe the audio into english.
    翻译和转录音频成英语。

File uploads are currently limited to 25 MB and the following input file types are supported: mp3, mp4, mpeg, mpga, m4a, wav, and webm.
文件上传当前限制为25 MB,支持以下输入文件类型: mp3, mp4, mpeg, mpga, m4a, wav, and webm

Quickstart 快速开始

Transcriptions 转录

The transcriptions API takes as input the audio file you want to transcribe and the desired output file format for the transcription of the audio. We currently support multiple input and output file formats.
转录API将您要转录的音频文件和音频转录所需的输出文件格式作为输入。我们目前支持多种输入和输出文件格式。

python代码

# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai
audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)

cURL代码

curl --request POST \--url https://api.openai.com/v1/audio/transcriptions \--header 'Authorization: Bearer TOKEN' \--header 'Content-Type: multipart/form-data' \--form file=@/path/to/file/openai.mp3 \--form model=whisper-1

By default, the response type will be json with the raw text included.
默认情况下,响应类型将是包含原始文本的json。

{
“text”: "Imagine the wildest idea that you’ve ever had, and you’re curious about how it might scale to something that’s a 100, a 1,000 times bigger.

}
{ “text”:“想象一下你有过的最疯狂的想法,你很好奇它如何扩展到100倍,1,000倍大的东西。… }

To set additional parameters in a request, you can add more --form lines with the relevant options. For example, if you want to set the output format as text, you would add the following line:
要在请求中设置其他参数,您可以添加更多带有相关选项的 --form 行。例如,如果要将输出格式设置为文本,则应添加以下行:

...
--form file=@openai.mp3 \
--form model=whisper-1 \
--form response_format=text

Translations 翻译

The translations API takes as input the audio file in any of the supported languages and transcribes, if necessary, the audio into english. This differs from our /Transcriptions endpoint since the output is not in the original input language and is instead translated to english text.
翻译API接受任何支持语言的音频文件作为输入,并在必要时将音频转录为英语。这与我们的/Transcriptions端点不同,因为输出不是原始输入语言,而是翻译为英语文本。

python代码

# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai
audio_file= open("/path/to/file/german.mp3", "rb")
transcript = openai.Audio.translate("whisper-1", audio_file)

cURL代码

curl --request POST   --url https://api.openai.com/v1/audio/translations   --header 'Authorization: Bearer TOKEN'   --header 'Content-Type: multipart/form-data'   --form file=@/path/to/file/german.mp3   --form model=whisper-1

In this case, the inputted audio was german and the outputted text looks like:
在这种情况下,输入的音频是德语,输出的文本看起来像:

Hello, my name is Wolfgang and I come from Germany. Where are you heading today?
大家好,我叫沃尔夫冈,来自德国。你今天要去哪里?

We only support translation into english at this time.
我们只支持翻译成英语。

Supported languages 支持的语言

We currently support the following languages through both the transcriptions and translations endpoint:
我们目前通过 transcriptionstranslations 端点支持以下语言:

Afrikaans, Arabic, Armenian, Azerbaijani, Belarusian, Bosnian, Bulgarian, Catalan, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, Galician, German, Greek, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Italian, Japanese, Kannada, Kazakh, Korean, Latvian, Lithuanian, Macedonian, Malay, Marathi, Maori, Nepali, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tagalog, Tamil, Thai, Turkish, Ukrainian, Urdu, Vietnamese, and Welsh.
南非荷兰语,阿拉伯语,亚美尼亚语,阿塞拜疆语,白俄罗斯语,波斯尼亚语,保加利亚语,加泰罗尼亚语,中文,克罗地亚语,捷克语,丹麦语,荷兰语,英语,爱沙尼亚语,芬兰语,法语,加利西亚语,德语,希腊语,希伯来语,印地语,匈牙利语,冰岛语,印度尼西亚语,意大利语,日语,卡纳达语,哈萨克语,韩语,拉脱维亚语,立陶宛语,马其顿语,马来语,马拉地语,毛利语,尼泊尔语,挪威语,波斯语,波兰语,葡萄牙语,罗马尼亚语,俄语,塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语。

While the underlying model was trained on 98 languages, we only list the languages that exceeded <50% word error rate (WER) which is an industry standard benchmark for speech to text model accuracy. The model will return results for languages not listed above but the quality will be low.
虽然底层模型在98种语言上进行了训练,但我们只列出了超过50%单词错误率(WER)的语言,这是语音到文本模型准确性的行业标准基准。该模型将返回上面未列出的语言的结果,但质量将较低。

Longer inputs 长文件输入

By default, the Whisper API only supports files that are less than 25 MB. If you have an audio file that is longer than that, you will need to break it up into chunks of 25 MB’s or less or used a compressed audio format. To get the best performance, we suggest that you avoid breaking the audio up mid-sentence as this may cause some context to be lost.
默认情况下,Whisper API仅支持小于25 MB的文件。如果你有一个音频文件比这更长,你需要把它分成25 MB或更少的块,或者使用压缩的音频格式。为了获得最佳性能,我们建议您避免在句子中间打断音频,因为这可能会导致一些上下文丢失。

One way to handle this is to use the PyDub open source Python package to split the audio:
处理这个问题的一种方法是使用PyDub开源Python包来分割音频:

from pydub import AudioSegmentsong = AudioSegment.from_mp3("good_morning.mp3")# PyDub handles time in milliseconds
ten_minutes = 10 * 60 * 1000first_10_minutes = song[:ten_minutes]first_10_minutes.export("good_morning_10.mp3", format="mp3")

OpenAI makes no guarantees about the usability or security of 3rd party software like PyDub.
OpenAI不保证PyDub等第三方软件的可用性或安全性。

Prompting 提示

You can use a prompt to improve the quality of the transcripts generated by the Whisper API. The model will try to match the style of the prompt, so it will be more likely to use capitalization and punctuation if the prompt does too. However, the current prompting system is much more limited than our other language models and only provides limited control over the generated audio. Here are some examples of how prompting can help in different scenarios:
您可以使用提示来提高Whisper API生成的转录本的质量。该模型将尝试匹配提示符的样式,因此如果提示符也使用大写和标点符号,则更有可能使用大写和标点符号。然而,当前的提示系统比我们的其他语言模型要有限得多,并且仅对生成的音频提供有限的控制。以下是提示如何在不同情况下提供帮助的一些示例:

  1. Prompts can be very helpful for correcting specific words or acronyms that the model often misrecognizes in the audio. For example, the following prompt improves the transcription of the words DALL·E and GPT-3, which were previously written as “GDP 3” and “DALI”.
    提示对于纠正模型经常在音频中误识别的特定单词或首字母缩写词非常有帮助。例如,下面的提示改进了单词DALL·E和GPT-3的转录,这些单词以前被写成“GDP 3”和“DALI”。

The transcript is about OpenAI which makes technology like DALL·E, GPT-3, and ChatGPT with the hope of one day building an AGI system that benefits all of humanity
OpenAI开发了DALL·E、GPT-3和ChatGPT等技术,希望有一天能建立一个造福全人类的AGI系统。

  1. To preserve the context of a file that was split into segments, you can prompt the model with the transcript of the preceding segment. This will make the transcript more accurate, as the model will use the relevant information from the previous audio. The model will only consider the final 224 tokens of the prompt and ignore anything earlier.
    若要保留已拆分为段的文件的上下文,可以使用前一段的副本提示模型。这将使转录更准确,因为模型将使用来自先前音频的相关信息。该模型将只考虑提示符的最后224个标记,而忽略之前的任何标记。

  2. Sometimes the model might skip punctuation in the transcript. You can avoid this by using a simple prompt that includes punctuation:
    有时候模型可能会跳过文本中的标点符号。您可以使用包含标点符号的简单提示来避免这种情况:

Hello, welcome to my lecture. 大家好,欢迎来听我的讲座。

  1. The model may also leave out common filler words in the audio. If you want to keep the filler words in your transcript, you can use a prompt that contains them:
    该模型还可以省略音频中的常见填充词。如果要在记录中保留填充词,可以使用包含它们的提示符:

Umm, let me think like, hmm… Okay, here’s what I’m, like, thinking."
嗯,让我想想,嗯……好吧,我是这么想的。”

  1. Some languages can be written in different ways, such as simplified or traditional Chinese. The model might not always use the writing style that you want for your transcript by default. You can improve this by using a prompt in your preferred writing style.
    有些语言可以用不同的方式书写,如简体中文或繁体中文。默认情况下,模型可能并不总是使用您希望用于抄录的书写样式。你可以通过使用你喜欢的写作风格来改善这一点。

其它资料下载

如果大家想继续了解人工智能相关学习路线和知识体系,欢迎大家翻阅我的另外一篇博客《重磅 | 完备的人工智能AI 学习——基础知识学习路线,所有资料免关注免套路直接网盘下载》
这篇博客参考了Github知名开源平台,AI技术平台以及相关领域专家:Datawhale,ApacheCN,AI有道和黄海广博士等约有近100G相关资料,希望能帮助到所有小伙伴们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6661.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学术界的期刊编辑如何识别通过 ChatGPT 编写出来的论文?

最近 ChatGPT 风靡全球&#xff0c;国外也有不少大学生使用 ChatGPT 来撰写论文&#xff0c;这给学术出版界的期刊编辑识别以 ChatGPT 为代表的人工智能写作出来的文章带来了很大的挑战。 咱们国内有一句古话&#xff1a;道高一尺&#xff0c;魔高一丈。 学术出版界的期刊编辑…

ChatGPT原理解释

写了一本介绍ChatGPT原理的课程 结构如下 01、介绍ChatGPT及其原理 1.1 ChatGPT的概述 1.2 什么是自然语言处理&#xff08;NLP&#xff09; 1.3 深度学习与NLP的关系 1.4 GPT模型的介绍 02、GPT原理探讨 2.1 GPT模型的输入与输出 2.2 GPT模型的结构 2.3 GPT模型的预训练方法…

什么?ChatGPT这么火,你没搞过实战?只用来口嗨侃大山了?

导语&#xff1a;AI技术在各个领域的应用越来越广泛&#xff0c;ChatGPT作为一款强大的自然语言处理模型&#xff0c;能帮助企业和个人提高工作效率和客户满意度。本文将详细介绍如何将ChatGPT集成到微信公众号上&#xff0c;帮助您实现自动化的客户服务和信息发布&#xff0c;…

ChatGPT这么火,我们能怎么办?

今天打开百度&#xff0c;看到这样一条热搜高居榜二&#xff1a;B站UP主发起停更潮&#xff0c;然后点进去了解一看&#xff0c;大体是因为最近AI创作太火&#xff0c;对高质量原创形成了巨大冲击&#xff01; 记得之前看过一位UP主的分享&#xff0c;说B站UP主的年收入大体约等…

GPT-3.5(ChatGPT)训练和部署成本估算

因为ChatGPT&#xff08;GPT-3.5&#xff09;未正式公布参数量&#xff0c;暂时按照1750亿参数计算。 后续其他模型公布参数量后&#xff0c;可按参数量线性比例估算相关数值。 以下数值仅为理论估算&#xff0c;可能和实际数值相差很大&#xff0c;敬请谅解。 一、GPT-3.5磁…

使用ChatGPT写一篇文章

一、MyBatis中一对一关联查询概述 MyBatis是一个Java持久层框架&#xff0c;它提供了简单而强大的数据访问方式。在实际的开发中&#xff0c;我们经常需要查询两个表之间的关联数据&#xff0c;这就需要用到MyBatis的一对一关联查询。本文将介绍如何在MyBatis中实现一对一关联…

使用tailwindcss实现文章的快速排版

Tailwind CSS 是一个功能类优先的 CSS 框架&#xff0c;它集成了诸如 flex, pt-4, text-center 和 rotate-90 这样的类&#xff0c;它们能直接在脚本标记语言中组合起来&#xff0c;构建出任何设计。tailwindcss生产环境非常小&#xff0c;并且一切皆是响应式的。 首先来看一个…

微信公众号文章如何排版?

记得小编在刚开始接触制作公众号文章的时候&#xff0c;最头疼的就是文章的排版了。因为刚开始不懂也不知道该怎么设置字号&#xff0c;字间距&#xff0c;段落格式。也是狠心好好研究了很久才慢慢摸索出来一些经验&#xff0c;这边给大家简单的分享一下文章排班的基本设置吧 首…

ChatGPT专业应用:基于原有文章改写新文章

正文共 611 字&#xff0c;阅读大约需要 2 分钟 市场运营/SEO投放必备技巧&#xff0c;您将在2分钟后获得以下超能力&#xff1a; 自动改写SEO文章 Beezy评级 &#xff1a;B级 *经过简单的寻找&#xff0c; 大部分人能立刻掌握。主要节省时间。 推荐人 | Alice 编辑者 | Lind…

【ChatGPT】写一篇文章《ChatGPT 已成为下一代的新操作系统》,不少于3000字,使用markdown格式。

目录 ChatGPT 已成为下一代的新操作系统 一、ChatGPT 的发展背景 1.1 人工智能的崛起

【Unity】AI实战应用——Unity接入GPT和对游戏开发实际应用的展望

GPT for unity插件地址: GitHub - sunsvip/ChatGPTForUnity: ChatGPT for unity 用法: 打开Unity PackageManager界面.Add package from git URL粘贴插件地址添加 https://github.com/sunsvip/ChatGPTForUnity.git ————————————————————————————…

chatgpt赋能python:Python的优点和用途

Python的优点和用途 Python是一种被广泛应用的动态高级语言&#xff0c;被称为最易学习、最容易阅读的编程语言之一。受到世界范围内开发者的普遍青睐&#xff0c;目前正在不断流行。Python的优点可归纳如下&#xff1a; 1. 可读性强 Python语法简洁&#xff0c;代码可读性高…

chatgpt赋能python:Python常用单词及翻译

Python 常用单词及翻译 Python 是一个使用广泛的高级编程语言&#xff0c;由于其简单易用且功能强大&#xff0c;因此受到了许多开发者的欢迎。在学习和使用 Python 时&#xff0c;我们不可避免地要接触各种技术术语和单词&#xff0c;下面是一些常用的 Python 单词及其翻译。…

python调用chat接口

您可以通过发送HTTP请求来调用ChartGPT的API。以下是一些基本步骤&#xff1a; 1、首先&#xff0c;您需要从ChartGPT网站上获取API密钥。请登录ChartGPT网站&#xff0c;在“Dashboard”下找到“API Key”选项&#xff0c;生成一个新的API密钥。 2、安装Python的requests库。…

chatgpt赋能python:Python连接接口的一些技巧与经验

Python连接接口的一些技巧与经验 Python作为一种强大&#xff0c;灵活&#xff0c;易用的编程语言&#xff0c;被广泛应用于许多领域&#xff0c;包括数据分析&#xff0c;机器学习&#xff0c;数据可视化等等。通过Python连接接口&#xff0c;可以轻松实现不同软件之间的数据…

chatgpt赋能Python-pycharm怎么与python关联

Pycharm怎么与Python关联&#xff1f; 介绍 对于Python开发人员来说&#xff0c;Pycharm是一个非常强大的IDE。它提供了各种工具和功能&#xff0c;用于快速开发和调试Python代码。但是&#xff0c;在开始开发之前&#xff0c;必须将Pycharm与Python关联起来。否则&#xff0…

Python快速接入Chat-GPT(OpenAI)

1、安装openai依赖 pip install openai 2、编写聊天代码 # coding: utf-8 # author: liangshiqiang # date : 2023年04月26日import openaiopenai.proxy http://127.0.0.1:10809 # 翻墙代理 openai.api_key xxxxxxxxxxxxx # openai的keymessages []def add_message(co…

如何使用ChatGPT来自动化Python任务

1.概述 最近&#xff0c;比较火热的ChatGPT很受欢迎。今天&#xff0c;笔者为大家来介绍一下ChatGPT能做哪些事情。 2.内容 ChatGPT是一款由OpenAI开发的专门从事对话的AI聊天机器人。它的目标是让AI系统更加自然的与之交互&#xff0c;但它也可以在我们编写代码的时候提供一…

chatgpt赋能python:Python关联规则分析

Python 关联规则分析 什么是关联规则分析&#xff1f; 关联规则分析是一个数据挖掘技术&#xff0c;通过发现事物之间的相关性来洞察数据背后的规律。其中最常见的就是通过挖掘事物之间的频繁项集和关联规则&#xff0c;来发现商品之间的搭配和规律&#xff0c;帮助商家制定更…

python调用chatGPT的API

前言&#xff1a; 最近一直在研究GPT&#xff0c;LLM&#xff0c;把其他东西都荒废了&#xff0c;随便更新一个&#xff0c;凑个字数。 1.python标准接口使用 python接入chatGPT&#xff0c;用flask封装成API接口&#xff0c;这样你就可以自己把他接入到微信&#xff0c;小程…