【AIGC前沿】MiniMax海螺AI视频——图片/文本生成高质量视频

目录

1.MiniMax海螺AI视频简介

2.使用教程


1.MiniMax海螺AI视频简介

海螺视频,作为 MiniMax 旗下海螺 AI 平台精心打造的 AI 视频生成工具,致力于助力用户产出高品质视频内容。该工具依托 abab-video-1 模型,具备强大的文生视频功能。用户仅需输入关键词或简短语句,海螺视频就能据此创作出情节丰富的完整视频。此外,海螺视频运用 DiT 架构,能够精准模拟现实世界的物理规律,尤其在生成复杂场景与高动作场景时,展现出卓越的性能。

2.使用教程

点击如下链接,进入蓝耘元生代智算云平台主页

https://cloud.lanyun.net/#/registerPage?promoterCode=11f606c51e

点击主页上方栏的“MaaS平台”

然后点击左侧栏的“视觉模型” 

可以看到可以免费体验一次I2V-01图片生成视频 

点击如下红框处将图片上传 

例如输入如下的图片

例如想让小狗动起来,可以在如下红框处输入相应的指令,然后点击立即生成 , 等待一段时间后,视频即可生成出来

视觉模型API

Video Generation(视频生成)

该API支持基于用户提供的prompt、首帧图片、主体参考图片,生成720p,25帧的动态视频。

该接口采用异步调用的方式完成视频生成:首先创建视频生成任务,对应接口会返回任务ID(task_id);接下来,在异步任务查询接口通过任务 ID (task_id),获取视频生成任务的状态,以及生成的视频的文件ID(file_id)。

API说明

完成视频生成及下载,使用到三个API:创建视频生成任务、查询视频生成任务状态文件管理。具体步骤如下:

1.使用创建视频生成任务接口,创建视频生成任务,并得到task_id;

2.使用查询视频生成任务状态接口,基于task_id查询视频生成任务状态;当状态为成功时,将获得对应的文件 ID(file_id);

3.使用文件管理接口(File API)基于步骤2查询接口返回的file_id进行视频生成结果的查看和下载。

创建视频生成任务API

POST https://maas-api.lanyun.net/v1/video_generation

请求示例(Python)

import requests
import jsonurl = "https://maas-api.lanyun.net/v1/video_generation"payload = json.dumps({"model": "I2V-01-Director","prompt": "测试12312312313","promptOptimizer": "true","firstFrameImage": "data:image/jpeg;base64,{image_base64_data}"})
headers = {'Authorization': 'Bearer sk-******************','Content-Type': 'application/json'
}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

请求示例(Crul)

curl --location --request POST 'https://maas-api.lanyun.net/v1/video_generation' \
--header 'Authorization: Bearer sk-*****************' \
--header 'Content-Type: application/json' \
--data-raw '{"model": "I2V-01","prompt": "起风了","promptOptimizer": true,"firstFrameImage": ""
}'

返回示例

{"task_id": "174741320903036928","base_resp": {"status_code": 0,"status_msg": "success"}
}
请求体(Request)参数
参数名称类型必填项描述
Authorizationstring必填给定的API密钥
Content-Typeapplication/json必填Content-type
modelstring必填调用的算法模型ID。可选项:T2V-01-Director、I2V-01-Director、S2V-01、I2V-01-live、I2V-01、T2V-01
promptstring非必填生成视频的描述。(注:最大支持2000字符)。
promptOptimizerboolean非必填默认取值为True,模型会自动优化传入的prompt,以提升生成质量。如果需要更精确的控制,可以将此参数设置为False,模型将更加严格地遵循指令。此时建议提供更精细的prompt,以获得最佳效果

firstFrameImage

string非必填

本参数当model选择为I2V-01I2V-01-DirectorI2V-01-live时,为必填参数。模型将以此参数中传入的图片为首帧画面来生成视频。支持传入图片的data:image/jpeg;base64,{data}格式的 Base64 编码字符串,或可通过公网访问的 URL。传入此参数时支持将prompt设置为空字符串或不传入prompt,模型将自主决定画面如何演变。

传入图片需要满足以下条件:

- 格式为JPG/JPEG/PNG;

- 长宽比大于2:5、小于5:2;

- 短边像素大于300px;

- 体积不大于20MB。

subjectReferencearray非必填本参数仅当model选择为S2V-01时可用。模型将依据此参数中上传的主体来生成视频。目前仅支持单主体参考(数组长度为 1)。
返回(Response)参数
task_idstring视频生成异步任务的任务id,生成结果需要通过使用此id在异步任务查询接口中获取。
base_resp

状态码及其详情。

base_resp.status_code

状态码及其分别含义如下:

0:请求成功;

1002:触发限流,请稍后再试;

1004:账号鉴权失败,请检查 API-Key 是否填写正确;

1008:账号余额不足;

1026:视频描述涉及敏感内容,请调整;

2013:传入参数异常,请检查入参是否按要求填写;

2049:无效的api key,请检查api key。

base_resp.status_msg

具体错误详情

其他说明: 当参数model选择为T2V-01-DirectorI2V-01-Director时,对prompt中的运镜控制,有更准确的响应。

  1. 支持插入运镜指令,实现运镜控制:运镜指令需以[ ]格式插入prompt中镜头应用处,标准运镜指令格式为[C1,C2,C3],其中C表示不同类型运镜,共支持15种枚举运镜方式,具体可参考下方详情。为保证运镜效果,建议组合运镜指令不超过3个。 1、支持15种运镜方式(枚举值) (1) 左右移:[左移]、[右移] (2)左右摇:[左摇]、[右摇] (3)推拉:[推进]、[拉远] (4)升降:[上升]、[下降] (5)上下摇:[上摇]、[下摇] (6)变焦:[变焦推近]、[变焦拉远] (7)晃动:[晃动] (8)跟随:[跟随] (9)固定:[固定] 2、支持单一及组合运镜 (1)单一运镜:例如[左摇],表示插入单一镜头; (2)多运镜同时生效:同一组内的镜头表示同时生效,如[左摇,右移],表示插入两个组合镜头,且同时生效; (3)多运镜先后生效:插入在前的镜头指令,先生效。如在prompt描述“xxx[左摇],xxx[右移] ” 表示:视频生成时,先运行左摇镜头,后运行右移镜头;

  2. 支持通过自然语言描述,实现运镜控制;使用指令内运镜名称,会提升运镜响应准确性。

  3. 运镜指令与自然语言描述可同时生效。

    查询视频生成任务状态API

    GET https://maas-api.lanyun.net/v1/query/video_generation?taskId={task_id}

请求示例(Python)

import requests
import jsonapi_key="sk-*************"
task_id="174847042751959040"url = f"https://maas-api.lanyun.net/v1/query/video_generation?taskId={task_id}"payload = {}
headers = {'authorization': f'Bearer {api_key}'
}response = requests.request("GET", url, headers=headers, data=payload)print(response.text)

 请求示例(Crul)

curl --location --request GET 'https://maas-api.lanyun.net/v1/query/video_generation?taskId=174741320903036928' \
--header 'Authorization: Bearer sk-**************'

返回示例

{"taskId": "174741320903036928","status": "Success","videoWidth": null,"videoHeight": null,"videoDownLoadUrl": "https://oss.lanyun.net/private//cloud-maas/11564/16/2025-03-11/32206a67-5265-4db9-a0c8-081d38653943.mp4?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=G54Tgw7wJRAKeBOej7Rz%2F20250311%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250311T030018Z&X-Amz-Expires=86400&X-Amz-SignedHeaders=host&X-Amz-Signature=e3a77757c844412a6dfc24f1770b6a201041027eda8691f6493b28011927b539"
}
请求体(Request)参数
参数名称类型必填项描述
Authorizationstring必填给定的API密钥
taskIdstring必填需要查询的任务ID。仅能查绚当前账号创建的任务。
返回(Response)参数
taskIdstring--需要查询的任务ID。仅能查绚当前账号创建的任务。

status

string

任务状态,包括以下状态:

Preparing-准备中

Queueing-队列中

Processing-生成中

Success-成功

Fail-失败

videoWidth--任务成功后,该字段将返回生成视频的横边像素数。
videoHeight--任务成功后,该字段将返回生成视频的竖边像素数。
videoDownLoadUrl--任务成功后,该字段将返回生成视频的临时下载地址。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37054.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kubeasz工具快速部署K8Sv1.27版本集群(二进制方式)

文章目录 一、基本信息二、服务器初始化操作三、使用Kubeasz部署K8S集群四、验证集群 一、基本信息 1、部署需要满足前提条件: 注意1:确保各节点时区设置一致、时间同步;注意2:确保在干净的系统上开始安装;注意3&…

在VMware上部署【Ubuntu】

镜像下载 国内各镜像站点均可下载Ubuntu镜像,下面例举清华网站 清华镜像站点:清华大学开源软件镜像站 | Tsinghua Open Source Mirror 具体下载步骤如下: 创建虚拟机 准备:在其他空间大的盘中创建存储虚拟机的目录&#xff0c…

2025年Postman的五大替代工具

虽然Postman是一个广泛使用的API测试工具,但许多用户在使用过程中会遇到各种限制和不便。因此,可能需要探索替代解决方案。本文介绍了10款强大的替代工具,它们能够有效替代Postman,成为你API测试工具箱的一部分。 什么是Postman&…

wow-rag—task5:流式部署

我们希望做一个流式输出的后端,然后让前端去捕获这个流式输出,并且在聊天界面中流式输出。 首先构造流式输出引擎。 # 构造流式输出引擎 query_engine index.as_query_engine(streamingTrue, similarity_top_k3,llmllm)然后生成response_stream&#x…

投资日记_道氏理论技术分析

主要用于我自己参考,我感觉我做事情的时候容易上头,忘掉很多事情。 技术分析有很多方法,但是我个人相信并实践的还是以道氏理论为根本的方法。方法千千万万只有适合自己价值观,习惯,情绪,性格的方法才是好的…

LangChain4j入门指南:Java开发者的AI应用新起点

什么是LangChain和LangChain4j? LangChain是⼀个⼤模型的开发框架,使⽤ LangChain 框架,程序员可以更好的利⽤⼤模型的能⼒,⼤⼤提⾼编 程效率。如果你是⼀个 Java 程序员,那么对 LangChain 最简单直观的理解就是&…

【实测闭坑】LazyGraphRAG利用本地ollama提供Embedding model服务和火山引擎的deepseek API构建本地知识库

LazyGraphRAG 2024年4月,为解决传统RAG在全局性的查询总结任务上表现不佳,微软多部门联合提出Project GraphRAG(大模型驱动的KG);2024年7月,微软正式开源GraphRAG项目,引起极大关注&#xff0c…

压力测试实战指南:JMeter 5.x深度解析与QPS/TPS性能优化

一、压力测试基础概念 1.1 什么是压力测试? 定义:模拟极端负载场景验证系统性能极限 目的:发现性能瓶颈、评估系统可靠性、验证容错能力 常见类型:负载测试、压力测试、稳定性测试、峰值测试 1.2 核心性能指标解析 1.2.1 QP…

嵌入式4-Modbus

1.Modbus Modbus 是一种广泛应用于工业自动化领域的通信协议,用于在不同设备(如传感器、PLC、变频器、仪表等)之间交换数据。它支持串行通信(如 RS232、RS485)和以太网通信(Modbus TCP)&#x…

机器学习-手搓KNN算法

一、简介 K最近邻(K-Nearest Neighbors, KNN)​ 是一种简单且直观的监督学习算法,适用于分类和回归任务。其核心思想是:​相似的数据点在特征空间中彼此接近。KNN通过计算新样本与训练数据中各个样本的距离,找到最近的…

Linux|fork命令及其使用的写时拷贝技术

fork复制进程 fork通过以下步骤来复制进程: 分配新的进程控制块:内核为新进程分配一个新的进程控制块(PCB),用于存储进程的相关信息,如进程 ID、状态、寄存器值、内存指针等。复制进程地址空间&#xff1…

Hoppscotch 开源API 开发工具

Hoppscotch 是一个开源的 API 开发工具,旨在为开发者提供一个轻量级、快速且功能丰富的 API 开发和调试平台。以下是对其主要特性和功能的详细介绍: 1. 轻量级与高效 Hoppscotch 采用简约的 UI 设计,注重易用性和高效性。它支持实时发送请求…

Datawhale大语言模型-Transformer以及模型详细配置

Datawhale大语言模型-Transformer以及模型详细配置 Transformer模型位置编码前馈层网络注意力机制多头自注意力编码器解码器 大语言模型的参数配置归一化激活函数位置编码旋转位置编码代码内容实现 注意力机制 参考资料 Transformer模型 当前主流的大语言模型都基于 Transform…

iPhone 16怎么编辑图片?图片编辑技巧、软件分享

在当今这个视觉信息爆炸的时代,一张经过精心编辑的图片往往能够瞬间抓住观众的眼球,而 iPhone 16凭借其卓越的硬件性能和丰富的软件生态,在图片编辑领域展现出了非凡的实力,成为众多摄影爱好者和创意工作者的得力助手。 一、编辑效…

代码随想录_动态规划

代码随想录 动态规划 509.斐波那契数 509. 斐波那契数 斐波那契数 (通常用 F(n) 表示)形成的序列称为 斐波那契数列 。该数列由 0 和 1 开始,后面的每一项数字都是前面两项数字的和。也就是: F(0) 0,F(1) 1 F(n…

【虚幻引擎UE5】SpawnActor生成Character实例不执行AI Move To,未初始化AIController的原因和解决方法

虚幻引擎版本:5.5.4 问题描述 刚创建的Third Person项目里,定义一个BP_Enemy蓝图,拖拽到场景中产生的实例会追随玩家,但SpawnActor产生的实例会固定不动。BP_Enemy蓝图具体设计如下: BP_Enemy的Event Graph ​​ 又定义…

论文笔记(七十三)Gemini Robotics: Bringing AI into the Physical World

Gemini Robotics: Bringing AI into the Physical World 文章概括1. 引言2. Gemini 2.0的具身推理2.1. 具身推理问答(ERQA)基准测试2.2. Gemini 2.0的具身推理能力2.3. Gemini 2.0支持零样本和少样本机器人控制 3. 使用 Gemini Robotics 执行机器人动作3…

汇能感知高品质的多光谱相机VSC02UA

VSC02UA概要 VSC02UA是一款高品质的200万像素的光谱相机,适用于工业检测、农业、医疗等领域。VSC02UA 包含 1600 行1200 列有源像素阵列、片上 10 位 ADC 和图像信号处理器。它带有 USB2.0 接口,配合专门的电脑上位机软件使用,可进行图像采集…

VSCode创建VUE项目(三)使用axios调用后台服务

1. 安装axios,执行命令 npm install axios 2. 在 main.ts 中引入并全局挂载 Axios 实例 修改后的 代码(也可以单独建一个页面处理Axios相关信息等,然后全局进行挂载) import { createApp } from vue import App from ./App.vue import rou…

信号处理抽取多项滤波的数学推导与仿真

昨天的《信号处理之插值、抽取与多项滤波》,已经介绍了插值抽取的多项滤率,今天详细介绍多项滤波的数学推导,并附上实战仿真代码。 一、数学变换推导 1. 多相分解的核心思想 将FIR滤波器的系数 h ( n ) h(n) h(n)按相位分组,每…