文生视频、图生视频 AI 大模型开源项目介绍【持续更新】

Open-Sora

  1. 介绍:Open-Sora是一个由北京大学和兔展科研团队推出的开源项目,旨在推动视频生成技术的发展。Open-Sora致力于高效制作高质量视频,通过开源原则,使高级视频生成技术变得民主化,并提供一个简化且用户友好的平台,简化视频生成的复杂性。Open-Sora基于Diffusion Transformer(DiT)架构,使用华为开源的PixArt-α高质量文本到图像生成模型,并通过添加时间注意力层将其扩展为生成视频。
  2. GitHub:https://github.com/hpcaitech/Open-Sora
  3. 官网:https://hpcaitech.github.io/Open-Sora/
    在这里插入图片描述

MoneyPrinterTurbo

  1. 介绍:MoneyPrinterTurbo 是一个 Python 开发的开源工具,旨在通过自动化生成短视频来加速内容生产。它结合了图像处理、文本转语音 (TTS)、视频编辑等功能,帮助用户快速制作符合社交媒体平台要求的短视频。支持 OpenAI、moonshot、Azure、gpt4free、one-api 等多种 AI 模型接入,满足不同用户的需求。
  2. GitHub:https://github.com/harry0703/MoneyPrinterTurbo
    在这里插入图片描述

StreamingT2V

  1. 介绍:StreamingT2V是由PicsArt AI研究团队推出的一款先进的AI视频生成模型,它能够从文本生成具有丰富动态特征的长视频。StreamingT2V是一种基于自回归技术的文本生成长视频方案,它能够生成长达1200帧、时长为2分钟的视频,显著超越了先前模型的时长限制。该模型通过引入条件注意模块(CAM)、外观保持模块(APM)以及随机混合方法,实现了长视频的流畅生成,确保了时间上的连贯性和与文本描述的紧密对齐。
  2. GitHub:https://github.com/Picsart-AI-Research/StreamingT2V
  3. 官网:https://streamingt2v.github.io/
    在这里插入图片描述

AnimateDiff

  1. 介绍:AnimateDiff是一个强大的AI视频生成框架,它能够将个性化的文本到图像(T2I)模型扩展为动画生成器,而无需对模型进行特定的调整。AnimateDiff通过从大规模视频数据集中学习到的运动先验知识,作为Stable Diffusion文生图模型的插件,允许用户将静态图像转换为动态动画。它采用控制模块来影响Stable Diffusion模型,通过大量短视频剪辑的训练,调整图像生成过程,生成一系列与训练视频剪辑相似的图像。
  2. GitHub:https://github.com/guoyww/animatediff
  3. 官网:https://animatediff.github.io/
    在这里插入图片描述

StoryDiffusion

  1. 介绍:StoryDiffusion是一个由南开大学和字节跳动合作推出的开源AI故事创作项目,它专注于从文本描述生成具有一致性的图像和视频序列。StoryDiffusion通过结合一致性自注意力和语义运动预测器,为视觉故事生成领域提供了新的探索方向,并为内容创作者提供了一个强大的工具,以实现从文本到视觉故事的转换。
  2. GitHub:https://github.com/HVision-NKU/StoryDiffusion
  3. 官网:https://storydiffusion.github.io/
    在这里插入图片描述

Video-LaVIT

  1. 介绍:Video-LaVIT是一个创新的多模态预训练方法,旨在赋予大型语言模型(LLMs)理解和生成视频内容的能力。Video-LaVIT通过有效地将视频分解为关键帧和时间运动,解决了大规模预训练中视频的时空动态建模的挑战。这种方法使得视频、图像和文本的统一生成预训练成为可能。在推理阶段,由LLM生成的离散标记被仔细恢复到原始的连续像素空间,以创建各种视频内容。
  2. GitHub:https://github.com/jy0205/LaVIT
  3. 官网:https://video-lavit.github.io/
    在这里插入图片描述

MagicTime

  1. 介绍:MagicTime是一个创新的时间缩影视频生成模型,旨在通过学习现实世界的物理规则来生成包含复杂变形过程的高质量视频。MagicTime项目的核心目标是增强视频生成模型对现实世界精确描绘的能力,通过提出创新的方法和专属数据集,引领了一种全新的视频生成范式,即“元变形仿真”。这个项目能够基于特定的提示创造逼真的视频序列,特别关注于生成具有持续主体变形过程的视频,如植物生长、冰融化或花朵绽放等现象。
  2. GitHub:https://github.com/PKU-YuanGroup/MagicTime/tree/main
  3. 官网:https://pku-yuangroup.github.io/MagicTime/
    在这里插入图片描述

Follow-Your-Click

  1. 介绍:Follow-Your-Click是一个由腾讯混元团队联合清华大学和香港科技大学共同研发的图像到视频(Image-to-Video,简称I2V)生成模型。这个模型的核心特点是允许用户通过简单的点击和简短的动作提示来生成局部图像动画,从而将静态图像转换为动态视频。
  2. GitHub:https://github.com/mayuelala/FollowYourClick
  3. 官网:https://follow-your-click.github.io/
    在这里插入图片描述

Animate Anyone

  1. 介绍:Animate Anyone 是由阿里巴巴智能计算研究院推出的一款开源框架,专门用于将静态图像中的角色或人物进行动态化。Animate Anyone 利用扩散模型为基础,结合了 ReferenceNet、Pose Guider 姿态引导器和时序生成模块等技术,以实现照片动起来时保持一致性、可控性和稳定性,输出高质量的动态化视频。Animate Anyone 是一个功能强大且易于使用的图像到视频角色动画合成框架。它通过实时动画合成技术和用户友好的界面,使得动画制作变得更加简单和快捷。无论是专业人士还是业余爱好者,都可以利用这个工具创造出生动有趣的动画内容。
  2. GitHub:https://github.com/HumanAIGC/AnimateAnyone
    在这里插入图片描述

MuseV

  1. 介绍:MuseV是由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视频和口型同步。MuseV作为一个强大的虚拟人视频生成框架,为AI创作领域提供了新的可能性,特别是在虚拟人视频制作和口型同步方面展现出色的表现。
  2. GitHub:https://github.com/TMElyralab/MuseV
    在这里插入图片描述

AniPortrait

  1. 介绍:AniPortrait 是一个由腾讯开发的音频驱动的肖像动画合成框架,旨在根据音频和参考肖像图像生成高质量的动画。AniPortrait适用于虚拟现实、游戏、数字媒体制作等领域,提供了面部动画编辑和面部再现的灵活性。
  2. GitHub:https://github.com/Zejun-Yang/AniPortrait
    在这里插入图片描述

champ

  1. 介绍:Champ是一个由阿里巴巴、复旦大学和南京大学研究人员共同提出的项目,它是一个可控且与原始人物保持一致性的人物图像动画视频生成框架。Champ通过结合3D模型和潜在扩散框架,实现了对复杂人体几何和运动特征的精确捕捉。该框架能够将静态人物图片转换为动态视频动画,同时保持动画的时间一致性和视觉真实性。Champ在未见领域动画和跨身份动画转换方面展现出卓越性能,并计划开源代码,以推动该领域的进一步研究和应用。
  2. GitHub:https://github.com/fudan-generative-vision/champ
  3. 官网:https://fudan-generative-vision.github.io/champ/#/
    在这里插入图片描述

AniTalker

  1. 介绍:AniTalker是一个由上海交通大学X-LANCE实验室与思必驰AI Speech研究人员共同开发的开源框架,旨在从单一静态肖像和输入音频生成具有自然流动动作的动画说话视频。AniTalker采用通用动作表示,有效捕获广泛的面部动态,包括微妙的表情和头部运动。该框架通过两种自监督学习策略增强运动描述:一是从同一身份内的源帧重建目标视频帧以学习细微的运动表示;二是开发身份编码器,同时主动最小化身份和运动编码器之间的互信息,确保运动表示是动态的,没有特定于身份的细节,显著减少了对标记数据的需求。AniTalker可以广泛应用于虚拟主播、教育培训、娱乐产业等领域,用于制作互动教学视频、生成电影或游戏中的角色动画等。
  2. GitHub:https://github.com/X-LANCE/AniTalker
  3. 官网:https://x-lance.github.io/AniTalker/
    在这里插入图片描述

dreamtalk

  1. 介绍:DreamTalk是一个由清华大学、阿里巴巴集团和华中科技大学联合开发的扩散模型驱动的表情说话头生成框架。DreamTalk能够从单张图像和输入音频生成逼真的、富有表情的说话头像视频,支持多种说话风格。DreamTalk适合需要生成逼真说话面部动画的研究人员、开发者和创意专业人士。DreamTalk通过其创新的技术,为AI数字人领域提供了新的可能性,特别是在生成逼真的面部动作和动态化身方面展现出色的表现。
  2. GitHub:https://github.com/ali-vilab/dreamtalk
  3. 官网:https://dreamtalk-project.github.io/
    在这里插入图片描述

Stable Video Diffusion

  1. 介绍:Stable Video Diffusion(简称SVD)是由Stability AI开发的一种先进的视频生成模型,它基于深度学习技术,能够将文本和图像输入转换成生动的场景,并提升概念至动态影像创作。SVD能够生成高分辨率、高质量的视频内容,支持文本到视频和图像到视频的生成。Stable Video Diffusion作为AI视频生成技术的突破,展现了在视频创作领域的广阔前景,为个性化内容定制、短视频创作、虚拟现实与增强现实应用、教育与培训领域以及电影与游戏制作等领域带来了新的可能性。
  2. GitHub:https://github.com/Stability-AI/generative-models
  3. 官网:https://www.stablevideo.com/welcome
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/483374.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Burp Suite 实战指南:Proxy 捕获与修改流量、HTTP History 筛选与分析

声明! 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&a…

基于Vue实现的移动端手机商城项目 电商购物网站 成品源码

📂文章目录 一、📔网站题目 二、✍️网站描述 三、📚网站介绍 四、🌐网站演示 📸部分截图 🎬视频演示 五、⚙️网站代码 🧱项目结构 💒vue代码预览 六、🔧完整…

.NET 9 中 LINQ 新增功能实现过程

本文介绍了.NET 9中LINQ新增功能,包括CountBy、AggregateBy和Index方法,并提供了相关代码示例和输出结果,感兴趣的朋友跟随我一起看看吧 LINQ 介绍 语言集成查询 (LINQ) 是一系列直接将查询功能集成到 C# 语言的技术统称。 数据查询历来都表示为简单的…

yarn install遇到问题处理

1、Yarn在尝试安装一个依赖项时遇到了问题。具体来说,这个错误指出期望提升(hoist)的包的manifest文件丢失了,这通常是因为缓存中的数据损坏或不一致所致。 解决方法:有以下两种 1、清除Yarn缓存:运行 yarn…

遇到问题:hive中的数据库和sparksql 操作的数据库不是同一个。

遇到的问题: 1、hive中的数据库和sparksql 操作的数据库不同步。 观察上面的数据库看是否同步 !!! 2、查询服务器中MySQL中hive的数据库,发现创建的位置没有在hdfs上,而是在本地。 这个错误产生的原因是&…

大数据-240 离线数仓 - 广告业务 测试 ADS层数据加载 DataX数据导出到 MySQL

点一下关注吧!!!非常感谢!!持续更新!!! Java篇开始了! 目前开始更新 MyBatis,一起深入浅出! 目前已经更新到了: Hadoop&#xff0…

计算机网络-网络安全

网络安全介绍 端口扫描 安全包括那些方面: 数据存储安全、应用程序安全、操作系统安全、网络安全、物理安全、用户安全教育 一、网络安全问题概述 1. 计算机网络面临的安全性威胁 计算机网络上的通信面临以下的四种威胁: 截获——从网络上窃听他人…

linux 获取公网流量 tcpdump + python + C++

前言 需求为,统计linux上得上下行公网流量,常规得命令如iftop 、sar、ifstat、nload等只能获取流量得大小,不能区分公私网,所以需要通过抓取网络包并排除私网段才能拿到公网流量。下面提供了一些有效得解决思路,提供了…

【CSS in Depth 2 精译_066】11.2 颜色的定义(上)

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第四部分 视觉增强技术 ✔️【第 11 章 颜色与对比】 ✔️ 11.1 通过对比进行交流 11.1.1 模式的建立11.1.2 还原设计稿 11.2 颜色的定义 ✔️ 11.2.1 色域与色彩空间11.2.2 深入理解颜色表示法 文…

论文导读 I RAFT:使语言模型适应特定领域的RAG

摘要 随着大语言模型(LLMs)的发展,这些模型在广泛的任务中展现出了卓越的性能。然而,当这些模型应用于特定领域时,如何有效融入新信息仍然是一个未解决的问题。本文提出了检索增强微调(RAFT)&a…

华为HarmonyOS 让应用快速拥有账号能力 -- 2 获取用户头像昵称

场景介绍 如应用需要完善用户头像昵称信息,可使用Account Kit提供的头像昵称授权能力,用户允许应用获取头像昵称后,可快速完成个人信息填写。以下只针对Account kit提供的头像昵称授权能力进行介绍,若要获取头像还可通过场景化控…

高校数字化运营平台解决方案:构建统一的服务大厅、业务平台、办公平台,助力打造智慧校园

教育数字化是建设教育强国的重要基础,利用技术和数据助推高校管理转型,从而更好地支撑教学业务开展。 近年来,国家多次发布政策,驱动教育行业的数字化转型。《“十四五”国家信息化规划》,推进信息技术、智能技术与教育…

华为HarmonyOS 让应用快速拥有账号能力 -- 1 华为账号一键登录

概述 华为账号一键登录是基于OAuth 2.0协议标准和OpenID Connect协议标准构建的OAuth2.0 授权登录系统,应用可以通过华为账号一键登录能力方便地获取华为账号用户的身份标识和手机号,快速建立应用内的用户体系。 优势: 利用系统账号的安全…

C语言:指针与数组

一、. 数组名的理解 int arr[5] { 0,1,2,3,4 }; int* p &arr[0]; 在之前我们知道要取一个数组的首元素地址就可以使用&arr[0],但其实数组名本身就是地址,而且是数组首元素的地址。在下图中我们就通过测试看出,结果确实如此。 可是…

是什么阻断了kafka与zk的链接?

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 问题描述: 前几天部署一套环境,先把zk集群起来了,之后第二天在启动kafka的时候,…

MAUI APP开发蓝牙协议的经验分享:与跳绳设备对接

在开发MAUI应用程序时,蓝牙协议的应用是一个重要的环节,尤其是在需要与外部设备如智能跳绳进行数据交换的场景中。以下是我在开发过程中的一些经验和心得,希望能为你的项目提供帮助。 1. 蓝牙协议基础 蓝牙协议是无线通信的一种标准&#x…

算法日记 40 day 单调栈

最后两题了,直接上题目。 题目:接雨水 42. 接雨水 - 力扣(LeetCode) 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入&#xff1…

浏览器渲染原理

渲染原理 第一步解析Html第二步样式计算第三步布局第四步分层第五步绘制第六步分块第七步光栅化第八步画常见面试题什么是回流reflow?什么是重绘repaint? 当浏览器的网络线程收到HTML文档之后,会产生一个渲染任务并且会将其传递给渲染主线程的…

嵌入式系统应用-LVGL的应用-平衡球游戏 part2

平衡球游戏 part2 4 mpu60504.1 mpu6050 介绍4.2 电路图4.3 驱动代码编写 5 游戏界面移植5.1 移植源文件5.2 添加头文件 6 参数移植6.1 4 mpu6050 4.1 mpu6050 介绍 MPU6050是一款由InvenSense公司生产的加速度计和陀螺仪传感器,广泛应用于消费电子、机器人等领域…

ELK的Filebeat

目录 传送门前言一、概念1. 主要功能2. 架构3. 使用场景4. 模块5. 监控与管理 二、下载地址三、Linux下7.6.2版本安装filebeat.yml配置文件参考(不要直接拷贝用)多行匹配配置过滤配置最终配置(一、多行匹配、直接读取日志文件、EFK方案&#…