回顾2024年重磅AI发布汇总

2024年在人工智能领域出现了不少值得关注的发布和进展,以下是根据时间线索,对一些亮点突破进行了总结:

二月

  • Stability AI 宣布推出Stable Diffusion 3。

  • Google 升级了 Bard 中的人工智能聊天功能,基于新的Gemini Pro模型,支持所有可用语言。Google 将“Bard”替换为“Gemini”。

  • Google 宣布推出Gemini Pro 1.5多模态语言模型,该模型能够解析多达一百万个词,以及解析视频和图像。该模型正在逐步向等待名单上的开发人员发布。

  • OpenAI 宣布推出可制作长达一分钟的视频的Sora模型。该模型目前尚未向公众发布。

三月

  • X 公司宣布即将发布Grok 1.5开源模型。

  • Anthropic 宣布推出其大型语言模型的新版本Claude 3。该版本部署了 3 种不同大小的模型,其中最大的模型性能优于 GPT-4。

  • 开发音乐创作模型的 Suno AI向公众发布了Suno v3 。

四月

  • Stability AI 发布音乐创作模型的全新更新——Stable Audio 2.0。

  • X 公司发布了其语言模型Grok-1.5V的升级版,该模型集成了高级图像识别功能。在该公司展示的测试中,该模型在图像识别和分析方面的表现优于其他模型。

  • Mistral 公司将其新模型Mixtral 8x22B开源。这是开源模型中最强大的模型,它包含 1410 亿个参数,但采用了一种更经济的方法。

  • Meta 开源了LLaMA 3模型,其参数规模分别为 8B 和 70B。大型模型在多项指标上都比 Claude 3 Sonnet 和 Gemini Pro 1.5 表现更好。Meta 预计随后会发布更大的模型,其参数规模将达到 4000 亿甚至更多。

  • 微软开源了Phi-3-mini模型。该模型的参数精简版本为 3.8B,因此也可以在移动设备上运行,并且具有与 GPT-3.5 类似的功能。

  • Adobe宣布推出全新图像创建模型Firefly 3。

  • 初创公司Reka AI推出了一系列 3 种大小的多模态语言模型。这些模型能够处理视频、音频和图像。大型模型具有与 GPT-4 类似的功能。

  • 苹果公司以OpenELM 的名义全面开源了一系列小型语言模型。这些模型有四种权重,参数数量在 2.7 亿到 30 亿之间。

五月

  • OpenAI 宣布推出GPT-4o 模型,该模型具有完整的多模态功能,包括接收和创建文本、图像和音频。该模型表现出令人印象深刻的以高响应速度和自然语言说话的能力。该模型的效率是 GPT-4 Turbo 模型的 2 倍,并且对英语以外的语言具有更好的能力。

  • Google 宣布其产品中有大量 AI 功能。主要包括:将 Gemini 1.5 的 token 上限提高到 200 万,以加入等待列表,发布更小更快的Gemini Flash 1.5 模型。发布最新的图像创作模型Imagen 3、音乐创作模型Music AI和视频创作模型Veo。并宣布推出具有多模式功能的Astra 模型,用于实时音频和视频接收。

  • 微软宣布推出用于专用计算机的Copilot+,可通过用户活动的屏幕截图全面搜索用户历史记录。该公司还开源了尺寸最小、功能强大的 SLM:Phi-3 Small、Phi-3 Medium和包含图像识别功能的Phi-3 Vision 。

  • Meta 推出了Chameleon,一种可以无缝呈现文本和图像的新型多模式模型。

  • Mistral AI 发布其语言模型Mistral-7B-Instruct-v0.3的新开源版本。

  • 谷歌宣布推出AI Overview,旨在对谷歌搜索中的相关信息进行总结。

  • Suno AI 发布更新的音乐创作模型Suno v3.5。

  • Mistral AI 发布了一种新的语言模型,专为编码22B 大小的Codestral而设计。

六月

  • Stability AI 发布了其更新的图像创建模型Stable Diffusion 3,其中等版本大小为 2B 参数。

  • 苹果宣布推出Apple Intelligence,这是一套将被集成到公司设备中的人工智能系统,它将结合不同规模的人工智能模型来执行不同的任务。

  • DeepSeekAI 发布了DeepSeekCoderV2开源语言模型,该模型具有与 GPT-4、Claude 3 Opus 等模型类似的编码能力。

  • Runway推出了Gen3 Alpha,一种用于视频生成的新型 AI 模型。

  • Anthropic 发布了Claude Sonnet 3.5模型,该模型比其他模型具有更出色的能力且资源占用率更低。

  • 微软开源了一系列名为Florence 2的图像识别模型。

  • Google 宣布推出Gemma 2开源语言模型,参数大小分别为 9B 和 27B。此外,该公司还向开发人员开放了上下文窗口功能,最多支持 200 万个 token。

七月

  • OpenAI 发布了一款名为GPT-4o mini的微型模型,以低成本提供高性能

  • Meta 开源了llama 3.1 模型,尺寸为 8B、70B 和 405B。大型模型具有与最佳闭源模型相同的功能

  • mistral ai 发布三款新模型:Codestral Mamba、Mistral NeMo和Mathstral,专为数学而设计

  • 谷歌 DeepMind 发布了两个在今年国际数学奥林匹克(IMO)上获得银牌的全新 AI 系统 ——AlphaProof和A​​lphaGeometry 2。

  • OpenAI 推出了集成网络搜索SearchGPT

  • 初创公司 Udio 发布了其音乐创作模型的更新版本Udio v1.5

  • Mistral AI 发布了大小为 123B 的大型语言模型Mistral Large 2,其功能接近封闭的 SOTA 模型。

  • Midjourney v6.1发布

  • Google 开源Gemma 2 2B模型。该模型展现出比大型模型更出色的能力。

八月

  • “黑森林实验室”发布了名为Flux的图像生成模型的权重,其性能表现优于同类闭源模型。

  • OpenAI 发布了其模型的新版本GPT-4o 0806,在生成有效 JSON 输出方面实现了 100% 的成功率。

  • Google 的图像生成模型Imagen 3已经发布。

  • xAI 公司推出了Grok 2和Grok 2 mini型号,其性能与市场上领先的 SOTA 型号相当。

  • 微软推出了三个版本的小型语言模型Phi 3.5,每个版本都展现了相对于其尺寸的令人印象深刻的性能。

  • 谷歌推出了三个新的实验性AI模型:Gemini 1.5 Flash8B,Gemini 1.5 Pro Enhanced和Gemini 1.5 Flash Update。

  • Ideogram 2.0已经发布,提供超越其他领先模型的图像生成能力。

  • Luma 推出了用于视频创作的Dream Machine 1.5型号。

九月

  • 法国人工智能公司 Mistral 推出了Pixtral12B,这是其首个能够同时处理图像和文本的多模式模型。

  • OPENAI 向其订阅用户发布了两款下一代 AI 模型:o1 preview和o1 mini。这些模型在性能上表现出显著的提升,特别是在需要推理的任务中,包括编码、数学、GPQA 等。

  • 阿里巴巴发布了Qwen 2.5模型,大小从 0.5B 到 72B 不等。这些模型展现出与更大模型相当的能力。

  • 视频生成模型KLING 1.5已经发布。

  • OpenAI向所有订阅者推出GPT4o高级语音模式。

  • Meta推出1B、3B、11B 和 90B 尺寸的Llama 3.2,首次具备图像识别功能。

  • Google推出了已准备好部署的新模型更新Gemini Pro 1.5 002和Gemini Flash 1.5 002,展示了显著改进的长上下文处理。

  • Kyutai发布了其 voicetovoice 模型Moshi的两个开源版本。

  • 谷歌发布了其人工智能工具NotebookLM的更新,使用户能够根据自己的内容创建播客。

  • Mistral AI 推出了一款名为Mistral Small的 22B 型号。

十月

  • Flux 1.1 Pro发布,展示了高级图像创建功能。

  • Meta 推出了Movie Gen,这是一种根据文本输入生成视频、图像和音频的新型 AI 模型。

  • Pika 推出了视频模型 1.5以及“Pika 效果”。

  • Adobe 宣布其视频创作模型Firefly Video。

  • 初创公司 Rhymes AI 发布了Aria,这是一个开源的多模式模型,其功能与同等规模的专有模型相似。

  • Meta 发布了名为Meta Spirit LM 的开源语音到语音语言模型。

  • Mistral AI 推出了Ministral,这是一种具有 3B 和 8B 参数大小的新模型。

  • Janus AI是一种能够识别和生成文本和图像的多模态语言模型,由 DeepSeekAI 开源发布。

  • Google DeepMind 和麻省理工学院推出了Fluid,这是一种文本到图像生成模型,在 105 亿个参数的规模上具有业界领先的性能。

  • Stable Diffusion3.5以三种尺寸作为开源发布。

  • Anthropic 推出了Claude 3.5 Sonnet New,展示了其与前一版本相比在特定领域的重大进步,并宣布推出Claude 3.5 Haiku。

  • Anthropic 宣布推出一款可通过公开测试版 API 进行计算机使用的实验性功能。

  • 文本转图像模型Recraft v3已正式发布,在同类模型跑分中排名第一。

  • OpenAI推出了Search GPT,允许用户直接在平台内进行网络搜索。

十一月

  • 阿里巴巴发布了新模型QwQ 32B Preview,该模型集成了响应前的推理能力。该模型与 OpenAI 的 o1-preview 模型竞争,有时甚至超越后者。

  • 阿里巴巴开源模型Qwen2.5 Coder 32B,其功能可与编码领域领先的专有语言模型相媲美。

  • DeepSeek 推出了其新的 AI 模型DeepSeek-R1-Lite-Preview,该模型包含推理能力,在 AIME 和 MATH 基准测试中表现出色,与 OpenAI 的 o1-preview 水平相当。

  • Suno将其 AIpowered 音乐生成器升级到v4,引入了新功能和性能改进。

  • Mistral AI 推出了Pixtral Large模型,这是一种在图像识别和高级性能指标方面表现出色的多模态语言模型,以及 Mistral Large 2411 的更新。

  • 谷歌推出了两个实验模型,gemini-exp-1114和gemini-exp-1121,目前以增强的性能引领竞技场聊天机器人。

  • Anthropic 推出了Claude 3.5 Haiku和 Claude 中的 Visual PDF Analysis。

十二月

  • 亚马逊推出了名为NOVA的新系列模型,专为文本、图像和视频处理而设计。

  • OpenAI 发布了视频生成模型SORA,以及面向高级订阅者的O1和O1 Pro完整版。此外,该公司还推出了GPT4o的直播视频模式。

  • 谷歌发布了实验模型Gemini-Exp-1206,该模型在聊天机器人排行榜上名列第一。

  • Google 发布了Gemini 2.0 Flash测试版。该模型在基准测试中处于领先地位,性能优于上一版本Gemini Pro 1.5。此外,Google 还推出了实时语音和视频模式,并宣布该模型内置了图像生成功能。

  • 谷歌发布了基于Gemini 2.0 Flash的思维模型Gemini-2.0-Flash-Thinking,斩获聊天机器人排行榜第二名。

  • 谷歌推出了Veo 2,这是一款测试版视频生成模型,能够生成长达两分钟的 4K 视频。该模型在人工评估中的表现优于SORA 。此外,谷歌还更新了Imagen 3,提高了图像质量和真实感。

  • xAI集成了Aurora,一种用于生成高质量逼真图像的新模型。

  • 微软开源了Phi4模型,其尺寸为 14B,展示了其尺寸如此之小却功能如此强大的特点。

  • Meta 发布了Llama 3.3 70B,该型号的性能与Llama 3.1 405B相当。

  • 谷歌推出了名为PaliGemma 2的多模式开源模型,与现有的Gemma模型相集成。

  • Pika Labs 发布了其人工智能视频生成器的最新版本2.0 。

  • Meta 推出了Apollo,这是一种有三种不同尺寸的视频生成模型。

  • Deepseek 开源了Deepseek V3,这是一个具有 671B 参数的模型,在多个基准测试中超越了闭源 SOTA 模型。

  • 阿里巴巴发布了QVQ-72B-Preview,这是一种能够分析图像的前沿思维模型,具有SOTA级别的性能。

  • OpenAI 宣布推出突破性的 AI 模型O3 ,其在ARC-AGI基准测试中达到 87.5%,在Frontier Math Benchmark中达到 25.2%(而之前的模型不到 2%),在博士级科学问题中达到 87.7%。预计 2025 年 1 月将推出一款经济实惠的版本O3 Mini ,其性能与O1相似,同时速度和效率有所提升。

  • 视频生成模型Kling 1.6发布,性能显著提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/503916.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快速入门Spring Cloud Alibaba,轻松玩转微服务

​ 1 快速入门Spring Cloud Alibaba,轻松玩转微服务 1.1 架构 架构图: 1.2 项目结构 1.2.1 系统框架版本 版本适配查看:https://sca.aliyun.com/docs/2023/overview/version-explain/ Spring Boot Version :3.2.4 Spring Clo…

腾讯云AI代码助手-每日清单助手

作品简介 每日清单助手是一款可以记录生活的小程序,在人们需要记录时使用,所以根据这个需求来创建的这款应用工具,使用的是腾讯云AI代码助手来生成的所有代码,使用方便,快捷,高效。 技术架构 python语言…

Pytorch学习12_最大池化的使用

输入图像 import torch from torch import nninputtorch.tensor([[1,2,0,3,1],[0,1,2,3,1],[1,2,1,0,0],[5,2,3,1,1],[2,1,0,1,1]]) inputtorch.reshape(input,(-1,1,5,5))#二维张量转换为一个四维张量。(batch_size, channels, height, width)print(input.shape)ceil_modeTrue…

009:传统计算机视觉之边缘检测

本文为合集收录,欢迎查看合集/专栏链接进行全部合集的系统学习。 合集完整版请参考这里。 本节来看一个利用传统计算机视觉方法来实现图片边缘检测的方法。 什么是边缘检测? 边缘检测是通过一些算法来识别图像中物体之间或者物体与背景之间的边界&…

HarmonyOS Next系列之华为账号一键登录功能实现(十四)

系列文章目录 HarmonyOS Next 系列之省市区弹窗选择器实现(一) HarmonyOS Next 系列之验证码输入组件实现(二) HarmonyOS Next 系列之底部标签栏TabBar实现(三) HarmonyOS Next 系列之HTTP请求封装和Token…

大数据架构设计:数据分层治理的全景指南

大数据架构设计:数据分层治理的全景指南 在大数据架构中,数据分层治理是一种被广泛采用的设计模式,其核心目的是为数据赋予结构化管理的能力,降低复杂度,并为数据的多样化使用场景提供保障。在这篇文章中,…

unity学习14:unity里的C#脚本的几个基本生命周期方法, 脚本次序order等

目录 1 初始的C# 脚本 1.1 初始的C# 脚本 1.2 创建时2个默认的方法 2 常用的几个生命周期方法 2.1 脚本的生命周期 2.1.1 其中FixedUpdate 方法 的时间间隔,是在这设置的 2.2 c#的基本语法别搞混 2.2.1 基本的语法 2.2.2 内置的方法名,要求更严…

Ubuntu中使用miniconda安装R和R包devtools

安装devtools环境包 sudo apt-get install gfortran -y sudo apt-get install build-essential -y sudo apt-get install libxt-dev -y sudo apt-get install libcurl4-openssl-dev -y sudo apt-get install libxml2.6-dev -y sudo apt-get install libssl-dev -y sudo apt-g…

如何在 Windows 10/11 上录制带有音频的屏幕 [3 种简单方法]

无论您是在上在线课程还是参加在线会议,您都可能需要在 Windows 10/11 上录制带有音频的屏幕。互联网上提供了多种可选方法。在这里,本博客收集了 3 种最简单的方法来指导您如何在 Windows 10/11 上使用音频进行屏幕录制。请继续阅读以探索! …

Python 中几个库的安装与测试

一、jupyter 安装步骤 确保系统已经安装了Python(建议 Python 3.6 及以上版本)。点击WinR输入cdm进入命令提示符窗口,然后输入pip install jupyter,按下回车键。等待安装过程完成。安装过程中,你会看到命令行输出安装…

【阅读笔记】基于FPGA的红外图像二阶牛顿插值算法的实现

图像缩放技术在图像显示、传输、分析等多个领域中扮演着重要角色。随着数字图像处理技术的发展,对图像缩放质量的要求也越来越高。二阶牛顿插值因其在处理图像时能够较好地保持边缘特征和减少细节模糊,成为了图像缩放中的一个研究热点。 一、 二阶牛顿插…

5.1 数据库:INSERT 插入语句

工作中增删改查这四类sql语句里边用的最多的就是查询语句。因为绝大多数的软件系统都是读多写少的,而且查询的条件也是各种各样。本节课程我们来学习下一个DML语句,那就是向数据表里面写入记录的insert语句。Insert语句是可以向数据表里边写入&#xff0…

【 算法设计与分析-回顾算法知识点】福建师范大学数学与计算机科学学院 2006 — 2007学年第二学期考试 A 卷

一.填空题(每空2分,共30分) 1.算法的时间复杂性指算法中 元运算 的执行次数。 2.在忽略常数因子的情况下,O、和三个符号中, O 提供了算法运行时间的一个上界。 3.设Dn…

嵌入式技术之Linux(Ubuntu) 一

一、Linux入门 1.硬件和操作系统以及用户的关系 一个传感器,获得数据后,需要向服务器发送数据。传感器传数据给上位机。 上位机需要一个程序来接收数据,那么这个上位机是什么机器? 我们的笔记本电脑就可以当成上位机。 两个手…

Flink系统知识讲解之:如何识别反压的源头

Flink系统知识之:如何识别反压的源头 什么是反压 Ufuk Celebi 在一篇古老但仍然准确的文章中对此做了很好的解释。如果您不熟悉这个概念,强烈推荐您阅读这篇文章。如果想更深入、更低层次地了解该主题以及 Flink 网络协议栈的工作原理,这里有…

浙江安吉成新的分布式光伏发电项目应用

摘 要:分布式光伏发电站是指将光伏发电组件安装在用户的建筑物屋顶、空地或其他适合的场地上,利用太阳能进行发电的一种可再生能源利用方式,与传统的大型集中式光伏电站相比,分布式光伏发电具有更灵活的布局、更低的建设成本和更高…

IDEA 字符串拼接符号“+”位于下一行的前面,而不是当前行的末尾

效果图 IDEA 默认效果是“历史效果”,经过修改后为“预期效果” 设置方式 在设置中找到Editor > Code Style > Java > Wrapping and Braces > Binary expressions > 勾选 Operation sign on next line 即可实现。具体设置如图。

基于phpstudy快速搭建本地php环境(Windows)

好好生活,别睡太晚,别爱太满,别想太多。 声明 仅作为个人学习使用,仅供参考 对于CTF-Web手而言,本地PHP环境必不可少,但对于新手来说从下载PHP安装包到配置PHP环境是个非常繁琐的事情,因此笔者…

后台管理系统引导功能的实现

引导是软件中经常见到的一个功能,无论是在后台项目还是前台或者是移动端项目中。 那么对于引导页而言,它是如何实现的呢?通常情况下引导页是通过 聚焦 的方式,高亮一块视图,然后通过文字解释的形式来告知用户该功能的作…

vscode通过ssh连接服务器实现免密登录

一、通过ssh连接服务器 1、打开vscode,进入拓展(CtrlShiftX),下载拓展Remote - SSH。 2、点击远程资源管理器选项卡,选择远程(隧道/SSH)类别。 3、点击SSH配置。 4、在中间上部分弹出的配置文件…