2024年在人工智能领域出现了不少值得关注的发布和进展,以下是根据时间线索,对一些亮点突破进行了总结:
二月
-
Stability AI 宣布推出Stable Diffusion 3。
-
Google 升级了 Bard 中的人工智能聊天功能,基于新的Gemini Pro模型,支持所有可用语言。Google 将“Bard”替换为“Gemini”。
-
Google 宣布推出Gemini Pro 1.5多模态语言模型,该模型能够解析多达一百万个词,以及解析视频和图像。该模型正在逐步向等待名单上的开发人员发布。
-
OpenAI 宣布推出可制作长达一分钟的视频的Sora模型。该模型目前尚未向公众发布。
三月
-
X 公司宣布即将发布Grok 1.5开源模型。
-
Anthropic 宣布推出其大型语言模型的新版本Claude 3。该版本部署了 3 种不同大小的模型,其中最大的模型性能优于 GPT-4。
-
开发音乐创作模型的 Suno AI向公众发布了Suno v3 。
四月
-
Stability AI 发布音乐创作模型的全新更新——Stable Audio 2.0。
-
X 公司发布了其语言模型Grok-1.5V的升级版,该模型集成了高级图像识别功能。在该公司展示的测试中,该模型在图像识别和分析方面的表现优于其他模型。
-
Mistral 公司将其新模型Mixtral 8x22B开源。这是开源模型中最强大的模型,它包含 1410 亿个参数,但采用了一种更经济的方法。
-
Meta 开源了LLaMA 3模型,其参数规模分别为 8B 和 70B。大型模型在多项指标上都比 Claude 3 Sonnet 和 Gemini Pro 1.5 表现更好。Meta 预计随后会发布更大的模型,其参数规模将达到 4000 亿甚至更多。
-
微软开源了Phi-3-mini模型。该模型的参数精简版本为 3.8B,因此也可以在移动设备上运行,并且具有与 GPT-3.5 类似的功能。
-
Adobe宣布推出全新图像创建模型Firefly 3。
-
初创公司Reka AI推出了一系列 3 种大小的多模态语言模型。这些模型能够处理视频、音频和图像。大型模型具有与 GPT-4 类似的功能。
-
苹果公司以OpenELM 的名义全面开源了一系列小型语言模型。这些模型有四种权重,参数数量在 2.7 亿到 30 亿之间。
五月
-
OpenAI 宣布推出GPT-4o 模型,该模型具有完整的多模态功能,包括接收和创建文本、图像和音频。该模型表现出令人印象深刻的以高响应速度和自然语言说话的能力。该模型的效率是 GPT-4 Turbo 模型的 2 倍,并且对英语以外的语言具有更好的能力。
-
Google 宣布其产品中有大量 AI 功能。主要包括:将 Gemini 1.5 的 token 上限提高到 200 万,以加入等待列表,发布更小更快的Gemini Flash 1.5 模型。发布最新的图像创作模型Imagen 3、音乐创作模型Music AI和视频创作模型Veo。并宣布推出具有多模式功能的Astra 模型,用于实时音频和视频接收。
-
微软宣布推出用于专用计算机的Copilot+,可通过用户活动的屏幕截图全面搜索用户历史记录。该公司还开源了尺寸最小、功能强大的 SLM:Phi-3 Small、Phi-3 Medium和包含图像识别功能的Phi-3 Vision 。
-
Meta 推出了Chameleon,一种可以无缝呈现文本和图像的新型多模式模型。
-
Mistral AI 发布其语言模型Mistral-7B-Instruct-v0.3的新开源版本。
-
谷歌宣布推出AI Overview,旨在对谷歌搜索中的相关信息进行总结。
-
Suno AI 发布更新的音乐创作模型Suno v3.5。
-
Mistral AI 发布了一种新的语言模型,专为编码22B 大小的Codestral而设计。
六月
-
Stability AI 发布了其更新的图像创建模型Stable Diffusion 3,其中等版本大小为 2B 参数。
-
苹果宣布推出Apple Intelligence,这是一套将被集成到公司设备中的人工智能系统,它将结合不同规模的人工智能模型来执行不同的任务。
-
DeepSeekAI 发布了DeepSeekCoderV2开源语言模型,该模型具有与 GPT-4、Claude 3 Opus 等模型类似的编码能力。
-
Runway推出了Gen3 Alpha,一种用于视频生成的新型 AI 模型。
-
Anthropic 发布了Claude Sonnet 3.5模型,该模型比其他模型具有更出色的能力且资源占用率更低。
-
微软开源了一系列名为Florence 2的图像识别模型。
-
Google 宣布推出Gemma 2开源语言模型,参数大小分别为 9B 和 27B。此外,该公司还向开发人员开放了上下文窗口功能,最多支持 200 万个 token。
七月
-
OpenAI 发布了一款名为GPT-4o mini的微型模型,以低成本提供高性能
-
Meta 开源了llama 3.1 模型,尺寸为 8B、70B 和 405B。大型模型具有与最佳闭源模型相同的功能
-
mistral ai 发布三款新模型:Codestral Mamba、Mistral NeMo和Mathstral,专为数学而设计
-
谷歌 DeepMind 发布了两个在今年国际数学奥林匹克(IMO)上获得银牌的全新 AI 系统 ——AlphaProof和AlphaGeometry 2。
-
OpenAI 推出了集成网络搜索SearchGPT
-
初创公司 Udio 发布了其音乐创作模型的更新版本Udio v1.5
-
Mistral AI 发布了大小为 123B 的大型语言模型Mistral Large 2,其功能接近封闭的 SOTA 模型。
-
Midjourney v6.1发布
-
Google 开源Gemma 2 2B模型。该模型展现出比大型模型更出色的能力。
八月
-
“黑森林实验室”发布了名为Flux的图像生成模型的权重,其性能表现优于同类闭源模型。
-
OpenAI 发布了其模型的新版本GPT-4o 0806,在生成有效 JSON 输出方面实现了 100% 的成功率。
-
Google 的图像生成模型Imagen 3已经发布。
-
xAI 公司推出了Grok 2和Grok 2 mini型号,其性能与市场上领先的 SOTA 型号相当。
-
微软推出了三个版本的小型语言模型Phi 3.5,每个版本都展现了相对于其尺寸的令人印象深刻的性能。
-
谷歌推出了三个新的实验性AI模型:Gemini 1.5 Flash8B,Gemini 1.5 Pro Enhanced和Gemini 1.5 Flash Update。
-
Ideogram 2.0已经发布,提供超越其他领先模型的图像生成能力。
-
Luma 推出了用于视频创作的Dream Machine 1.5型号。
九月
-
法国人工智能公司 Mistral 推出了Pixtral12B,这是其首个能够同时处理图像和文本的多模式模型。
-
OPENAI 向其订阅用户发布了两款下一代 AI 模型:o1 preview和o1 mini。这些模型在性能上表现出显著的提升,特别是在需要推理的任务中,包括编码、数学、GPQA 等。
-
阿里巴巴发布了Qwen 2.5模型,大小从 0.5B 到 72B 不等。这些模型展现出与更大模型相当的能力。
-
视频生成模型KLING 1.5已经发布。
-
OpenAI向所有订阅者推出GPT4o高级语音模式。
-
Meta推出1B、3B、11B 和 90B 尺寸的Llama 3.2,首次具备图像识别功能。
-
Google推出了已准备好部署的新模型更新Gemini Pro 1.5 002和Gemini Flash 1.5 002,展示了显著改进的长上下文处理。
-
Kyutai发布了其 voicetovoice 模型Moshi的两个开源版本。
-
谷歌发布了其人工智能工具NotebookLM的更新,使用户能够根据自己的内容创建播客。
-
Mistral AI 推出了一款名为Mistral Small的 22B 型号。
十月
-
Flux 1.1 Pro发布,展示了高级图像创建功能。
-
Meta 推出了Movie Gen,这是一种根据文本输入生成视频、图像和音频的新型 AI 模型。
-
Pika 推出了视频模型 1.5以及“Pika 效果”。
-
Adobe 宣布其视频创作模型Firefly Video。
-
初创公司 Rhymes AI 发布了Aria,这是一个开源的多模式模型,其功能与同等规模的专有模型相似。
-
Meta 发布了名为Meta Spirit LM 的开源语音到语音语言模型。
-
Mistral AI 推出了Ministral,这是一种具有 3B 和 8B 参数大小的新模型。
-
Janus AI是一种能够识别和生成文本和图像的多模态语言模型,由 DeepSeekAI 开源发布。
-
Google DeepMind 和麻省理工学院推出了Fluid,这是一种文本到图像生成模型,在 105 亿个参数的规模上具有业界领先的性能。
-
Stable Diffusion3.5以三种尺寸作为开源发布。
-
Anthropic 推出了Claude 3.5 Sonnet New,展示了其与前一版本相比在特定领域的重大进步,并宣布推出Claude 3.5 Haiku。
-
Anthropic 宣布推出一款可通过公开测试版 API 进行计算机使用的实验性功能。
-
文本转图像模型Recraft v3已正式发布,在同类模型跑分中排名第一。
-
OpenAI推出了Search GPT,允许用户直接在平台内进行网络搜索。
十一月
-
阿里巴巴发布了新模型QwQ 32B Preview,该模型集成了响应前的推理能力。该模型与 OpenAI 的 o1-preview 模型竞争,有时甚至超越后者。
-
阿里巴巴开源模型Qwen2.5 Coder 32B,其功能可与编码领域领先的专有语言模型相媲美。
-
DeepSeek 推出了其新的 AI 模型DeepSeek-R1-Lite-Preview,该模型包含推理能力,在 AIME 和 MATH 基准测试中表现出色,与 OpenAI 的 o1-preview 水平相当。
-
Suno将其 AIpowered 音乐生成器升级到v4,引入了新功能和性能改进。
-
Mistral AI 推出了Pixtral Large模型,这是一种在图像识别和高级性能指标方面表现出色的多模态语言模型,以及 Mistral Large 2411 的更新。
-
谷歌推出了两个实验模型,gemini-exp-1114和gemini-exp-1121,目前以增强的性能引领竞技场聊天机器人。
-
Anthropic 推出了Claude 3.5 Haiku和 Claude 中的 Visual PDF Analysis。
十二月
-
亚马逊推出了名为NOVA的新系列模型,专为文本、图像和视频处理而设计。
-
OpenAI 发布了视频生成模型SORA,以及面向高级订阅者的O1和O1 Pro完整版。此外,该公司还推出了GPT4o的直播视频模式。
-
谷歌发布了实验模型Gemini-Exp-1206,该模型在聊天机器人排行榜上名列第一。
-
Google 发布了Gemini 2.0 Flash测试版。该模型在基准测试中处于领先地位,性能优于上一版本Gemini Pro 1.5。此外,Google 还推出了实时语音和视频模式,并宣布该模型内置了图像生成功能。
-
谷歌发布了基于Gemini 2.0 Flash的思维模型Gemini-2.0-Flash-Thinking,斩获聊天机器人排行榜第二名。
-
谷歌推出了Veo 2,这是一款测试版视频生成模型,能够生成长达两分钟的 4K 视频。该模型在人工评估中的表现优于SORA 。此外,谷歌还更新了Imagen 3,提高了图像质量和真实感。
-
xAI集成了Aurora,一种用于生成高质量逼真图像的新模型。
-
微软开源了Phi4模型,其尺寸为 14B,展示了其尺寸如此之小却功能如此强大的特点。
-
Meta 发布了Llama 3.3 70B,该型号的性能与Llama 3.1 405B相当。
-
谷歌推出了名为PaliGemma 2的多模式开源模型,与现有的Gemma模型相集成。
-
Pika Labs 发布了其人工智能视频生成器的最新版本2.0 。
-
Meta 推出了Apollo,这是一种有三种不同尺寸的视频生成模型。
-
Deepseek 开源了Deepseek V3,这是一个具有 671B 参数的模型,在多个基准测试中超越了闭源 SOTA 模型。
-
阿里巴巴发布了QVQ-72B-Preview,这是一种能够分析图像的前沿思维模型,具有SOTA级别的性能。
-
OpenAI 宣布推出突破性的 AI 模型O3 ,其在ARC-AGI基准测试中达到 87.5%,在Frontier Math Benchmark中达到 25.2%(而之前的模型不到 2%),在博士级科学问题中达到 87.7%。预计 2025 年 1 月将推出一款经济实惠的版本O3 Mini ,其性能与O1相似,同时速度和效率有所提升。
-
视频生成模型Kling 1.6发布,性能显著提升。