生成模型的现状2025年的新兴趋势

2024年对人工智能而言是极为出色的一年。在文本生成和图像生成这两方面，我们目睹了模型能力全方位出现了类似阶跃函数般的巨大提升。这一年起始时OpenAI占据主导地位，而到了年末，Anthropic的Claude成了我常用的大型语言模型，并且还涌现出了若干实验室，它们都在试图开拓前沿领域，从xAI到诸如深度求索（DeepSeek）和通义千问（Qwen）之类的中国实验室皆是如此。

过去两年对研究工作来说同样很棒。尽管诸多进展都发生在前沿实验室内部、不对外公开，但我们也看到外界在公开层面付出了大量努力去复现这些成果。在这篇文章中，我会分享我所认为的生成式模型的现状，以及2025年我个人颇为期待的一些研究方向。

Language

大型语言模型无疑是当前人工智能浪潮中最重要的组成部分，而且目前也是大多数研究和投资所聚焦的领域。今年，我们看到前沿领域在能力方面有了重大提升，同时还出现了一种全新的扩展范式。

Architecture

当前人工智能领域一直在探索新的模型架构，像提到的Mamba以及xLSTM等，人们不断尝试通过创新架构来改进模型性能、拓展功能等。不过，尽管有这些新架构出现，仅解码器的Transformer架构依旧有着很强的生命力，在未来大概率还会被广泛使用，主导地位短时间内难以被撼动。这是因为Transformer架构在诸多自然语言处理等任务中已经展现出了优秀的能力，得到了行业内广泛认可和应用。

密集型Transformer相关内容

Llama 3系列模型情况

地位体现：Llama 3系列模型在当前开源权重的模型中处于领先地位，是被视为“最佳”的那一批。Meta公司对其训练投入了很多资源，目的就是要打造出性能尽可能卓越的常规的密集型Transformer模型。这意味着它在很多任务场景下，比如文本创作、知识问答等方面，有着比较出色的表现，能够为使用者提供高质量的输出结果。

各实验室的密集型Transformer趋向情况

“诺姆Transformer”概念：各个实验室所研发的密集型Transformer有趋于一种共同模式的情况，将其称为“诺姆Transformer”，这个名称源于诺姆·沙泽尔。它实际上就是由多个仅含解码器的Transformer模块堆积而成的一种架构形式。
技术细节构成：
- RMSNorm（均方根层归一化）：这是一种归一化技术，作用在于对Transformer模块中的特征进行标准化处理，使得数据的分布更加稳定，有助于模型训练时更快收敛以及提升模型的泛化能力。比如在不同批次的文本数据输入模型时，通过RMSNorm能让模型对数据的处理更加稳定和高效。
- Group Query Attention（分组查询注意力）：是注意力机制的一种改进形式，它通过将查询（Query）进行分组等操作，更精细地去捕捉文本中不同部分之间的关联关系，相比于传统的注意力机制，能在一定程度上提高计算效率并且让模型对语义关系的理解更加准确。例如在处理包含多个主题的复杂长文本时，能更好地区分不同主题相关内容之间的联系。
- Gated Linear Unit（门控线性单元）：类似一种带有控制“门”的线性变换单元，通过这个“门”可以选择性地让信息通过或者阻断，有助于模型更好地控制信息流动，筛选出对当前任务更有用的特征信息，增强模型的表达能力。就好像在一个信息处理的“流水线”上，根据实际情况决定哪些信息继续往下传递，哪些暂时忽略。
- Rotary Positional Embeddings（旋转式位置嵌入）：主要用于处理文本中词的位置信息，它以一种特殊的旋转方式将位置信息融入到词向量当中，使得模型能够知道每个词在句子中的相对位置，这对于理解文本的顺序语义等非常关键。比如在理解“我吃饭”和“饭吃我”这两个语义完全不同但词相同的句子时，位置嵌入就能帮助模型区分先后顺序。
滑动窗口注意力模块使用情况：除了上述这些基本的组成部分外，部分实验室还会选择在模型中交错使用滑动窗口注意力模块。这种模块主要是在处理长序列文本时，不是一次性对整个长序列进行注意力计算，而是通过设定一定的窗口范围，在这个相对较小的窗口内进行注意力操作，这样既能捕捉局部的语义关联，又能在一定程度上降低计算复杂度，提高模型运行效率，尤其适用于超长文本的处理场景。

在所有这些当中，我认为注意力机制的变体最有可能发生变化。具体而言，深度求索（DeepSeek）引入了多重潜在注意力（Multi Latent Attention）机制，该机制旨在通过键值缓存（KV-cache）压缩实现高效推理。深度求索在过去几个月才真正进入主流讨论范畴，所以我预计会有更多研究致力于对多重潜在注意力机制进行复现、验证以及改进。

也有一些针对混合设计的研究（用状态空间模型替换每一个Transformer模块），希望能在不降低质量的情况下实现更高效的推理。

一个更具推测性的预测是，我们将会看到旋转式位置嵌入（RoPE）被取代，或者至少出现其变体。尽管旋转式位置嵌入在实际应用中效果良好，并且为我们提供了一种扩展上下文窗口的方法，但我觉得从架构层面进行编码的某种方式在美感上会更好。我做出这一推测有两个原因。首先，科赫（Cohere）的新模型在其全局注意力层中并未采用位置编码。这种做法居然行得通，这很令人惊讶，也让人对长序列中位置信息的重要性产生了疑问。其次，当深度求索研发多重潜在注意力机制时，由于旋转式位置嵌入的存在，他们除了对键和值进行投影之外，还需要添加其他东西（例如，将有位置编码和无位置编码的情况进行奇怪的拼接）。如果多重潜在注意力机制确实更好，那就意味着我们需要一种能与它原生适配的东西，而非某种临时拼凑的方案。

混合专家模型（Mixture-of-Experts）

2024年也是混合专家模型重新回归主流视野的一年，这尤其得益于有传言称最初的GPT-4是由8个规模达2200亿参数的专家模型组成。在开源权重类别中，我认为混合专家模型最初是在去年年末因米斯特拉尔（Mistral）公司的Mixtral模型而开始流行起来，随后在近期又因深度求索（DeepSeek）v2和v3版本而受到更多关注。混合专家模型的遗憾之处在于，对大多数人来说它们并不容易部署使用（深度求索v3版本无法在配备8个H100 GPU的环境下使用），不过就我个人而言，我对深度求索团队在推动混合专家模型迈向前沿领域方面抱有很大的信心。

关于混合专家模型（MoE）架构消融相关研究期待

路由机制等方面：
- 不同路由机制：在混合专家模型中，路由机制起着关键作用，它决定了输入的数据会被分配到哪个或哪些“专家”（可以理解为模型中不同的子模块，它们各自擅长处理某类特定信息）那里去进行处理。不同的路由机制会影响模型整体对输入信息的分配和处理效率、准确性等。例如，有的路由机制可能是基于概率的简单分配，有的可能会综合考虑输入数据的多种特征来决定分配路径，所以研究不同的路由机制能探索出更优化的信息分配方式，让模型性能更好。
- 处理路由不稳定性：路由过程中可能会出现不稳定的情况，比如由于输入数据的某些细微变化或者模型训练阶段的波动，导致本该分配到某个“专家”的信息被错误地分配到了其他地方，进而影响模型输出结果。通过研究如何处理这种不稳定性，能够使模型在面对各种输入时都能更可靠、稳定地运行，保证输出质量。
- 各层架构选择：探讨是否每一层都用混合专家架构还是只让前几层采用密集型架构更好，这涉及到模型不同层次对信息处理的特点和需求。如果每一层都是混合专家架构，模型的分工协作可能更精细，但也可能带来更多的复杂性和计算成本；而前几层采用密集型架构，或许可以先对输入信息进行一个通用的、综合性的特征提取和初步处理，后面再由混合专家架构的层来做更专业的细分处理，找到最佳的分层架构搭配有助于提升模型整体性能。

可解释性方面：
- 解释性需求背景：混合专家模型相对复杂，其内部多个“专家”如何协同工作、依据什么来处理不同信息等过程对于使用者来说往往像个“黑箱”。所以希望能有更多可解释性方面的研究，让人们能清楚知道模型是怎么运作的。
- 关键问题示例：比如“我们是否希望专家模型专注于人类可理解的领域或方式呢”这个问题就很重要。如果希望专家模型能专注在人类可理解的领域，那意味着模型处理信息的逻辑和专业分工最好是和人类认知的一些概念、分类等相契合，这样人们就能更好地解读模型为什么做出某个决策，也便于评估模型的可靠性、正确性等；反之，如果不考虑这一点，模型可能虽然能输出结果，但人们很难弄明白其内在逻辑，不利于在一些对可解释性要求高的场景（如医疗诊断辅助、金融风险评估等）应用。

关于深度与宽度探讨的研究期待

深度与宽度概念及意义：在构建神经网络模型（包括这里提到的相关语言模型等）时，深度指的是网络的层数，层数越多意味着模型可以对输入信息进行更多次、更深入的特征提取和转换，能够处理更复杂的模式；宽度则通常涉及每层神经元的数量等，较宽的网络意味着在同一层可以处理更多维度的信息。两者的不同选择会对模型的性能、计算资源需求、泛化能力等诸多方面产生影响。
深度优先观点及例外情况：
- 深度是发展方向的看法：个人认为深度方向更值得探索，是因为随着层数增加，模型理论上有更强的表达能力，能够捕捉到输入数据中更深层次、更复杂的语义和逻辑关系。例如在处理复杂的自然语言文本，像长篇学术论文、文学作品解读等任务时，深度足够的模型可能更善于挖掘其中隐藏的各种意义和关联，从而给出更准确、高质量的输出结果。
- 小型模型的不同情况：但对于小型模型，尤其是要在边缘设备（如手机、物联网设备等，这些设备计算能力、存储资源相对有限）上运行的模型，情况可能不一样。小型模型由于资源受限，可能没办法堆叠太多的层数来追求深度，此时适当增加宽度或者采用其他更适合其资源条件的架构方式（比如参考MobileLLM这种针对边缘设备优化的模型思路），反而能在有限资源下达到相对较好的性能表现，满足一些简单的任务需求，像简单的文本分类、语音指令识别等。

Tokenization

关于分词（Tokenization）及字节对编码（Byte Pair Encoding）现状

普遍态度及维持现状原因：
- 在自然语言处理等涉及文本处理的人工智能领域，分词是一项基础且重要的操作，它会将文本拆分成一个个的单元（即词元，Tokens），方便后续模型进行处理。字节对编码是一种常用的分词方法。然而，行业内大家其实都不太满意这种方式，觉得它存在诸多不足，但一直以来又没能找到更好的替代方案。
- 同时，尽管它有不尽如人意的地方，可在实际应用中，它也还没有引发那种严重到必须要立刻改变的大问题，所以就暂且保持原有的状态继续使用了。例如，在很多文本生成、机器翻译等任务中，虽然大家知道字节对编码可能不是最理想的，但用它也能基本完成任务，模型还能正常运转并输出尚可的结果。
“草莓里有几个‘r’”问题体现的局限：
- 以“草莓（strawberry）里有几个‘r’”这个问题为例，使用字节对编码等传统分词方法时，可能会出现不合理的拆分情况。比如按照其规则把“strawberry”拆分成了几个词元后，再去统计字母‘r’的个数时，就可能因为拆分方式不符合人们常规对于这个单词整体认知的逻辑，导致出现统计错误或者难以准确处理这类简单问题的情况，这凸显了现有分词方法在一些细节处理上的缺陷。
- 对于数字按三位进行拆分这种操作，在处理涉及数学运算相关的文本内容时，并不清楚这样的分词方式到底对最终的数学性能（比如准确理解数字进行计算、比较大小等）有没有积极作用，还是说反而可能会干扰模型对数字的正确处理，这也是现有分词方法在应用中存在模糊性的一个体现。

Meta公司相关论文及新方向

摆脱现有分词方法的迹象：
- 在12月的时候，Meta公司发布了几篇论文，这些论文透露出要改变当前常用的分词方法这一意向。这意味着行业内有影响力的公司开始尝试探索新路径，不再满足于现有的分词模式，想要通过创新来解决长期存在的问题。
- 其中提到的两个比较有前景的方向，一个是在潜在空间中进行思维链（Chain-of-Thought）操作，另一个是基于字节来训练Transformer。思维链操作有助于让模型在处理文本时能像人类一样有更有条理、逻辑连贯地思考，把这个应用到分词相关的潜在空间处理中，可能会让对文本的拆分和理解更加合理；而基于字节训练Transformer，则是从更底层的字节层面去构建模型对文本的处理方式，有望避开传统分词方法带来的一些弊端。
对未来发展的期望：
- 希望看到Meta公司在2025年能够沿着这两个有潜力的方向继续深入研究和探索。因为如果能成功实现新的分词方法变革，将会对整个自然语言处理领域产生积极影响，比如提高模型对文本理解的准确性、提升各种文本相关任务的完成质量等。

对《字节潜在Transformer》论文的关注及顾虑

方案吸引力所在：
- 特别关注《字节潜在Transformer》这篇论文，是因为论文里团队提出的处理字节输入的方案很有意思。具体来说，他们利用编码器/解码器设置，并依据熵来进行拆分。编码器可以把字节输入转化为适合模型处理的一种表示形式，解码器则负责把模型处理后的结果再还原回字节形式。基于熵进行拆分则是按照信息论里熵的概念，根据字节序列中蕴含的信息量等因素来合理地划分字节，这样的做法可能更符合字节本身的特点和内在逻辑，相比传统的、相对比较机械的分词方式更具创新性和合理性。
质量瓶颈及扩展难题：
- 不过，也存在的问题，那就是字节解码器的质量让人担忧，并且认为它可能是整个方案的质量瓶颈所在。从直观上理解，解码器要做的是把经过模型处理后的片段（比如经过编码、模型运算等一系列操作后的中间表示形式）还原回原本的字节，这个过程很关键，如果还原不准确或者质量不高，那最终整个基于字节处理的效果就会大打折扣。
- 而且，由于解码器是要对整个字节序列进行建模，字节序列往往数量庞大且复杂，这就导致想要提升它的性能、扩大它的规模（比如适应更长的字节输入、更复杂的文本对应的字节情况等）是一件非常困难的事情，不像处理一些简单、小规模的结构那样容易进行优化和扩展。

Reasoning

推理能力在今年下半年成了一个热门话题，随着o1的发布，以及近期o3的推出，它们在数学、科学和编程任务上展现出了模型推理能力的提升，而且提升速度之快出乎许多人的意料。虽然OpenAI除了在博客文章示例中有所展示外，并未公布其背后的研究内容，只是提到在某个环节使用了强化学习，但我们已经开始看到相关复现成果，尤其是深度求索（DeepSeek）的r1以及通义千问（Qwen）的QwQ/QvQ模型。

在这些突破背后是一种新的扩展范式：“推理时计算”。其核心在于，它指的是这样一种模型：1）能生成比常规更长的思维链（CoT，Chain of Thought）（可能长达数百万个词元），2）能够有效地利用这条思维链并基于其进行推理。然而，如果我们查看这些模型的思维链轨迹，就会发现它们都有一组共同的特征：

它们分清晰的阶段进行推理，通常以换行来划分不同阶段。
它们经常使用诸如“或者（Alternatively）”“但是（But）”之类的“关键转折词”。这种回溯和分支行为在标准的大型语言模型（LLM）生成内容中出现得较少。
它们在有外部验证的领域（比如数学和编程领域存在客观事实）表现得极为出色，但在创意写作等领域则表现欠佳。
有时它们会出现奇怪的拼写和大小写问题，甚至会在中途变换语言。（这可能可以用强化学习来解释）

关于o系列模型背后的诀窍，存在诸多理论和传言，在等待深度求索（DeepSeek）发布关于r1的论文或者通义千问（Qwen）发布关于QwQ的论文之际，我在此分享一下我的看法。我认为OpenAI采取了最简单、最直截了当的“吃一堑长一智”的路线。依据他们的《逐步验证》（Let's Verify Step by Step）论文，我觉得他们训练了一批过程奖励模型（Process Reward Models，简称PRMs），以便为推理的每个阶段以及必要的任何外部验证器（如代码测试用例等）给出奖励值。然后，他们生成了大量的合成数据（大概是用类似这样的方式），并对其进行强化学习（可能是近端策略优化算法，即PPO）。那些关键转折词是通过强化学习过程自然习得的，并非硬编码进去的。

我知道这一切都很“含糊其辞”，可能也过于简化了，但我真的认为《逐步验证》这篇论文涵盖了其中70%的工作内容。

在2025年，我认为我们很可能会看到Anthropic推出的推理器，而且这种推理时计算范式能够进一步大规模扩展，这会给开源社区（以及其他实验室）提供很大的追赶空间。OpenAI在短短3个月内就从o1发展到o3，应该就预示了这一点。

关于搜索（蒙特卡洛树搜索等）的说明：

基于o1生成答案的方式，我怀疑OpenAI是否使用了某种形式的推理时搜索。不过，他们很可能使用了某种形式的搜索来生成他们的合成数据（元宇宙平台公司（Meta）在其关于Llama 3的论文中也对此有所解释）。o1-pro模式则完全是另一回事了。OpenAI已经证实其底层模型是相同的，鉴于它不能流式传输，很可能使用了搜索。

关于一般的后训练（Post Training），我希望我们不要只专注于科学、技术、工程和数学（STEM）领域推理的后训练。到目前为止，我们已经确定，基于外部验证器的强化学习在o1以及最近的艾伦人工智能（Allen AI）中都有效。我希望我们能找到某种同样能改进基于人类反馈的强化学习（RLHF）但适用于更开放领域的方法。我不会排除强化学习的可能性，但对于这些领域而言，奖励应该是什么样的，我还不太清楚。希望我们能有一种在后训练对齐过程中不会过多干扰基础模型权重的方法。

Distillation

关于o1版本隐藏思维链及相关情况

隐藏思维链的目的：

OpenAI在发布o1版本时，刻意对用户隐藏了实际的思维链（CoT）内容。思维链在模型推理过程中起着关键作用，它记录着模型一步步思考、推导的逻辑链条。OpenAI这么做是担心用户获取到这些思维链输出后，会利用它们来训练其他模型，可能导致自身技术优势被他人利用，或者引发一些不可控的模型训练和应用情况，所以采取措施防止这种情况发生。

深度求索v3的相关做法及特点：

深度求索（DeepSeek）公开承认其v3版本是依据自身r1的输出进行训练的，并且通过论文展示了这样做能提升模型性能。这也就说明了OpenAI隐藏思维链的做法是有缘由的，因为确实利用相关输出进行训练是能带来好处的。而深度求索v3有个有意思的表现，它虽然能看出有基于这种输出提炼（蒸馏）的痕迹，但不像一般的推理器那样会生成很长的思维链。它仿佛具备了不同的“工作模式”，面对推理任务时，会切换到推理模式来处理；而遇到常规任务时，就以常规输出模式来给出结果，这种能根据任务类型自动切换模式的特点和常见模型有所不同。

关于模型模式切换及可解释性研究

模式切换的现象对比：
- o1模型在接到创意写作这类任务时，依旧会按照它原本的机制进入思维链阐述模式，即便创意写作可能并不太需要像数学推理那样严谨的思维链推导，它还是会呈现出相应的推理过程展示。然而，深度求索v3却不一样，它似乎内置了某种提示分类器，这个分类器能够判断输入的任务属于哪种类型，进而决定让模型进入何种模式来生成相应的输出，更像是有一个智能的“开关”，可以根据任务性质灵活调整模型的工作状态。
可解释性研究的切入点：

这种模式切换的情况是很值得深入探究的，非常适合开展机制可解释性方面的研究。比如，可以通过训练一个线性探测器的方式，让它去判断输入提示（也就是任务输入的相关信息）的性质，到底是属于推理任务相关的提示，还是常规任务的提示等。然后对比那些基于推理器提炼出来的模型和没有经过这样提炼过程的模型，看它们在面对不同性质提示时的性能表现差异。通过这样的研究，就能更深入地了解模型内部是如何判断任务、切换模式以及不同训练方式对模型性能在不同任务场景下的影响，揭开模型这一行为背后的“神秘面纱”。并且作者希望在2025年能看到更多围绕从推理器中提炼信息时实际发生情况的研究，这样有助于整个行业更好地理解和利用推理器，也希望开源社区能有更多可供提炼的推理器资源，推动更多相关研究和应用发展。

关于GPT-4o-mini和o1-mini模型的疑问

模型尺寸及性能表现特点：

GPT-4o-mini和o1-mini这两个模型的尺寸相比于它们各自的原始版本要小很多，按照常理来说，模型变小往往可能伴随着性能的大幅下降，尤其是像推理能力这种对模型复杂度有一定要求的方面。但奇怪的是，这两个模型质量下降的幅度非常小，特别是o1 - mini，它居然还能保留o1 - preview大部分的推理能力，这与通常对模型缩放的认知不太相符，显得比较特殊。

对背后原因的探究期待：

对此十分好奇，希望能尽快弄清楚背后的缘由，猜测要么是OpenAI掌握了一种不为人知的、很厉害的提炼技术，通过这种特殊技术对模型进行处理，在缩小模型规模的同时能很好地保留其关键能力；要么就是OpenAI构建了一套简洁高效且优化得很好的流程，使得模型在缩小尺寸的过程中，依然能够维持较高的性能水平，不至于出现严重的性能下滑。弄清楚这背后的原因，无论是对于理解模型优化和缩放机制，还是对于后续其他模型的开发、改进等都有着重要的借鉴意义。

Image

在过去一年左右的时间里，图像生成技术已经变得惊人地出色。与大型语言模型（LLMs）领域只有少数几个“大玩家”不同，图像生成领域似乎有许多规模较小的实验室都在推出非常强大的模型。

Architecture

今年，几乎所有最先进的图像生成模型（Flux、稳定扩散3（Stable Diffusion 3）、MidJourney和Sora）都是基于扩散Transformer构建的，于是另一个领域又陷入了Transformer硬件/软件相关的运气博弈之中。通常情况下，它们会采用某种形式的自适应归一化以及多模态离散信息转换（MM-DIT）架构。据我所知，并没有多少开源实验室真正分享它们的架构消融（相关内容），所以我所能收集到的大部分信息都来自稳定扩散3（SD3）的论文以及Flux的GitHub代码仓库。

我确实认为，我们将会看到架构变化的一个领域是文本编码器的选择方面。希望在2025年，各实验室能够彻底摒弃使用CLIP（对比语言-图像预训练）或OpenCLIP来进行文本编码，转而直接使用大型语言模型（很可能是参数规模小于80亿的那种）。

关于图像生成训练框架的现状及2025年展望

流匹配成为默认训练框架：

在图像生成领域，训练框架对于模型最终的性能和效果起着关键作用。过去存在传统的扩散/得分这类训练方法，不过如今，大多数大型实验室都倾向于选择流匹配（Flow Matching）作为默认的训练框架。这是因为稳定扩散3（SD3）团队经过大量的消融实验（通过有针对性地去除或改变模型中的某些部分，来对比分析对整体效果的影响，从而确定各部分的作用和最佳配置），得出了流匹配能够带来最佳结果的结论。其他实验室看到这样有说服力的实验验证后，也就纷纷跟进采用这一框架，使得流匹配在行业内逐渐占据了主导地位。

对2025年的预测：

推测在2025年，整个图像生成领域不太可能出现一个更具“统一理论”性质的全新事物。所谓“统一理论”，就是那种能够将现有各种不同的方法、思路等进行高度整合，形成一种通用且全面的理论框架，让整个图像生成领域都能基于此有更系统性、根本性变革的东西。与之相反，更可能出现的情况是在现有的基础上进行一些优化工作，比如优化流匹配框架自身的一些参数设置、运算流程等，让其效率更高、效果更好。同时，或许还会有性能更出色的采样器被研发出来，采样器关乎如何从模型生成的结果中选取合适的样本，好的采样器能提升最终图像生成的质量和多样性等，所以这也是一个值得关注和改进的方面。

自回归在图像生成领域的迹象及相关期待

自回归出现回归迹象：

回顾2024年末的情况，可以发现自回归（Autoregression）在图像生成领域似乎有重新受到关注、回归主流视野的迹象。自回归是一种在处理序列数据时常用的方法，简单来说，它会基于前面已经生成的数据来预测后面的数据，在图像生成里就是依据已生成的图像部分去推测后续要生成的部分。此前可能它在图像生成领域的应用没有那么突出或者被其他方法掩盖了光芒，但现在又有了复苏的态势。

对《视觉自回归建模》论文的关注及期待：

在众多自回归相关的研究中，在神经信息处理系统大会（NeurIPS）2024上获得最佳论文奖的《视觉自回归建模》（Visual Autoregressive Modelling）这篇论文。该论文所提出的方法比较简单易懂，并且从原理和应用可行性角度来看，没发现有什么阻碍它进行扩展的因素。这里的“扩展”可以理解为将其应用到更大规模的数据、更复杂的图像生成任务或者构建更大规模的模型等方面，使其发挥更大的作用、产生更广泛的影响。所以希望至少有一家大型实验室能够重视这个方向，投入资源在这个领域开展深入研究，并且最终发布一个经过充分训练、具备一定规模的应用版本，让这种有潜力的方法能够真正落地实践，推动图像生成技术进一步发展。

xAI图像生成的自回归方式及疑问

xAI图像生成的特点：

xAI在图像生成方面，从本质上看采用的是自回归的方式，不过它的具体实现形式是那种比较简单、直接的光栅扫描方式。就好比我们逐行逐列地去扫描一个图像，按照这样的顺序依据前面扫描到的内容来生成后续部分，通过这种方式逐步构建出完整的图像。

对其方法选择的疑问：

虽然从呈现出来的效果看，xAI通过这种方式生成的图像质量很不错，这是值得肯定的地方。但让人觉得遗憾的是，外界并不清楚xAI为什么会选择这样一种相对比较“朴素”的光栅扫描自回归方式来进行图像生成，其背后的考量、优势以及是否存在潜在局限等都还是个未知数，这也引发了人们对于其技术选择的好奇和进一步探究的欲望。

Multimodality

多模态并非新鲜事物。OpenAI和Anthropic很早之前就已经允许我们向它们的模型上传图像了。不过，在今年（至少是上半年），这一领域出现了更多的公开版本发布。

Visual Language Models

在推理能力成为2024年的热门话题之前，多模态占据了这一年上半年的主导地位。我们看到了视觉语言模型（Visual Language Model）的发布浪潮，比如通义千问（Qwen）和谷歌的帕利杰玛（PaliGemma）所推出的相关模型。在这方面，其架构也呈现出一种趋同的情况，即会将一个视觉Transformer（视觉转换器）连接到一个（预训练的语言模型）上，并将其用作编码器/分词器。

视觉语言模型（VLMs）的现有作用及应用情况

虽缺乏惊艳感但作用关键：

在当前人工智能领域众多模型类型中，视觉语言模型（VLMs）相对全模态模型而言，可能在创新性、令人眼前一亮的程度上稍显逊色。全模态模型往往能够融合更多类型的数据和信息进行处理，功能更具综合性和开创性，所以显得更加“耀眼”。然而，VLMs在实际应用中却有着不可忽视的重要地位，它是很多应用场景里的核心支撑力量，就像日常工作中的“老黄牛”一样，默默发挥着关键作用。在日常工作中也频繁地使用这些模型，足以证明其在实际工作中的实用性。

主要应用案例列举：
- 图像字幕方面：图像字幕是VLMs一个非常重要且应用较为广泛的场景。它的功能就是针对给定的图像，生成一段描述该图像内容的文字，比如一幅画着美丽风景的图片，VLMs可以输出像“画面中有一片湛蓝的湖泊，周围环绕着郁郁葱葱的树木，远处是连绵的山脉”这样的字幕描述。这一应用在图像检索、辅助视觉障碍者理解图像等诸多领域都有很大价值，所以说是VLMs目前最大的应用场景之一。
- 复杂文档解析方面：像提到的“ColPali”（可能是某个具体的工具、模型应用或者相关平台上的功能模块），在处理复杂文档时几乎是必不可少的。复杂文档往往包含了文字、图片、图表等多种元素，而VLMs能够帮助理解这些不同模态信息之间的关联，提取关键内容，辅助人们更好地解读文档里的含义，比如在一些科研报告、项目策划文档等场景下，它可以发挥重要作用，帮助使用者更高效地掌握文档核心信息。

对视觉语言模型（VLMs）2025年发展的展望

融入全模态模型领域：

尽管目前“传统”的视觉语言模型自身有着稳定的应用价值，但随着技术发展，预计在2025年它们会朝着新的方向演变，并不会停留在现有的状态原地踏步。未来，它们很可能会被整合到更广泛的全模态模型领域之中。全模态模型旨在打破不同模态数据（如文本、图像、音频、视频等）之间的壁垒，实现更全面、深度的融合与交互，让模型能够以一种更综合、统一的方式去处理各种复杂的输入信息。VLMs凭借其在视觉和语言处理方面的基础和优势，融入其中后可以进一步拓展其功能边界，与其他模态的信息处理能力相互协作，共同推动人工智能在更复杂任务场景下的应用发展。

对早期融合发布成果的期待：

希望能看到更多关于早期融合方面的成果发布。所谓早期融合，就是在模型训练阶段，就将视觉编码器和语言模型放在一起进行联合训练。通常情况下，视觉编码器主要负责对图像等视觉信息进行编码处理，提取特征；语言模型则侧重于对文本信息进行理解、生成等操作。把它们联合训练，可以让模型从一开始就学习到视觉和语言信息之间更紧密、内在的关联，使两者之间的协同工作更加自然和高效，有助于提升模型在处理同时涉及视觉和语言的多模态任务时的性能表现，例如在图像与文本相互关联的问答任务、图文创作等任务场景中能够给出更准确、合理的输出结果。

Omni-Modal Models

在2024年5月，OpenAI发布了一张由GPT-4o生成的图像，直到现在，这仍是我最喜欢的人工智能生成图像之一。然而，由于种种原因，它从未被完全公开发布。我预计它会在（2025年）年初发布，而且很多实验室会全力投入，致力于将它们的模型完全转变为全模态模型（即能以任何模态作为输入，也能以任何模态作为输出）。

今年第一篇真正深入探讨这一领域的论文是《变色龙》（Chameleon），它使用图像分词器和逆分词器训练了一个早期融合模型。从那以后，又有各种各样不同的架构被相继提出。

就我个人而言，与JetFormer之类的方法相比，我不太确定将非文本输出限制为离散词元这种做法到底好不好。凭直觉来看，量化（将输出限制为离散词元的过程类似一种量化操作）似乎会让模型损失不少性能，但我想这大概是训练这些模型最简单、最直接的方式了。有很多传言称，已经开始训练的Llama 4将会是早期融合的全模态模型，所以我很期待看到元宇宙平台公司（Meta）在这方面会做出怎样的决策。

Agents and Human-AI Interfaces

我其实不太乐意谈论智能体（Agents），因为我还没遇到过一个让我特别满意的“人工智能智能体”的定义。但在听到很多人都说“2025年将是智能体之年”，并且听了格雷厄姆·纽比格（Graham Neubig）的演讲之后，我觉得自己也应该写一部分关于它们的内容才算公平。就目前而言，我对智能体的定义很简单，就是任何这样一种程序/工作流程：给大型语言模型（LLM）布置一个任务以及一组可用工具，然后它能自主选择使用这些工具来完成任务。

按照这个定义，我认为我们已经非常接近一些令人眼前一亮的成果了。具体来说，我觉得到2025年底，我们能在SWE - Bench（软件工程师能力基准测试）上达到90%的验证通过率（o3模型据说能达到约70%），将这个成果转化到现实世界的任务中，模型或许（大概有50%的可能性）能够在一个较大的代码库中调试或实现某个单一功能。事实证明，模型本身确实能够完成这些任务。 Anthropic公司仅使用一个极其简单、几乎没有什么辅助架构的提示词，就实现了49%的达成率。他们还告诉我们，他们通过简单地训练克劳德（Claude）输出屏幕坐标的方式，开发出了计算机使用方面的能力。

话虽如此，我认为我们需要降低期望，即便在SWE - Bench测试中达到饱和，大型语言模型也不太可能取代开发人员，因为它们仍然会犯一些非常奇怪又简单的错误。我觉得那些涉及规划和/或研究的应用场景，由于对错误的容忍度更高，很可能会率先在实际中得到广泛应用，而不只是停留在演示软件层面（比如行程规划、主题研究等），因为在我看来，它们是检索增强生成（RAG）的增强版本——而当前的检索增强生成系统已经相当不错了。

从更高层面来看，我也不认为聊天窗口一定就是智能体的合适交互界面。实际上，除了那些真正的大型语言模型提供商（如ChatGPT、Claude等），大多数应用场景其实并不需要聊天机器人。当我想到那些在人机交互界面方面做得很出色的产品时，我会想到Cursor。它可能还没办法解决开发人员面临的很多/所有问题，但我觉得每个用过Cursor的人都会认同，它的用户体验在某些方面感觉就是恰到好处。

最后，智能体的使用成本会很高。想象一下，针对网页上的每一个操作（比如一次点击或一次滚动）都要进行一次应用程序编程接口（API）调用，这很快就会使词元数量累加起来。所以，是否会存在一种应用场景，让使用完全自主的智能体在经济上是划算的，这还有待观察。