【AI学习】聊两句昨夜OpenAI的GPT-4o

蹭个热点，聊两句昨夜的大事件——OpenAI发布GPT-4o，我看到和想到的一点东西。

首先是端到端方法，前面关于深度学习的文章，对端到端的重要性做了一些学习，对端到端这个概念有了一些理解。正如Richard Sutton在《苦涩的教训》中的经典判断，再次重温一遍，“The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.（从70年的人工智能研究中可以学到的最大教训是，利用计算的通用方法最终是最有效的，而且在很大程度上是有效的）。”

引用一段话，来看这次OpenAI的端到端改进:

”根据OpenAI发布在官网的最新博客文章显示，在GPT-4o之前，我们使用语音模式与ChatGPT对话，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为了实现这一点，语音模式是由三个独立的模型组成的流水线：一个简单的模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单的模型将该文本再转换回音频。这个过程意味着主要的智能来源，GPT-4，丢失了很多信息，它不能直接观察语调、多个说话者或背景噪音，也不能输出笑声、歌唱或表达情感。

GPT-4o，是单独训练的新模型，可以端到端地处理文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。”

这里必然有一些新的token化的技术来完成多模态的统一，但是OpenAI之前就有Whisper的技术积累，应该不是困难事。

我在想，这种端到端的技术，肯定会带来一些新的好处，比如模型性能和处理速度的提升。最近在读一些有关大脑的书籍，人类做决策，不是单纯的逻辑推理，同时也依靠情绪，假如大脑中有关情绪感知的部位受损，那人就将变得犹豫不决而丧失决策能力。过去语音转化为文字丢失了很多情感信息，GPT-4o的端到端训练，是否就可能在模型中产生了类似人脑的情绪网络，从而大大提升决策处理速度的提升。情感能力，不仅是技术应用的需要，也是技术本身的需要。

当然，最困难的不是技术，而是产品能力，能够把这些显而易见的技术打造为亮眼的产品。

在这里插入图片描述

其次，解决了图片中生成文字的问题，这个真的好难。
先说个笑话，之前，有知名公众号的文章，使用这样一个文生图的提示: “这幅插画描绘了一颗由半透明玻璃制成的心，矗立在惊涛骇浪中的基座上，一缕阳光穿透云层，照亮了心脏，揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字‘Find the universe with you ’”。然后，我也用这个提示尝试了一下，生成的图片与这个公众号的图片基本一致，就是图片中缺了那行醒目的文字。后来我才知道，在图片中生成文字技术上非常困难。试想一下，如果能够严格遵循文字的指令生成图片，一定需要模型能够对文字和图片进行深层次的语义理解，然后在语义层面彻底打通文字的语义和图片的语义，这是更高层次的统一。所以说，OpenAI解决了图片的文字生成问题，语义通信这件事就更加触手可及了！

另外，利用几张图像进行3D重建，这个功能好强大，感觉在很多简单应用已经可以替代SLAM、NeRF等，接下来，多模态技术的进一步发展，原来的热门技术需要重新思考对待了。

最亮眼的还是应用，OpenAI马上就要占领超级接口了吧。
在这里插入图片描述