ChatGPT 问世后,各大公司都在「大模型」上下了苦功,模型能力也成为大家最关注的话题。ChatGPT 虽直接定义了基于大模型的生成式对话机器人这个产品类型,其模型的强大也导致大家都忽略了它在产品使用上的问题。
其实不管是底层模型开发的大厂还是专注于应用层的小厂,又或者是开源的独立开发者,都在模型能力之外的产品体验上暗自较劲,以不同的姿态参与到这场能够定义新的人机交互方式的对话革命中来。
那除了模型,他们还在「卷」些什么?
大厂:专注模型,体验略显「简陋」,主打一个 less is more
ChatGPT:三件套框架定义极简
ChatGPT 作为行业标杆,直接定义了生成式对话机器人行业标准。免费版本的 ChatGPT 早期只有对话、对话管理以及简单的主题设置功能,靠着模型能力席卷全球。随着用户的增多和抱怨,ChatGPT 的产品经理也坐不住了开始逐步增加一些功能。
最令人深刻的当属 Upgrade to Plus,牢牢霸占左下角的设置页,一眼望过去只有两个字,「充钱」。除此之外,ChatGPT 也逐步增加了主题设置、隐私管理等功能,但仍然突出一个克制,颇有小龙哥真传。
付费版 ChatGPT 主要的区别在于增加了模型切换的按钮,以及在设置中增加了 Beta Features 的功能,可以使用联网搜索功能 Browsing 或者使用其他插件。
Bard & Bing:非差异化竞争
三巨头的剩下两家 Google Bard 以及 Bing Chat 也都各有各自的风格,但总体上还是维持着极简风。
Bard 的功能设计逻辑与 ChatGPT 几乎一致:对话功能为主,融合必要的对话管理、账户管理以及界面设置功能。作为搜索大拿,Bard 在对话的基础上也引入了搜索的功能,能够自然地根据问题引入搜索,并呈现融合处理过的结果,体验上更加 up to date。对于天气、实时信息的查询都表现良好。
大模型在生成答案时会有多个答案并且有相应的权重,Bard 的「查看其他答案」功能给用户提供了更多选择,当我询问北京市天气的时候,它甚至给出了文字版本、表格版本和极简版本,非常惊艳。
值得一提的是,Bard 的回答生成在交互方面是一次性生成而非打字机模式(文字一个一个出现,有打字机效果,参考 ChatGPT),缺乏了生成过程,体验上感觉不够丝滑。
与 ChatGPT 和 Google Bard 不同的是,Bing Chat 的定位是基于搜索的,它的工作原理是从输入中总结搜索关键词进行搜索,然后对搜索结果进行总结。每一条回复都会引用相应的来源,这同时导致它在创造力方面更缺乏,但是来源可考、保证了准确性。
Bing 同样也是极简风,整体的产品界面设计与其他两家区别不大,但色彩上明显更活泼一些。功能上最开始甚至连对话管理的功能都没有,聊完了您就清空,不留下一丝痕迹。后来才增加「最近活动」的功能,用户能够看到自己最近的对话。
Bing 唯一的特点在于设定了三种对话样式:更有创造力、更平衡、更精确,能够根据此参数确定模型是更精确还是更有创造性,这与 GPT 模型中的高级参数 Temperature 是对应的。然而因为无法同时对比几个模式,在使用体验上用户很难感受到差别,即使是更有创造力的选项,受限于 Bing 更偏向搜索的定位,搜出的结果依旧缺乏创造力。
对比下来,三巨头比拼的主要还是模型能力,目前 ChatGPT 还是比较领先;Bard 比较好地融合了搜索和生成两种模式,体验上是更优秀一些,Bing 则缺乏使用上的亮点,但靠着一句 GPT-4 模型就足以吸引大部分用户。
中小厂:深耕体验,能力之上体验狂卷
不同于大厂卷模型能力,中小厂和个人开发者们更多将注意力放在了模型层上的应用层,依托各家大厂的底层模型能力,在功能和体验方面卷的飞起。
Perplexity:基于搜索的 AI 对话产品该怎么做
首先要说的就是
Perplexity,一家对话式的搜索引擎,体验上可以说是完爆 Google Bard 和 Bing Chat。Perplexity 翻译为「困惑度」,是人工智能领域用来描述语言模型效果的一个常用指标,模型困惑度越小,说明模型越强大。Perplexity 是一家只有 14 个员工的小型跨学科团队,但在产品力上可以说是完爆大厂,堪称 more is more 的典范。
在基本的 ChatGPT 式对话架构三件套基础上,Perplexity 融合了垂直领域搜索(学术、YouTube、Reddit、Wolfram 等)、搜索历史、搜索热榜、以及 Copilot(类似 AutoGPT)等功能。UI 设计采用了传统的搜索布局,对话框在屏幕偏上方,而非对话类框架输入框在下方的模式,让人一眼就知道,这个产品是更「搜索」的产品。
从这点上来说,Perplexity 比 Google 和 Bing 更加突出了自己的搜索定位,旗帜鲜明、定位清晰。产品的逻辑则与 Bing 类似,是对搜索结果的总结(summerize),通过多次使用感觉对文献的引用更加全面,比 Bing 更加具有创造性一些。在多轮对话当中,Perplexity 还增加了相关话题,预测了根据答案你可能会有的其他疑问,顺利的话只需要问一次,剩下的问题靠点击就可以解决了,体验上很顺畅。
Poe:「美国知乎」的缝合怪
Poe 是「美国知乎」Quora 推出的官方 AI 聊天应用,接入了 GPT-3.5、GPT-4、Claude、Midjourney 等多种 AI 服务,是目前最官方的「AI 缝合怪」。
其最大的营销点:可以免费使用 GPT-4 和 Claude Instant,然而点进去你就会发现 GPT-4 每天只能用 1 次、每个月可以使用 30 次,只能说是聊胜于无吧。另外除了缝合之外,其单个服务的产品体验非常简陋,几乎只有对话功能,长期使用体验较差。
其官方的 AI 对话助手 Sage 在使用体验上没有什么独特之处,应该也是用了 GPT-3.5 之类的模型。
Forefront:ChatGPT 最佳代替品
免费 GPT-4 几乎是所有套壳应用最有效的宣传方式,只要你有这个功能,哪怕是每天只能用 1 次,你都能骗来一大波流量(鞭尸 Poe)。
而
Forefront 几乎做到了 GPT-4 的全免费。它来自一个 GitHub 项目,通过逆向工程 Poe、Bing 等使用了 GPT-4 的大厂,为普通网友提供免费的 GPT-4 连接,在 GitHub 上狂砍 3.7 万星标,几乎是最近增长最快的项目。
Forefront 内置了丰富的人格预设,能够满足用户多样化的使用需求。人格化预设来自一个经典的 prompt 技巧:让 ChatGPT 扮演某一种角色,这样它的回答能够更加准确。Forefront 可以一键选择超多人格,达芬奇、乔布斯、软件开发工程师等,提供了丰富的场景模板,编程帮助、创意写作、学术研究等场景都可以满足。
套壳应用:细节爆炸,深度玩家福音
说完了官方主力军们,接下来介绍一下依托于官方 API 的各种套壳产品。它们主要是在模型能力上对前端交互进行优化并增加了一些辅助功能,用户可以将自己的 API 填入并使用。
这类产品更适合深度体验者以及当成生产力工具,能够定制化的细节非常多。
ChatBox:多平台客户端之王
ChatBox 是目前最成熟的多平台 AI 聊天客户端,用户可以自主可以接入 ChatGPT、Azure ChatGPT 服务、Claude API 等,在 GitHub 上获得了 11.7 万星标,横扫客户端界。对于对客户端有执念的用户,它也是 Windows 上最好的选择。
ChatBox 的架构也是基于 ChatGPT 的三段式架构,但每个部分都增加了更多功能,满足多样化的效率使用体验。它在对话管理功能中还设置了多种预设 pormpts,包括软件开发、私人助理、夸夸机等模式。
在设置中,ChatBox 也支持高级参数和更详细地信息显示:首先可以自定义 temperature 参数,调整模型答案的随机性、创造性;同时可以显示 API 的 token 用量,可输入输出的 token 数量估计,以及调整文字大小、默认语言等功能。用下来应该算是 Windows 上用起来体验最好的客户端。
MacGPT:如果只能有一款 GPT 客户端,那就是 MacGPT
至于为什么 ChatBox 只能是 Windows 最好用的桌面客户端,因为 Mac 平台上有更卷的产品:
MacGPT。
得益于 Mac 系统的特点,MacGPT 支持 5 种模式:Web、API、任务栏模式、全局呼出以及 Intext。任何场景都能够满足需求。
Web 模式相当于一个简版浏览器窗口,整个使用体验与 ChatGPT 一致;API 模式体验与 ChatBox 类似,相当于一个本地的 Mac 客户端;任务栏模式可以支持从任务栏唤醒并且随时开启对话,依托于任务栏可以保证在任何场景下都可以快速启动 ChatGPT,非常高效;全局呼出模式则支持通过热键呼出置顶的对话栏并立刻展开对话,用过
Alfred 应该都能明白这种体验是多么流畅。
Intext 模式更是 amazing,简直是文字工作者的大杀器。当你在任何文本输入的环境(备忘录、Word 等)中打出 /gpt
,随后的内容就会被作为 ChatGPT 的输入,并且直接在当前文本环境中生成回答,完全无需切换应用就能使用 ChatGPT 进行问答,并且直接插入到文档中,简直就是 Notion AI 的全局版本,必须吹爆。
ChatGPT-Next:每个人的云服务 AI 助手
如果一定要选一个 Web 端 ChatGPT 的套壳客户端,那我愿称
ChatGPT-Next 是个人助理之王。
它的作者不仅开发了这个 Web 端应用,还开发了一键部署到 Vercel(前端托管服务器)的功能。也就是说只需一个 API key 和几次单击,每个人都能拥有自己的专属 ChatGPT 客户端,自用、团队用或者作为服务提供给其他人,都像呼吸一样简单。
笔者成功将自己部署的客户端发给了爸妈和姥姥,给他们带去了一点小小的 AI 震撼,姥姥甚至高兴地给我做了一大碗红烧肉。
产品功能方面 ChatGPT-Next 也是集大成者,预设了 20 种人格和应用场景,且支持自定义;高级参数方面,模型选择 model、随机性 tempeture、单次回复限制 max tokens 以及话题新鲜度 presence penalty,都可以根据需求场景精准调节。同时对话管理中的历史消息长度压缩也堪称王炸级别功能,能够在上下文数量达到一定的 token 时对上下文进行总结,并清除之前的记忆,有效减少 token 占用,让对话更持久。最后其界面也是所有 app 中可自定义程度最高的,字体、语音、发送预览、紧凑边框,全部可以自定义。
论套壳类产品在功能丰富度和自定义程度方面,ChatGPT-Next 是各个方向中最强的,长期使用下来感受最好,使用 API 的速度也会比各种服务的官方速度更快,是生产力玩家的首选。
国内大厂:生态迅速接入,创业公司更快一步
钉钉、飞书、微信作为国内的三大办公 IM 巨头,截至目前都已经有了非官方的开源 AI 机器人接入。国内某创业公司通过开源社区的马拉松项目,开发了基于钉钉、飞书的 AI 对话机器人矩阵,融合多模态(ChatGPT、DALL·E + Whisper、Midjourney)、图片创作、表格分析、文档导出、多话题讨论、公式计算等等功能全部可以实现。甚至连 API 也是免费提供的,真正实现了赋能业务,让国内打工人成为第一批无缝使用 AI 的选手。
在 ToB 功能方面,国内创业公司应该是走在了世界前列,已经完成了产品化的开发,并且可以根据企业情况快速部署,依托 IM 实现办公的 AI 提效。一键快速部署、企业级的AI权限管理、用户导入导出使用记录、风险词拦截等,让企业用户顺畅使用。
微信也有相应的开源机器人,但由于微信平台本身的限制,微信机器人的功能就限制较强了,基本也就是官方的功能移植到了微信对话框中。
据悉美团内部也在进行对话机器人的接入,帮助员工提升工作效率。其小美助手内置了多个量身定制的场景和 prompts,帮助员工能够快速上手。整体体验上与 ChatGPT 无异。
国内其他模型大厂的官方客户端整体都还在狂卷模型能以赶上 GPT-3 的水平,目前也都还处在遮遮掩掩的状态,想要获得体验资格的难度比成熟产品要高的多,因此暂且不做评论,但应该可以确认不会有更令人惊喜的功能。
ChatGPT:App Store 登顶,移动 AI 时代到来
最后聊聊 ChatGPT 本尊。
5 月 18 日,ChatGPT 上线了 App Store 并迅速登顶 iOS 下载榜第一名。移动端的 ChatGPT 也是突出一个简洁,但整体交互看得出来下了一些功夫:常规对话界面加入了回复的震动反馈,感觉到对面的 AI 真的在打字,体验爆棚;同时左滑交互可以呼出对话管理功能,右滑交互能够新开对话,逻辑清晰;整体使用的流畅程度也非常优秀,比 Web 端的体验好很多。
然而目前手机端的应用场景非常有限,周围的人也大多将其当成 wiki 问答来用,没有插件和联网的加持,移动端目前并没有太多应用场景,而生产力场景 Web 端效率更高,协作也更加流畅——毕竟我不能上班的时候一直扣手机吧。
但 iOS 客户端解决了 ChatGPT 充值 plus 难的痛点,可以通过 App Store 直接订阅,让不少用户终于能够方便地用上 GPT-4。
移动端的潜力当然是巨大的,现在 ChatGPT 刚刚下场,但其战略上的「我全都要」是可以窥探到的。在前有 Poe、Snapchat 移动端的情况下,ChatGPT 无疑让移动端的竞争格局一下子不同了起来,未来会发展成什么样子我们拭目以待。
小结
ChatGPT 带来的 AI 变革将深刻改变社会的发展方向,现在是混沌的乱斗局面,大家都卯着劲想做出点什么。但模型又不是普通人能做的,所以出现了更多以场景应用为主的产品,也给创业者和开发者们提供了许多 AI 应用的思路。
另外本土化是另一个重要的课题,国内大厂在进度上明显落后,但应用层已经先行并且有了很多好用的产品,这将来也会是竞争最激烈同时机会最多的地方。乘上这波 AI 的大浪吧,不妨做一头飞起来的猪。