谷歌发布了一款被誉为史上“最强大脑”的人工智能模型PaLM-E (Parameter-efficient Language Model with Explicit Memory),该模型能够从海量的语言数据中学习到更加精准和智能的语言处理能力PaLM-E的出现意味着机器人可以成为更多面手,更加有利于各种行业的应用。
作为一种多模态具身视觉语言模型,PaLM-E能够将视觉和语言集成到机器人控制中,无需重新训练即可执行各种任务。PaLM-E采用PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,最终参数量高达5620亿,比GPT-3的参数量(1750亿)还要大,是目前为止人类开发的最大规模VLM之一。在设计中,PaLM-E考虑了一些先前模型所忽略的关键因素,例如时间序列模块、层规范化和内存注意力机制等。
根据谷歌的说法,当给出一个高级命令时,比如“把抽屉里的薯片拿给我”,PaLM-E模型可以引导机器人从厨房取薯片袋,而且,通过将PaLM-E集成到控制回路中,它可以抵抗任务期间可能发生的中断。在一个视频示例中,研究人员从机器人手中抓取薯片并移动它们,但机器人找到薯片并再次抓取它们。
通过单个图像提示训练,PaLM-E展现了前所未有的灵活性和适应性,在人机交互领域实现了一次重大飞跃。它不仅可以指导机器人完成各种复杂任务,还能够生成对图像进行描述的语言,这使得它成为一种非常有用的工具。除此之外,PaLM-E的另一个显著优势在于其卓越的正向传递能力。PaLM-E在不同的领域的训练都表现突出,相比于单一任务机器人模型,PaLM-E的性能明显提高。
随着最新的人工智能模型PaLM-E的出现,加上数字广告业务的回升,谷歌的盈利势头有望回升。一旦逆境消失,谷歌将取得长期稳定的增长,带来显著的复苏。因此,谷歌的股票也将受益于这种趋势。
PaLM-E的推出,进一步显示出谷歌对人工智能领域的看重与探索。在机器人领域,谷歌通过高效的机器学习技术,加深了机器人对人类语言和声音的理解,有效提高了机器人智能的全方位认知。同时,机器人在生产、医疗、物流等多个领域的应用也在不断拓展,展现了人工智能在人们生产生活中的潜力与实用价值。
在未来,人工智能模型PaLM-E的进一步发展将会为机器人行业带来更多的想象空间和应用场景,让机器人成为一个真正的多面手,为我们的日常生产和生活提供更多的便利和帮助。