互联网电商行业点评报告：谷歌发布史上最大「通才」模型PaLM-E，参数达ChatGPT三倍-天天热闻

(相关资料图)

投资要点

事件：

3月6日，RoboticsatGoogle、柏林工业大学和GoogleResearch团队联合发布了PaLM-E，其参数量高达5620亿。作为一种多模态视觉语言模型（VLM），它集成了控制机器人视觉和语言的能力，可以直接将现实世界的连续传感器模式纳入已经预训练好的LLM中，在单词和感知（wordsandpercepts）之间建立联系，从而用于连续的机器人操作规划、视觉问题回答和字幕生成等多项具身任务中。与ChatGPT相比，它新增了视觉功能。此外，谷歌称该模型还具备一定弹性，能够对周边环境作出适应性反应，应对可能出现的意外状况。

点评：AI大厂的对战处于白热化阶段，有利于推动技术快速发展，并拓展包括IOT等多元化应用领域，行业景气度进一步提升。

1、AI对战从语言模型扩展到多模态乃至通才。PaLM-E借鉴了谷歌之前在VIT-22B上的工作，后者是谷歌在上月公布的一款视觉语言模型，已经在各种视觉任务上进行了训练，例如图像分类、目标检测、语义分割和图像字幕等。同时，微软也在“图像+语言模型”的路径上积极布局：在今年2月底发表的研究中，微软展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例；微软最近发布的“ChatGPTforRobotics”论文，就尝试以类似于谷歌PaLM-E的方式将视觉数据和大型语言模型结合起来，对机器人进行控制。

2、模型的规模竞赛仍在继续。作为史上最大的“通才”模型，PaLM-E的参数（5620亿）是ChatGPT参数量（1750亿）的三倍有余。语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强，拥有5620亿参数的PaLM-E几乎保持了它所有的语言能力。得益于PaLM-E的大语言模型核心，谷歌研究人员观察到，其表现出了“正迁移”能力，意味着它能把一项任务中学到的知识和技能迁移至另一项任务，而且与单任务机器人模型相比具有“明显更高的性能水平”。

3、强悍的语言能力是核心。工作原理上，PaLM-E是一个仅有解码器的大型语言模型（LLM），在给定前缀（prefix）或提示（prompt）下，能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。由于PaLM-E是基于语言模型，所以它会连续观察图像或传感器数据，并将其编码成与语言符号大小相同的向量序列，这使得模型能够以处理语言的相同方式“理解”感觉信息，为PaLM-E扩展更多应用场景打下坚实基础。

风险提示

监管风险；技术发展不及预期风险；版权风险。

标签：