每日观点：全球智能机器人时代前瞻

ChatGPT迭代速度超出市场预期，多模态大语言模型在垂直领域应用引起广泛关注，我们研究其在机器人应用落地的可行性，认为多模态语言模型应用是机器人真正具有类人感知的一大基础，我们看好长期产业趋势。

摘要

谷歌PaLM-E模型推出，多模态语言模型走向机器人应用。AI与机器人发展相互独立，随2006年深度学习出现，AI开始落地机器人应用。早期AI+机器人主要集中于计算机视觉与语义分析两大应用。直到2017年Transformer模型推出后，多模态大模型飞速发展，机器人应用逐渐向情感交流、多维数据交互发展。2023年3月，谷歌推出全球最大视觉语言模型PaLM-E，实现机器人视觉与文字的同步训练；同期，微软发布论文尝试将CHATGPT接入机器人训练，引起行业广泛关注。我们认为多模态应用于机器人有助于降低机器人编程成本、提升人机交互能力、生动化应用场景，或是技术大势所趋。

(资料图片)

► 场景要素：适当容错率与数据非私有化格外重要。我们总结多模态大语言模型应用在机器人场景需要四大要素：其中，工艺不涉及商业机密、容错率偏高是必要条件；另外，编程标准化程度高、一次性初始化编程是可选条件。我们认为To C端应用是理想场景，例如家庭陪伴服务机器人、送餐快递机器人；此外，移动机器人、食品鞋服等行业搬运机器人、售后运维环节机器人应用有望在工业场景率先落地。

► 落地难点：合理权衡商业机密与编程效率间的关系。编程效率的提高意味着数据要尽可能开源、生产工艺要尽可能标准化、人工反馈环节要尽可能减少，但这恰好意味着商业机密要公开、市场竞争规律被抹平。我们认为编程效率与机密伦理的权衡对于多模态大语言模型大规模推广至关重要。此外大模型天然具有可信度、时效性、训练成本高等问题，大模型或在部分应用场景落地率先到来。

► 格局冲击：固有格局较难打破。我们认为在企业间商业数据不完全打通背景下，数据要素是核心竞争力，固有格局较难打破；在商业数据打通背景下，机器人本体企业的核心竞争力更多体现为控制能力与硬件制造能力，即如何让运动变得更加高速、精准。

我们看好大语言模型应用长期落地的趋势，认为具有自主软件训练能力的机器人企业有望核心受益。

风险

CHATGPT技术迭代速度慢于预期、机器人零部件自主化进度不及预期。

催化频频，多模态语言模型加速走向机器人

发展契机频现，多模态大模型赋能机器人。2023年3月，谷歌的PaLM-E模型实现了多模态大语言模型在机器人场景训练方面的落地，引发广泛关注；同期，微软发表论文《ChatGPT for Robotics: Design Principles and Model Abilities》，提出利用ChatGPT操控机器人的基本思路；4月7日，阿里云大语言模型开放对公众测试，为国内垂直领域尝试提供可能。

从海内外尝试来看，“多模态语言大模型+机器人”近期主要用于情感交互及场景拓展训练。海外市场，谷歌公司开发了PaLM-E大模型，其在机器人多场景训练方面具有良好表现；此外，伯克利联手谷歌依据GPT-3开发出了基于语义控制的自主导航机器人。国内市场，优必选充分发挥多模态语言大模型在自然语言理解上的优势，在情感交互方面实现了诸多应用。

海外试水：LM-Nav语义导航成功落地，PaLM-E指导场景型训练

【谷歌】PaLM-E实现机器人场景训练

美西时间3月6日，来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型PaLM-E。PaLM-E为训练多模态机械手提供了一种新的模型模式，其通过将机器人任务和视觉语言任务融合实现训练。我们认为，谷歌的例子充分显示了多模态语言大模型在机器人多数据源多场景融合上的可行性。

图表1：PaLM-E模型指导机器人机械手完成多任务问题

资料来源：Google官网，《PaLM-E: An Embodied Multimodal Language Model》（Danny Driess等，2023），中金公司研究部

PaLM-E模型在视觉和语言领域都实现了显著正向知识迁移。据谷歌试验结果，PaLM-E模型在同时进行多任务、多数据训练过程中，表现出更优的准确度，正向的知识迁移提高了机器人学习的有效性。但我们认为，PaLM-E模型主要还是以文本为输出结果，在输出编码能力方面技术仍在进步。

图表2：PaLM-E具备良好的正向迁移能力

资料来源：Google官网，《PaLM-E: An Embodied Multimodal Language Model》（Danny Driess等，2023），中金公司研究部

【伯克利】LM-Nav打开大模型导航应用先驱

UC Berkeley联合谷歌机器人团队2022年6月开发了基于语言视觉动作预训练大模型的LM-Nav，LM-Nav助力利用自然语言训练的智能导航机器人落地。LM-Nav基于GPT-3通过自我监督训练的目标条件策略，训练机器人从大型的、未标记的数据集中进行基于视觉的导航学习，可在大规模试验中表现出良好的可扩展性。

图表3：LM-Nav基于GPT-3实现机器人语义导航

资料来源：《Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action》（UC Berkeley等，2023），中金公司研究部

国内试水：优必选试水，强化情感交互优势初显

多模态强化情感交互优势初显。多模态语言大模型的核心本质是依靠与自然语言的上下文关系进行训练，因此并不擅长处理工业场景中数理公式所表达的场景问题。但在服务端，还有一类专注人机交互、情感变化、语言对话的机器人，即以优必选等为代表的专注人机交互企业开发的人形机器人。在国内市场，优必选充分利用多模态语言大模型的优势，在深化机器人情感语言交互方面做出诸多尝试。

图表4：机器人在服务场景下的人机交互领域的应用

资料来源：优必选官网，中金公司研究部

公司提出了语音预训练、图文语音转化预训练大模型。优必选是一家集人工智能和人形机器人研发、平台软件开发运用及产品销售为一体的全球性高科技创新企业。作为人工智能（AI）赋能机器人的引航企业，公司开始着手训练面向具体机器人场景的语言任务、数字孪生、机器视觉等，并提出了语音预训练大模型、图文语音转化预训练大模型：

图表5：优必选结合多模态语言大模型尝试的应用场景

资料来源：优必选官网，中金公司研究部

► 语音预训练大模型在训练机器人模仿人语音语调的过程中发挥重要作用。人类可通过不停的模仿与观察，拥有模仿他人语气语调说话的能力，而预训练大模型就是通过上下文之间的关联性来实现强大的模仿与泛化能力，公司在语音训练方面实现了机器人运用大模型进行多种语调风格的训练，如广播风格，讲故事风格，演讲风格等。

► 图文转换预训练大模型是训练机器人的图文转换的能力。机器人图文转化正是其模仿人看图说话、看画绘图的能力。公司希望未来能够和诸多平台联手，在盘古、悟道等重要大模型上实现面向机器人的多模态语言大模型的搭建。

公司提出融合视频、文本、语音的多模态大模型的虚拟人融合技术。为了实现机器人与人交互的合理性与真实性，公司利用预训练大模型建立起相应的技术能力，利用多模态融合的方法，对视频、文本、语音的预训练大模型加以融合，从而可以实现综合性的情感识别，最终形成具有良好真实性的语音说话头虚拟人。

图表6：优必选融合视频文本语音的多模态大模型训练虚拟人合成技术

资料来源：优必选官网，中金公司研究部

多模态是AI的重要组成，推动机器人智能发展

AI技术：赋能机器人视觉感知与语义分析

AI技术位于第三次浪潮阶段。1990年代末期，AI技术共经历了三次浪潮，1956至1960年为AI技术的第一次上升期，1960至1970年代符号学派逐渐走向低谷；此后，仿生学派引领AI技术的第二次上升浪潮，专家系统和BP算法得到飞速发展，研发更加重视具体应用的实现；2006年深度算法的提出开启第三次浪潮，AI技术迅速发展，并逐步在机器翻译、人脸识别、无人驾驶、智能家居、机器人等更广阔的全场景实现应用落地。

图表7：AI发展历程

资料来源：《人工智能综述：AI的发展》（崔雍浩，商聪等，2023），中金公司研究部

AI与机器人是相对独立的学科。由于AI领域和机器人领域均涉及到模拟人的行为，二者的概念常被混淆，但实际上，我们认为AI和机器人是较为独立的两个学科。张钹（2021）在《人工智能视角下的机器人研究与发展》中指出，AI是以实现模拟人类智能行为为目的的智能体（intelligent agent），机器人则是面向任务、面向应用的机器，模拟人类行为只是机器人达成任务的手段之一。

深度学习的提出促进AI技术在机器人场景的渗透。现代机器人的研究始于20世纪中期，1960年代，首个融合AI的机器人Shakey诞生，但由于计算机运算速度非常缓慢，Shakey需要数小时的时间来感知和分析环境以规划路径；随着传感和智能技术的发展，1980年代开始进入智能机器人研究阶段，但仍未大规模应用AI技术；2010年以后，深度学习算法在语音和视觉识别上迎来较大突破，加之算力的提升，语音和视觉识别相关的AI技术开始快速在机器人中落地应用。

图表8：结合AI技术的机器人发展历程

资料来源：《机器视觉发展白皮书（2021版）》（机器视觉产业联盟CMVU），高工机器人公众号，中金公司研究部

从机器人系统层级来看，AI主要应用在机器人感知和决策层。从机器人感知、决策、执行三部分来看，AI技术目前主要运用在机器人的感知领域和部分辅助决策领域。

► 感知领域：运用在机器人身上的AI技术以CV（计算机视觉）和NLP（自然语言处理）为主，例如工业机器人在工业相机和AI物体检测算法下进行分拣、移动机器人在传感器和算法加持下实现定位导航、服务机器人在语音识别的AI技术下和客户交流。

► 决策领域：AI技术主要渗透进智能调度算法等应用。机器人传统的运动控制和运动规划算法在数学上可靠性更强，RL（强化学习）虽为机器人方向的研究热点，但在工业环境下仍处于探索阶段，目前未形成对传统运动控制算法形成替代的趋势，因此下文主要讲述感知领域的机器人AI技术发展。

图表9：应用在机器人上的传统机器人技术和AI技术

资料来源：优必选官网，中金公司研究部

应用一：CV。计算机视觉提升机器人定位和识别精度与效率，应用向3D视觉演进。近年，机器人厂商利用深度学习、语义分割和场景理解来提高低端相机的深度和图像识别精度与效率，不仅可实现惯性导航、SLAM导航等定位应用，还能在上下料、分拣等工业领域实现目标识别、测量、检测等功能。随着2D视觉向3D视觉演进，需要研发处理非结构化三位点云的神经网络，实现机器人对三维场景的而精细化理解，目前机器人3D视觉的深度学习应用案例层出不穷，但市场在三维视觉的准确性、导航部署快速性方面仍存在瓶颈。

图表10：机器人的机器视觉深度学习案例

资料来源：机器之心微信公众号，中金公司研究部

图表11：机器人的3D视觉深度学习案例

资料来源：机器之心微信公众号，中金公司研究部

应用二：NLP。机器人语义信息获取与对话系统加速发展。最早的语言模型出现于上世纪60年代的基于规则系统的语义分析模型；2000-2014年，语言模型基于模块和统计方法发展，2011年Siri的出现完成了语义方面的突破；2015年开始，市场开始基于神经网络研发对话模型和产品，预训练模型在2015年被提出，但在2018年左右才发生重大进展，后续T5、GPT-3、盘古等预训练语言模型依次开花结果，语言模型向更大规模化、更多模态化高速发展。NLP在机器人中的应用主要在于语义分析和对话系统两方面：

► 语义分析：机器人首先感知场景中的信息，再通过近些年兴起的多模态语言大模型等转化为物体的语义信息，进一步指导指令执行或自编程。

► 对话系统：对话系统的典型应用为服务机器人，随着语言模型的升级，机器人的对话系统将有望达到更高的拟人化程度，具备更先进的表达能力和交互性。

图表12：近年来大语言模型发展历程

注：图中标黄模型为开源大语言模型

资料来源：《A Survey of Large Language Models》（Wayne Xin Zhao等，2023），中金公司研究部

AI技术在机器人领域的商业落地主要通过软件平台直销方式。CV技术方面，例如，海康机器人自主开发VM机器视觉算法平台，可以对客户直接销售，客户借助该平台可快速搭建工业机器人的视觉定位、尺寸测量、缺陷检测等算法。NLP技术方面，例如，百度开发的对话系统定制平台UNIT，以和机器人客户托管研发、合作研发或提供技术支持的形式销售解决方案。

多模态大模型：加速催化机器人感知与情感表达落地

多模态大模型是多模态和大模型的融合，是AI技术的分支之一。多模态是指结合了视觉、文本、语音等多种现实世界中的信号；大模型是指用深度学习等技术构建的包含大参数量的神经网络模型，近年多模态大语言模型成为大模型发展最快的分类之一。

多模态大模型的发展面临五大技术挑战。据《Multimodal Machine Learning: A Survey and Taxonomy》（T. Baltrušaitis et al., 2017），多模态数据具有异质性，且模态之间的关系通常是较为主观的，因此模型面对五大挑战：1）表征：挖掘模态的互补和冗余来表征多模态数据；2）翻译：从一种模态映射到另一种模态；3）对齐：对齐多模态的子元素；4）融合：将多种模态信息结合起来进行预测；5）共同学习：不同模态的预测模型之间进行知识转移、协同训练。

图表13：多模态机器学习不同应用的核心挑战

资料来源：《Multimodal Machine Learning: A Survey and Taxonomy》（Tadas Baltrušaitis等，2017），中金公司研究部

2017年Transformer模型推出后，多模态大模型飞速发展。多模态的概念最早应用在上世纪的视听语音识别，2000年初常见应用为互联网以文本搜索图片等跨模态检索，后续研究拓展至通过分析视觉和语言信息进行情感识别、图像描述等方向。2017年，《Attention Is All You Need》一文首次提出Transformer模型，该模型推动多模态预训练模型飞速发展，具体呈现以下特点：

► 多以视觉语言模型为主，模态较为单一。近年来推出的Flamingo、BLIP-2、Kosmos-1等模型大多以图文对形式进行联合训练，在大语言模型之上实现视觉和文字等多模态输入、通用语言单一模态输出。Visual ChatGPT则可以在多模态输入的基础上实现通视觉的生成，但其实现方式仅仅为通过ChatGPT将自然语言描述的指令转换为机器可理解的视觉指令，缺少统一的模型训练。

► 范式多为在预训练模型中引入Prompt或Adapter来实现多模态，仅需调整个别参数以降低成本。传统大模型往往采用预训练模型和微调的范式，但对于多模态预训练模型而言，对整个模型微调的成本更大，多模态的表征也更易被破坏，因此往往采用以下范式：1）引入Prompty以指导下游任务，其他大模型部分固定，只需训练该指令。例如，Visual ChatGPT引入Prompt管理器。2）嵌入Adapter将输入的内容转化为预训练模型本身更能理解的方式，训练时只需调整Adapter。例如，Flamingo通过加入门控机制的Adapter模块将视觉信息置入语言模型中，利用原语言模型的知识来进行推理。

► 缺乏对图文对话指令的微调，与人类的对齐性较弱。卢志武教授在《ChatGPT对多模态通用生成模型的重要启发》的演讲中指出，当前的多模态大模型普遍没有考虑与人类意图对齐，这会导致模型生成很多有害的信息，例如生成缺少逻辑的文段。

► 由多模态预训练模型逐渐转变为多模态通用生成模型，多模态模型的最终目的为通过建立一个大模型实现通用功能。

我们认为目前大语言模型的积淀较为充足，基于大语言模型的多模态预训练模型或将率先落地，集合更多模态的通用多模态模型技术突破有待进一步观察。

图表14：多模态大模型发展情况

资料来源：机器之心微信公众号，中金公司研究部

图表15：Visual ChatGPT模型示意图

资料来源：《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》（Chenfei Wu等，2023），中金公司研究部

图表16：Flamingo模型示意图

资料来源：《Flamingo: a Visual Language Model for Few-Shot Learning》（Jean-Baptiste Alayrac等，2022），中金公司研究部

多模态大模型发展契机频现，未来优化进一步赋能机器人。2023年3月，谷歌的PaLM-E模型首先实现了多模态大语言模型在机器人领域的落地实验，但应用场景较为局限。我们认为多模态大模型以下发展脉络或进一步助推机器人发展：

► 带动机器人实现降本。可以通过将视觉等多模态信息以Adapter等形式嵌入到GPT等模型中，使多模态模型推理能力的强化变得更加容易，模型实现降本，并传导至机器人成本优化。

► 增强机器人的人机交互能力。借鉴GPT的发展思路，多模态模型的发展将更重视并实现与人类感官对齐，助力人机交互能力与情感交流能力提升。

► 机器人自编译有望实现。随多模态模型逐渐拓展至视觉、声音、文本、生理信号等模态，大模型中模态间的隐性知识和共同学习过程将进一步被激发，机器人从现实世界获取语义信息的精确性大大提升，我们预计其有望自身转化更多模态的信息为执行代码，减少工程师编码的工程，并使自身更快地走向具身智能。

► 机器人细分领域应用得以深入。多模态模型不仅局限在图文领域，将在信息搜索、视觉识别、情感分析、家庭看护等多个领域大放异彩，机器人垂直细分领域应用也将不断拓展。

To C端应用或率先落地，数据要素是核心竞争力

实现步骤：“拿来主义”行不通，“语言转化”方可行

多模态语言大模型指导机器人必须遵循良好的步骤。为了让多模态语言大模型指导机器人工作，直接将自然语言输入给机器人是不可行的，需转化为机器人代码，即建立自然语言到可编译语言之间的映射关系非常关键，这就需要我们用合理的方法去建立自然语言到可编译语言之间的映射关系。在这个过程中，合理的API接口、合理的提示训练、合理的人工检查必不可少。微软认为，要让多模态语言大模型良好的控制机器人做工作，实现路径包括三个重点环节：定义高阶API库、提示训练强化学习、人工再回路检验修正。

图表17：ChatGPT控制机器人实现路径三步走

资料来源：Microsoft《ChatGPT for Robotics》，中金公司研究部

► 必须定义一个高阶的机器人API库。API库重要功能就是能够连接到机器人控制系统中的底层硬件代码，建立自然语言和机器人底层控制函数之间的良好映射关系。具体来说，在这过程中，为了让多模态语言模型也能遵循函数库的规则，预定义函数命名十分关键关键。清晰、符合自然语言描述的函数名，能让各函数之间建立良好的功能连接，最终生成高质量的回答。

► 提示训练（Prompt）必不可少。提示训练本质上就是微调学习的过程，上下文表述信息充分性将直接影响模型给出答复的准确性，高质量和大体量的提问需求成为模型精度与泛化能力的关键。人机交互中Prompt策略的积累，将是多模态语言模型真正理解编译语言和工程参数的关键。微软就开发了开源平台，并利用其进行提示训练。

► 人工再回路过程进行调整。多模态语言模型的泛化性，往往是以降低精度为代价的，这就使得一般多模态语言模型生成的代码难以达到工业场景应用精度与安全性。目前生成的代码尚需要通过人工检查和虚拟仿真来判别其精度与安全性。

举例来说，要想让多模态语言模型编写代码驱动机器人帮忙做饭，首先就必须定义通俗易懂的API函数如去某个地方、用品名称（go_to_location（）、user_items（））等函数，从而将自然语言命令转化为编程代码语言，并通过提示训练不断对编程过程进行优化。最终，经过人工调整后形成准确率更高的代码。

图表18：ChatGPT控制机器人做饭的学习过程

资料来源：Microsoft《ChatGPT for Robotics》，中金公司研究部

场景要素：适当容错率与数据非私有化格外重要

我们总结CHATGPT类多模态大语言模型应用在机器人领域的场景需要具有四大要素：其中，工艺不涉及商业机密、容错率偏高是必要条件；另外，编程标准化程度高、一次性初始化编程是可选条件。

图表19：多模态大语言模型普遍以人工修正训练为前提，编程标准化程度高、一次性初始化编程是理想应用场景

资料来源：《A Survey of Large Language Models》(Wayne Xin Zhao等，2023)，中金公司研究部

► 工艺不涉及商业机密：大语言模型的动作指令代码生成依赖于动作环节的可拆解、可输入、可训练，并可根据拆解的动作环节进行大数据预训练，一旦动作过程涉及商业机密，将存在训练数据源不足与商业机密泄露风险。我们认为to C端应用较to B端应用更适合落地。

► 容错率偏高：大语言模型需要大数据生成式训练及人工反馈打分，在许多场景初次应用时易存在错误率，尤其是在数据量&人工反馈纠偏不足的情况下。我们认为To C端应用容错率较高，To B端工厂流水线生产普遍对错误率容忍度更低。

► 标准化程度高：非标场景接入大语言模型，需对每次非标设计部分进行动作拆解与人工反馈训练，过程繁琐，试用度不高。目前，大语言模型对工业生产流程等用到的数理公式尚不能举一反三；我们认为生活场景用到的自然语言举一反三能力或有望突破，也即未来在非标的生活场景下，大语言模型有望率先应用。

► 一次性初始化编程：非标场景下，存在某些产线的初始化一次性编程场景，生成式训练与人工反馈纠偏仅发生一次，无需频繁变化，则大语言模型代码生成可显著提高编程效率。例如，机器人整线的PLC流程编程。

图表20：CHATGPT类多模态大语言模型应用落地四要素

资料来源：《A Survey of Large Language Models》(Wayne Xin Zhao等，2023)，《Generating Situated Robot Task Plans using Large Language Models》（Ishika Singh等，2022），《Language models as zero-shot planners: Extracting actionable knowledge for embodied agents》（W. Huang等，2022）中金公司研究部

服务场景&移动机器人适合率先应用落地。我们按照容错率高及商业机密含量低两大必要条件筛选出适合“多模态大语言模型+机器人”应用落地的场景。我们认为家庭陪伴服务机器人、送餐快递机器人、移动机器人、食品鞋服等行业分拣搬运机器人等场景容错率偏高，且动作指令拆解过程不涉及商业机密、标准化程度高。例如命令机器人送餐，过程中所有的环节并不涉及机密，且送餐的路线具有一定容错率。此外，售后运维环节机器人相比于生产线用机器人对于错误的容忍率更高，且对于大部分的机器人故障诊断而言，电气、机械等核心部件的故障原理相似，一次性编程原理为主，不存在过多商业机密。

图表21：容错率高&商业机密含量少的应用场景适合接入CHATGPT类多模态大语言模型

注：颜色越深越适合大语言模型融合落地

资料来源：中金公司研究部

风险提示

1）CHATGPT技术迭代速度慢于预期：以CHATGPT为代表的多模态大语言模型迭代速度不及预期，或影响其在机器人行业的应用落地速度，机器人相关公司的“AI+赋能”或延缓。

2）机器人零部件自主化进度不及预期：机器人零部件底层代码尚不能实现完全解耦，则会进一步影响多模态大语言模型对机器人控制器及其他零部件的自由调度，机器人的自身编码与智能化进步速度或受到限制。

（来源：中金研究）

粉丝特惠：好股票APP五个热门产品任选一款，体验五天！欢迎下载注册体验！

标签：