当前位置：首页 > news >正文

杭州网站推广与优化麻城网站建设公司

news 2025/9/29 20:03:28

杭州网站推广与优化,麻城网站建设公司,简单个人网站制作,wordpress 基础建站原创1从感知决策到具身智能的技术跃迁与挑战(基座模型与VLA模型)2ALOHA机器人平台#xff1a;低成本、高精度双臂操作及其进展深度解析3(上)通用智能体与机器人Transformer#xff1a;Gato和RT-1技术解析及与LLM Transformer的异同4(下)通用智能体与机器人Transformer#x… 原创1从感知决策到具身智能的技术跃迁与挑战(基座模型与VLA模型)2ALOHA机器人平台低成本、高精度双臂操作及其进展深度解析3(上)通用智能体与机器人TransformerGato和RT-1技术解析及与LLM Transformer的异同4(下)通用智能体与机器人TransformerGato和RT-1技术解析及与LLM Transformer的异同接上篇《(上)通用智能体与机器人TransformerGato和RT-1技术解析及与LLM Transformer的异同》 3. Google/DeepMind的“RT-1 (Robotics Transformer 1)” RT-1 3.1. 动机与愿景扩展机器人泛化能力机器人领域的挑战与计算机视觉或自然语言处理不同机器人领域在收集真实世界数据方面面临独特挑战这使得模型的泛化能力尤为关键。传统的端到端机器人学习通常涉及收集狭隘、任务特定的数据。借鉴基础模型的成功经验 RT-1的动机是借鉴现代机器学习模型它们利用大规模、多样化、任务无关的数据集实现零样本或少样本性能的成功经验将其转移到机器人领域。成功的关键作者认为成功的关键在于开放式、任务无关的训练结合能够吸收多样化机器人数据的高容量架构。这使得模型能够“吸收”经验并学习适用于单个任务的通用模式从而提高效率。 3.2. 技术架构与输入/输出处理基于Transformer的机器人控制模型 RT-1机器人Transformer 1是一种基于Transformer的新型架构专门为大规模真实世界机器人控制而设计。它接收一系列图像和自然语言任务描述作为输入并输出机器人每一步需要执行的动作。该模型通过将高维输入摄像机图像、指令和输出电机指令编码为紧凑的Token表示供Transformer使用从而实现高效的运行时推理以进行实时控制。动作Token化离散化处理机器人的动作被分解为多个维度以实现精细控制。这包括手臂运动 7个变量涵盖了三维位置 (x, y, z)、三维姿态 (roll, pitch, yaw) 以及夹持器的开合状态。底座运动 3个变量包括二维位置 (x, y) 和一个偏航角 (yaw) 。模式切换一个额外的离散变量用于在三种模式之间切换控制手臂、控制底座或终止任务。每个动作维度都被离散化为256个bin 。目标值被映射到这些均匀分布的bin中的一个。这种每维度离散化的动作表示允许模型捕获复杂的多模态分布这比标准连续高斯分布只能捕获单一模式有显著改进从而提升了动作的精确性和多样性。 1. 连续动作 vs. 离散化动作连续动作Continuous Actions在传统的机器人控制中机器人的关节角度、末端执行器位置x, y, z、姿态roll, pitch, yaw等都是连续的数值。例如一个关节可能在 0 到 360 度之间连续变化夹持器开合度可以在 0 到 0.1 米之间连续变化。大多数强化学习算法在处理这些连续动作时通常会假设动作服从高斯分布并直接输出均值和方差让机器人从这个分布中采样一个动作。离散化动作Discretized ActionsRT-1 没有直接输出连续值而是将每个连续的动作维度如手臂的 x 坐标、y 坐标、roll 等都切分成固定数量的“小区间”或“桶”bins。就像把一条很长的线段均匀地切成 256 小段一样。2. 256个Bin的含义“每个动作维度都被离散化为256个bin”意味着对于像手臂的 x 坐标这样的一个连续维度它不再是一个无限可能的小数而是被强制映射到 256 个预定义的整数索引中的一个。例如如果手臂的 x 坐标范围是 -1 到 1 米Bin 0 可能对应 -1.0 到 -0.992 米Bin 1 可能对应 -0.992 到 -0.984 米...Bin 255 可能对应 0.992 到 1.0 米这样模型要预测的不再是一个浮点数而是一个介于 0 到 255 之间的离散整数。这使得动作预测变成了一个分类问题模型需要从 256 个可能的 Bin 中选择一个。3. 为什么这样做捕获复杂多模态分布这是这种离散化方法的关键优势也是它比标准高斯分布有显著改进的地方标准连续高斯分布捕获单一模式的局限性如果你用一个**高斯分布**来预测动作它会输出一个均值和一个方差。这意味着它倾向于认为只有一个“最佳”的动作而且这个最佳动作周围的动作也比较可能。这种方法只能很好地表达**单一的、集中在某个点上的行为模式。然而在复杂的机器人任务中通常可能存在多种同样有效或合理的操作方式来完成一个子任务。例如机器人可以从左边或右边抓取一个物体或者在某个状态下既可以抬高手臂也可以降低手臂这取决于下一步的策略。高斯分布很难同时表示这些多样的、分散的“最佳”动作。它可能会把所有这些“最佳”动作平均掉导致预测一个位于它们中间的、实际上可能并不好的动作。离散化动作的优势捕获复杂的多模态分布通过将动作离散化为多个 Bin模型可以为每个 Bin 学习一个概率分布就像分类任务一样。如果存在多种合理的动作方式模型可以同时为这些不同动作对应的 Bin 分配较高的概率。例如如果从左边抓取物体对应的 x 坐标在 Bin 50从右边抓取在 Bin 200模型可以同时预测 Bin 50 和 Bin 200 都有高概率而不是只预测一个介于 50 和 200 之间可能导致撞到物体的 Bin。这种能力使得模型能够理解和预测动作空间中存在的多个“高峰”modes这些高峰代表了不同的可行行为。这被称为捕获多模态分布multimodal distributions。4. 提升动作的精确性和多样性精确性Precision通过细致地切分 256 个 Bin模型可以在预测时达到相当高的精度因为它仍然是在一个连续的范围内进行选择只是选择的粒度是 1/256。同时由于能捕获多模态模型可以更精确地选择最适合当前状态的某个动作模式。多样性Diversity这是最大的优点。当有多种合法且有效的行为时模型不会被限制在单一预测上。它能够识别并学习到这些不同的有效策略从而使得机器人的行为更加灵活和多样化更能够适应复杂和不确定的真实世界环境。表1: RT-1 动作空间离散化详情动作类型维度数量具体维度离散化Bins数量手臂运动7x, y, z, roll, pitch, yaw, 夹持器开合256底座运动3x, y, yaw256模式切换1控制手臂, 控制底座, 终止任务3 (离散变量) 输入处理流程 (1) 视觉特征图像首先通过ImageNet预训练的卷积神经网络EfficientNet进行处理。该EfficientNet通过FiLMFeature-wise Linear Modulation层根据预训练的自然语言指令嵌入进行条件化以提取与任务相关的视觉特征。EfficientNet 的输出是一系列高维的特征图feature maps这些特征图包含了图像的丰富语义和空间信息但通常具有较高的维度和冗余性。例如一个 \(H \times W \times C\) 的特征图如果直接展平会产生大量的特征向量。 FiLM (Feature-wise Linear Modulation) 是一种非常强大且通用的神经网络条件化方法它允许一个神经网络的计算过程根据另一个输入条件信息进行动态调整。这在多模态任务中特别有用比如在 RT-1 中它能让图像特征的提取过程被自然语言指令所“引导”。 FiLM 的核心思想是它通过一个简单的特征维度上的仿射变换affine transformation来调制modulate神经网络中间层的激活值。这个仿射变换的参数缩放因子和偏移量是由另一个独立的网络称为 FiLM 生成器FiLM Generator根据条件信息动态生成的。用数学公式表示如果是某个神经网络层例如卷积层或全连接层的输出激活值那么经过 FiLM 层调制后的输出为其中是输入到 FiLM 层的特征图或激活值。表示逐元素乘法 (element-wise multiplication)也称为 Hadamard 乘积。gamma是缩放因子 (scaling factor)。beta是偏移量 (bias / shifting factor)。关键在于和不是可学习的固定参数像传统神经网络层中的权重那样它们是由 FiLM 生成器根据条件信息动态计算出来的。和的维度与的特征维度即通道数匹配并且对每个特征通道独立应用。这就是“Feature-wise”的含义。 FiLM 生成器 (FiLM Generator) FiLM 的另一个关键部分是FiLM 生成器。这是一个独立的神经网络它接收条件信息作为输入然后输出对应每个特征通道的和值。例如在 RT-1 中条件信息自然语言指令例如经过编码器处理后的语言嵌入向量。FiLM 生成器一个小型神经网络通常是几层全连接层它将语言嵌入向量作为输入。输出生成器输出两个向量一个用于一个用于。这两个向量的维度与被调制的目标网络层的特征通道数相同。 FiLM 如何影响神经网络计算 FiLM 通过动态地缩放和偏移特征激活值赋予模型强大的条件化能力动态调整特征表示语言指令或任何其他条件信息可以通过和来动态地调整图像特征的表示。例如如果指令是“抓取红色方块”FiLM 层可能会学习到提高与“红色”特征相关的通道的激活值通过大的并抑制与背景或不相关颜色相关的通道的激活值通过小的 \甚至负的如果后面跟着 ReLU 激活这能有效地“关闭”某些通道。则可以用来调整特征的基线或激活阈值。实现跨模态交互 FiLM 使得视觉骨干网络例如 EfficientNet的计算能够被文本指令所“引导”。这意味着图像特征的提取不再是静态的而是根据当前任务和指令进行自适应的调整。细粒度控制由于和是逐特征逐通道计算的FiLM 提供了对神经网络内部特征表示的细粒度控制。这比简单地将条件信息拼接concatenation到输入特征中更强大因为它可以直接修改特征的语义含义。提高泛化能力通过条件化模型可以更好地泛化到新的任务或场景。例如如果模型学习了如何根据颜色指令处理图像它就可以在看到新颜色物体时通过调整和来适应。 FiLM 层的原理是通过一个辅助网络FiLM 生成器根据外部条件信息动态生成缩放因子 \和偏移量然后将这些参数逐特征地应用到目标神经网络层的激活值上从而实现对目标网络计算过程的动态调制。这使得模型能够根据条件信息自适应地处理和理解数据极大地增强了神经网络在多模态和条件生成任务中的灵活性和性能。 Token学习器模块在图像和文本处理之后RT-1架构的一个关键组件是Token学习器模块。该模块负责从处理过的视觉特征中计算出一组紧凑的Token然后将其输入到Transformer中。这一步骤对于效率至关重要因为Transformer网络尽管容量大需要保持相对较小仅接收48个Token作为输入以确保快速推理和对人类用户的响应能力。这表明它专注于为Transformer提供高度压缩的相关信息。 RT-1 的Token 学习器模块 (Token Learner module) 是其架构中一个非常重要的组件它的主要作用是**将从图像中提取的丰富但冗余的视觉特征压缩成一组紧凑、有代表性的 Token 序列以便高效地输入到 Transformer 模型中进行处理**。目的Token 学习器模块的任务就是将 EfficientNet 输出的这些高维、冗余的视觉特征图转化成一个**固定数量且高度压缩的 Token 序列**。为什么要这样做因为 Transformer 的注意力机制计算成本与输入序列长度的平方成正比。直接使用原始的图像特征例如将每个像素或每个小块的特征都视为一个 Token会导致序列过长使得 Transformer 的计算量过大难以在实时机器人控制中应用。Token 学习器通过“学习”的方式来选择和组合最重要的视觉信息从而有效地减少了序列长度同时保留了关键的视觉信息。计算原理 Token 学习器模块本质上是一个**注意力机制或基于卷积的模块**它通过学习的方式从输入特征图中“提炼”出少数几个代表性的 Token。具体的计算过程可以概括为Query GenerationToken 学习器内部会生成一组可学习的“查询向量”或称“原型向量”。这些查询向量的数量就是最终希望得到的 Token 数量例如RT-1 使用 8 或 16 个 Token。注查询向量作用类似于卷积核它是通过一次次训练学习到的代表了不同的“关注点”当一个图像的视觉特征图Keys 和 Values输入时每个查询向量会计算它与特征图中所有“键”向量的相似度。Token 学习器的输出不是动作而是一组固定数量的、压缩了图像核心信息的视觉 Token 序列注意力加权 (Attention Weighting)**这些查询向量会与 EfficientNet 提取的视觉特征图进行交互。这种交互通常通过一个**注意力机制**来实现。具体来说每个查询向量会与特征图中的所有位置或特征向量计算相似度得分。这些相似度得分被归一化例如通过 Softmax得到注意力权重。这些权重表示了特征图中每个部分对当前查询向量的“重要性”或“相关性”。加权求和 (Weighted Summation)**将计算出的注意力权重应用于原始的视觉特征图。每个查询向量会对应一个“加权求和”后的特征向量这个向量就是最终输出的一个 Token。这意味着每个 Token 实际上是原始特征图中多个位置特征的**软组合**其中权重由注意力机制学习。输出 Token 序列** 最终Token 学习器输出一个固定数量的 Token 序列例如 [token_1, token_2, ..., token_N]其中每个 Token 都代表了图像中经过选择和压缩的关键视觉信息。类比理解Token 学习器可以想象成一个“信息筛选器”或“摘要器”。它不是简单地对图像进行固定分割而是学习哪些图像区域或特征组合对于理解当前任务和预测动作是最重要的并把这些重要信息压缩到少量 Token 中。例如在抓取任务中Token 学习器可能会学习将注意力集中在物体及其周围区域的特征而忽略背景中不相关的细节。总结 Token 学习器计算的关键点输入经过 CNNEfficientNet FiLM处理的高维、丰富的视觉特征图。输出一组数量固定且紧凑的视觉 Token 序列。核心机制通常是基于注意力机制的加权求和通过学习查询向量与输入特征图的交互动态地选择和组合最重要的视觉信息。目的压缩视觉信息减少序列长度从而提高 Transformer 的计算效率和实时推理能力同时保留对任务决策至关重要的视觉特征。 Transformer核心 RT-1的核心是一个仅解码器Transformer网络。该Transformer对Token学习器生成的紧凑Token集进行注意力处理以生成离散的动作Token。动作是高度细粒度的包括七个用于手臂运动的维度x、y、z、滚转、俯仰、偏航、夹持器开合。三个用于底座运动的维度x、y、偏航。一个额外的离散维度用于在三种操作模式之间切换控制手臂、控制底座或终止回合。闭环控制机制 RT-1以闭环控制方式运行以3赫兹的频率发出动作指令直到发出“终止”动作或达到预设的时间步数。尽管其拥有3500万参数但由于其高效的架构实现了这种实时控制。 RT-1架构的一个关键特点是与Gato更统一的Token化方法不同它在主Transformer之前使用了专门的预处理模块如带有FiLM层的ImageNet预训练EfficientNet和Token学习器。这表明对于机器人技术而言原始像素数据可能维度过高或噪声过大以至于纯Transformer难以高效处理尤其是在实时约束下。这种因果关系在于这些专门模块充当智能特征提取器和降维器将最显著的视觉和语言信息提炼成紧凑的Token表示48个Token然后由随后的Transformer进行有效推理以生成动作。这更广泛的意义是对于真实世界的机器人技术从原始像素到动作的纯“端到端”Transformer可能尚未达到最佳或可行状态采用混合架构利用特定领域的感知组件可以显著提高效率和性能弥合高层推理和低层控制之间的鸿沟。 3.3. 数据收集策略与泛化能力特征描述来源机器人数量13台 Everyday Robots (EDR) 移动机械臂车队Everyday Robots (EDR)数据收集时长17个月EDR 机器人课堂 (办公室厨房环境)Episode数量约13万个人类远程遥操作演示任务数量超过700个涵盖多种高层技能和对象如抓取、放置、开关抽屉等-数据来源多样性混合了EDR真实世界数据和Kuka机械臂的抓取数据 (1:2比例)可吸收模拟数据EDR, Kuka (QT-Opt项目), 模拟环境数据标注每个Episode均有文本指令描述- 真实世界机器人数据集的规模与多样性 RT-1成功的基石是其大规模的真实世界机器人数据集。该数据集是在17个月内使用13台机器人收集的包含约13万个回合涵盖700多个不同的任务。数据多样性对泛化的重要性指令列表和技能例如抓取、放置、开关抽屉、取物品、操作细长物体和打开罐子的设计旨在测试对新指令的泛化能力以及执行多种技能的能力。数据集的广度和规模对于泛化至关重要使模型能够发现结构相似任务之间的模式并通过组合这些模式来执行新任务。增加数据规模和多样性可以提高模型的泛化能力。可扩展性该系统易于扩展允许持续提供更多样化的数据以提高其能力因为在添加新指令时没有对特定技能做出任何假设。异构数据源的整合 RT-1展现了从不同领域如模拟或甚至不同类型的机器人例如Kuka机器人用于垃圾分类而RT-1主要使用Everyday Robots有效吸收数据的卓越灵活性。至关重要的是这种整合在保持原有任务性能的同时提高了对新场景的泛化能力。虽然RT-1的13万个回合数据集在机器人领域已经相当庞大但研究材料中反复强调的“多样性”与规模并重这是一个关键的发现。其潜在趋势是对于物理世界交互而言仅仅积累更多数据点数量的效果不如确保这些数据点涵盖广泛的任务、物体、环境乃至机器人形态多样性。这种因果关系在于多样化的数据迫使模型学习更抽象、可迁移的表示和技能而非仅仅记忆特定的轨迹或任务实例。RT-1能够泛化到未见任务、干扰物和背景并整合来自不同机器人或模拟的数据而性能不下降正是这一点的例证。这更广泛的意义在于机器人数据收集策略必须优先考虑广度和可变性积极寻找新颖的场景和条件以在复杂、连续的物理世界中实现鲁棒的泛化这与互联网规模文本数据相对更容易的可扩展性形成对比。 3.4. 性能与鲁棒性评估类别RT-1成功率Gato成功率BC-Z成功率BC-Z XL成功率RT-1相对优势已知任务97%65%72%-显著领先未见任务76%---比次优基线高24%干扰物鲁棒性83%---比次优基线高36%背景鲁棒性59%---比次优基线高18%长时程任务 (Kitchen1)67%33%53%-显著领先长时程任务 (Kitchen2)67%0%13%-显著领先Kuka数据融合 (垃圾桶拣选)39% (EDRKuka)-22% (仅EDR)-接近翻倍对已知任务的高性能 RT-1在700多个训练指令上实现了97%的成功率。对未知任务的显著泛化 RT-1展现了强大的泛化能力在从未见过的指令上执行成功率为76%比次优基线高出24%。这表明它能够推断并应用学习到的模式到新场景中。对环境变化的鲁棒性该模型对环境变化也表现出显著的鲁棒性。在涉及干扰物的任务中成功率为83%比次优基线高出36%在新的背景下任务成功率为59%比次优基线高出18%。这包括在其他模型失败的全新厨房环境中保持性能。长时序任务 RT-1的性能使其能够在SayCan等框架内执行非常长的时序任务最多可达50个阶段。与基线的比较与Gato、BC-Z和BC-Z XLBC-Z的更大版本等模仿学习基线相比RT-1在各项测试中均显示出明显的改进。虽然Gato是一个通用智能体但RT-1在机器人领域显得更加专业和高效。尽管RT-1在未见任务上取得了76%的成功率并在干扰物和背景鲁棒性方面有显著提升但从已知任务97%的成功率下降到未见任务的76%成功率揭示了“具身泛化鸿沟”。其潜在趋势是在物理世界中实现真正的零样本泛化仍然极具挑战因为物理世界具有连续状态、动态交互和不可预测的元素这与语言领域相对离散和结构化的特性形成对比。这种因果关系在于即使有多样化、大规模的真实世界数据和强大的Transformer模型物理环境的巨大复杂性和无限变异性也使得模型难以完美地外推到全新场景。RT-1的贡献在于显著“缩小”了这一鸿沟证明了基于Transformer的数据驱动方法是有效的。然而更广泛的意义在于完全弥合这一鸿沟可能需要数据收集例如更高效的模拟到真实迁移、主动数据获取、架构改进例如更好的物理归纳偏置或更深层次地整合符号推理或规划能力以鲁棒地处理真正的全新情况和长时序任务。方面GatoRT-1模型名称“通用智能体”“机器人Transformer 1”主要目标多模态、多任务、多具身通用策略真实世界机器人中的可扩展泛化模型模型参数约12亿约3500万处理的关键模态图像、文本、本体感受、关节扭矩、按钮按压图像、自然语言指令、机器人手臂/底座动作核心架构仅解码器TransformerEfficientNet FiLM Token学习器 Transformer训练范式离线监督学习真实世界数据上的模仿学习训练数据规模机器人相关大量数据集模拟、真实世界、自然语言、图像13万个回合700任务13台机器人17个月泛化焦点跨模态/任务的最广泛通用性机器人领域中对未见任务/环境的鲁棒性和泛化能力 4. 区别机器人Transformer与大型语言模型Transformer 4.1. 架构相似性与基本原理共享Transformer骨干机器人Transformer如RT-1和Gato和大型语言模型都从根本上依赖于Transformer架构。这种架构的特点是其自注意力机制和并行处理能力这使得它能够高效处理序列数据并理解长距离依赖关系。Token化概念一个共同的基本原理是将多样化输入转换为离散的Token序列。正如LLMs将文本Token化一样Gato将多模态数据Token化而RT-1将图像、语言指令和动作Token化。这种统一的表示使得Transformer能够跨不同数据类型进行操作。随数据和参数的可扩展性两种范式都表明性能和泛化能力随着数据、计算和模型规模的增加而提升。这种“缩放定律”是一个核心的共同发现。自学习/无监督训练潜力 Transformer及其衍生的LLMs都能够进行自学习或无监督训练使它们能够学习语法、语言和知识。虽然Gato是监督训练的但其具备强化学习的潜力被提及。 4.2. 目的与应用领域的差异 LLMs自然语言理解与生成 LLMs的主要目的是生成和理解人类自然语言。它们的应用程序涵盖文本生成、摘要、翻译和对话式AI。机器人Transformer真实世界物理交互与控制相比之下机器人Transformer以RT-1和Gato的机器人能力为例旨在实现具身AI——在真实世界环境中与物理系统进行交互和控制。它们的目标是使机器人能够执行物理任务、导航和操纵物体。尽管LLMs和机器人Transformer都利用了相同的Transformer架构但它们的最终目的和应用领域存在根本性差异。LLMs在符号、语言领域运行主要操作抽象概念并生成文本。然而机器人Transformer则弥合了与物理世界之间的鸿沟其“行动”具有切实的、现实世界的影响。其潜在趋势是将人工智能能力从纯粹的认知任务扩展到具身智能。这种因果关系在于这种转变引入了一系列新的复杂性和挑战主要与物理交互的连续性、动态性和安全性关键性相关。这更广泛的意义是虽然LLMs推动了人工智能在语言方面能够“理解”和“生成”的界限但机器人Transformer正在推动人工智能在物理世界中能够“做”的界限标志着迈向能够感知、推理并在我们现实中行动的真正智能体的关键一步。 4.3. 输入/输出模态与处理的差异 LLMs主要为文本输入文本输出 LLMs通常以文本作为输入并生成文本作为输出。它们的主要模态是语言通过词嵌入进行处理。机器人Transformer多模态感知输入物理动作输出输入机器人Transformer处理更丰富、更复杂的多模态感知输入包括高维视觉数据图像、本体感受反馈机器人关节状态和自然语言指令。这些输入代表着不断变化的环境。输出它们的输出是物理动作例如关节扭矩、按钮按压、手臂运动和底座运动通常为了控制目的而离散化。实时控制与动态环境机器人技术要求实时响应和低延迟例如RT-1以3Hz运行Performer-MPC的延迟为8毫秒。这是一个LLMs通常不面临的关键约束。机器人技术面临多模态表示、不断变化的环境和有限计算的挑战。最根本的区别在于反馈循环的性质。LLMs主要在符号信息文本的“读写”循环中操作。然而机器人Transformer则嵌入在与物理世界交互的连续“感知-行动”循环中。其潜在趋势是从处理静态或顺序呈现的数字数据转向与动态、连续且通常嘈杂的物理环境进行交互。这种因果关系在于这需要处理高维、多模态的感知输入图像、本体感受并生成精确的、实时的物理动作。对特定频率例如RT-1的3Hz的闭环控制和低延迟的需求使其与LLMs其响应时间通常更灵活根本不同。更广泛的意义在于机器人Transformer必须应对具身化的固有复杂性噪声、不确定性、物理约束以及行动在现实世界中的直接后果而纯粹在数字领域中运行的LLMs则无需面对这些。这也解释了RT-1中专门的输入处理EfficientNet、Token学习器等架构选择旨在为Transformer提炼相关信息这在纯文本LLMs中并不那么突出。 4.4. 训练数据特性与规模 LLMs互联网规模文本语料库 LLMs的特点是在真正大规模的互联网级文本数据集上进行训练这些数据集通常包含数十亿网页、维基百科等。这些数据集在语言表达的数量和多样性上都非常庞大。机器人Transformer大规模、多样化的真实世界机器人交互数据尽管机器人数据集也很大但其性质根本不同。它们由真实世界的机器人经验组成通常通过遥操作或自主探索收集包含多模态传感器读数和相应的动作。其规模例如RT-1的13万个回合在机器人领域是显著的但比互联网文本数据小几个数量级。重点在于物理领域内任务、物体和环境的“多样性”。数据获取挑战收集高质量、多样化的机器人数据比抓取互联网文本更具挑战性且成本更高。这一限制影响了机器人模型相对于LLMs可达到的规模。训练数据规模和获取难度的巨大差异是机器人Transformer面临的关键瓶颈。LLMs受益于互联网上几乎无限且易于获取的文本数据而机器人数据收集本质上是资源密集型、耗时且昂贵的。其潜在趋势是数据可用性的这种差异直接影响了可实现的模型规模。这种因果关系在于由于真实世界机器人数据难以达到互联网规模机器人模型如RT-1的约3500万参数或Gato的12亿参数通常比最大的LLMs数百亿参数小几个数量级。更广泛的意义是通用机器人技术的未来进展将严重依赖于数据合成例如高保真模拟、更高效的真实世界数据收集方法例如自主数据工厂、众包遥操作或开发更具样本效率且能从较少数据中学习的模型。这个瓶颈从根本上限制了机器人Transformer当前可达到的规模并因此限制了其相对于语言模型的涌现泛化能力尽管它们共享架构原理。好的这是机器人Transformer与大型语言模型Transformer的关键区别的 Markdown 格式表格方面大型语言模型TransformerLLM Transformer机器人TransformerRobotics Transformer核心目的自然语言理解与生成真实世界物理交互与控制典型输入模态文本多模态图像、本体感受、自然语言典型输出模态文本物理动作关节扭矩、按钮按压、手臂/底座运动主要训练数据源互联网规模文本语料库例如Common Crawl维基百科大规模、多样化的真实世界机器人交互数据典型规模参数数十亿到数百亿数百万到数十亿例如RT-1约35MGato 1.2B主要挑战事实准确性、幻觉、偏见、训练/推理计算成本。实时控制、对动态/嘈杂环境的鲁棒性、数据获取难度/成本、物理交互中的安全性、模拟到真实迁移 5. 结论与未来展望 5.1. 贡献总结 DeepMind的Gato通过在单一Transformer策略下统一多种模态推动了通用人工智能的界限展示了“单一大脑”智能体的巨大潜力。它将不同类型的数据序列化为统一的Token流使Transformer能够学习跨模态的通用策略从而实现多任务、多具身的能力。 Google/DeepMind的RT-1则通过大规模、多样化的数据收集和专门的Transformer架构在真实世界机器人泛化方面做出了重大贡献。它展示了前所未有的鲁棒性和任务性能特别是在处理未见任务和环境变化方面。RT-1的成功表明将LLMs的缩放定律应用于机器人领域是可行的尽管其架构中包含了为处理高维感知数据而设计的特定预处理模块。 5.2. 根本区别与共同原理的重申尽管机器人Transformer和大型语言模型Transformer都利用了强大的Transformer架构及其缩放定律但它们在领域特定应用上的差异导致了输入/输出模态、训练数据特性和固有挑战的根本性区别。LLMs主要在符号、语言领域运行而机器人Transformer则专注于与物理世界的具身交互。这种从符号智能到具身智能的转变是两者核心分歧所在。机器人Transformer必须应对物理世界固有的复杂性包括连续、动态、嘈杂的环境以及对实时响应和精确物理动作的严格要求。这与LLMs主要处理离散、结构化文本数据的特点形成鲜明对比。

查看全文

http://www.lakalapos1.cn/news/39507/