账号密码登录
验证码登录
微信登录

30天内自动登录

忘记密码注册新用户

账号申诉

30天内自动登录

忘记密码注册新用户

账号申诉

登陆成功

积分

首页

给人形机器人注入“灵魂” - Soon Jo Chung教授访谈精华

来源：闻道-供应链思维作者：傅兵 2024-12-12 4492阅读

[罗戈导读]加州理工学院教授Soon-Jo Chung探讨机器人学习与控制理论的融合，强调在保证系统安全的前提下，通过机器学习提升机器人适应性和智能。

近日,我们有幸采访了加州理工学院(Caltech)控制与动力系统的Bren讲席教授Soon-Jo Chung。Chung教授也是NASA喷气推进实验室(JPL)的高级研究科学家。他的研究重点是分布式航天器系统和空间机器人,特别关注控制、估计和学习理论在自主空间和飞行器导航问题中的应用。

p202412/10/bpPcIUQtw9.jpeg

Chung教授的研究总是充满创意和惊喜。他开发的"蝙蝠机器人"(Bat Bot)曾在德国汉堡的工艺美术博物馆展出,向公众展示了仿生机器人的魅力。这款超轻型飞行器灵感源自蝙蝠,利用超柔性机翼和多关节设计实现了高度灵活的机动飞行。Nature杂志曾用"空中芭蕾"来形容它优雅的飞行姿态。

另一项脑洞大开的研究是"变形金刚"卫星。受科幻电影的启发,Chung教授提出利用模块化设计和自主组装技术,实现太空中的卫星变形与协同。数百个微小卫星可以根据任务需求自行组合成不同构型,完成通信、探测、服务等各种任务。这一概念有望大幅提升太空设施的适应性和鲁棒性。

类似的创意还有很多,如会飞的仿人机器人"Leonardo"、会打球的四足机器人、会画画的机械臂等。Chung教授总能从日常生活中找到灵感,将机器人技术与艺术、体育、教育等领域结合起来,令人耳目一新。

当然,这些有趣的想法背后是扎实的数学功底和严谨的工程实践。Chung教授是控制理论的专家,发表了100多篇期刊论文,拥有20多项专利。他领导的机器人实验室成果丰硕,与NASA、DARPA等机构有着广泛合作。他本人也获得了众多奖项,包括美国空军科学研究青年研究员奖、美国国家自然科学基金CAREER奖等。

让我们一起聆听这位集科学家、工程师、艺术家于一身的杰出学者,对机器人学习前沿的独到见解。相信您一定会被他的学识之广、思维之活跃所折服。

机器学习在人形机器人中的作用

"我认为机器学习最好的应用场景之一,是利用它强大的表征能力和适应能力。" Chung教授开门见山地说,"传统的机器人控制往往依赖于精确的数学模型,但现实世界的环境千变万化,存在着大量不确定因素,如风扰动、地面摩擦、执行器磨损等。这些因素很难事先建模,给控制器设计带来巨大挑战。而机器学习恰恰擅长处理这类复杂多变的情况。通过从数据中学习,机器学习算法可以自适应地估计出那些未知参数,补偿建模误差,让机器人更加灵活智能。"

p202412/10/hJevRTVqhe.png

但Chung教授也指出,机器学习在为系统带来适应性的同时,也引入了新的不确定性。"大多数机器学习算法本质上是一个黑箱,缺乏可解释性。你无法准确预测神经网络这样的黑盒子会对一个未见过的输入做出什么反应。如果这个黑盒子掌控着机器人的行为决策,而它突然采取了一个意外的、不安全的动作,后果将不堪设想。"

这就是Chung教授强调"数学保证"和"稳定性"的原因。"控制科学的核心就是稳定性。我们要确保系统状态不会在有限的时间内发散到无穷大。对于机器人这样的安全攸关系统,稳定性不仅关乎性能,更关乎生命。传统控制理论已经发展出一套完备的稳定性分析工具,如李雅普诺夫理论。但如何将它们应用到具有学习能力的非线性系统中,仍是一个开放的问题。"Chung说。

为了解决这一问题,Chung教授和他的团队提出了一种被称为"收缩理论"(Contraction Theory)的全新视角。传统的控制理论大多分析系统在平衡点附近的稳定性,如机械臂的目标位置。但实际上,机器人大多数时候是在轨迹上运动,如自动驾驶汽车沿着道路前进。收缩理论不关注单个平衡点,而是考察系统在整条轨迹上的"增量稳定性",即任意两个初值差距是否会随时间指数收敛。

"收缩理论有两个重要性质。"Chung解释道,"一是对初值的指数遗忘性。即无论从哪个初值出发,系统最终都会收敛到一条轨迹上。二是有界输入有界输出。即使存在有界扰动,系统偏离轨迹的距离也将在一个有限范围内。这两个性质对鲁棒控制器设计意义重大。"

事实上,Chung教授证明,对于一大类非线性系统,如果其"虚拟位移"满足某种收缩条件,那么该系统一定是增量指数稳定的。"虚拟位移可以理解为无穷小扰动在相空间传播的方向。如果它们能以指数速率衰减到零,那整个系统就像一个漏斗,无论从哪个初值出发,最终都会被吸引到漏斗的中心线上。"Chung打了一个形象的比喻。

基于这一点,他们进一步提出了"分层收缩控制"的架构。"底层是一个收缩控制器,保证被控对象的增量稳定性。中层是一个轨迹规划器,负责生成期望轨迹。上层是一个基于机器学习的自适应模块,用于补偿建模误差。"Chung介绍说,"三个层级互为补充。规划器给控制器提供参考轨迹,控制器驱动执行器跟踪轨迹,适应层辅助修正轨迹。由于有收缩性的保证,这个系统在面对未知扰动时,最坏的情况也只是偏离轨迹一个有界的距离,而不会完全失控。"

这种分层收缩架构在Chung教授的多个机器人平台上得到了成功应用。例如,他们开发的"Neural-Fly"四旋翼无人机可以在强风扰动下精准降落。"风场高度非线性,很难建模。我们用深度神经网络拟合这个未知项,同时用一个低维线性自适应器校正神经网络的逼近误差。整个自适应过程附加在nominal轨迹上,即使神经网络参数发生变化,闭环系统的增量稳定性也不受影响。"Chung说。实验表明,该系统可以在GPS失效的情况下实现厘米级的悬停。

除了无人机,他们还将这一思想应用于漫游车。"轮胎和地面的摩擦也高度非线性。传统模型如库伦摩擦难以准确描述真实接触。我们利用车载传感器采集的数据,训练了一个摩擦力神经网络模型,并将其集成到轨迹跟踪控制器中。"Chung说,"借助学习得到的先验,漫游车可以在崎岖地形上平稳行驶。即使轮胎打滑,也能快速修正方向。这对未来的星球探测任务大有裨益。"

"机器学习为机器人注入了适应性和智能,但同时也带来了不可预测性和不稳定性。"Chung教授总结道,"收缩理论在二者之间搭建了一座桥梁。它既能保证系统在不确定性中的鲁棒性,又不会限制学习的灵活性。我认为这将是机器人技术发展的一个重要方向。未来的自主系统必须在保证安全的前提下,具备持续学习与进化的能力。这需要控制论与人工智能的深度融合。"

分层架构与运动规划

在机器人学习中,运动规划是一个核心问题。它决定了机器人如何从当前状态移动到目标状态。传统的运动规划算法,如A*搜索、RRT等,大多假设环境是静态已知的。但在实际应用中,机器人往往面临动态、未知的环境,需要根据传感器反馈实时调整规划。现有的做法大多是将运动规划与反馈控制割裂开来,先用简化模型规划出一条粗略的路径,再用反馈控制器实时修正偏差。这种做法的问题在于,规划和控制是两个独立的模块,很难协同优化。

"很多人在做强化学习时,会计算出一条路径,然后直接发送给执行器。问题是,在存在建模误差和外界干扰的情况下,你如何保证系统能准确跟踪这条路径?如何保证这条路径在真实环境中仍然安全可行?"Chung教授指出了其中的问题。事实上,不少自动驾驶事故的原因之一,就是决策规划与控制执行的脱节。

为了解决这个问题,Chung教授提出了一种"安全导向的分层规划架构"。"我最喜欢的方法是在运动规划阶段就显式地考虑安全性约束。比如,在做轨迹优化时,除了考虑机器人的动力学限制,还要把障碍物避让作为硬约束加进去。即使动力学模型有偏差,即使有外界干扰,只要反馈控制器能稳定地跟踪参考轨迹,安全性就有保障。"

这种思路的关键在于如何量化"跟踪误差"与"安全裕度"。传统的运动规划大多基于简化的动力学模型,如三次样条、B样条等。这类模型计算简单,但与真实系统往往有较大偏差。为了缩小这种偏差,Chung教授的团队采用了基于采样的运动规划方法。"我们先用Monte Carlo方法在状态空间中采样出大量可行轨迹,然后用数值优化的方法在这些轨迹中搜索最优解。这个过程是迭代的,每一轮迭代都会根据当前的最优解调整采样分布,产生更接近最优的轨迹。同时,我们把跟踪误差作为一个高斯分布随机变量,它的方差反映了动力学模型的不确定性。通过对这个高斯分布求积分,我们可以得到一个'统计鲁棒性约束',表示在一定置信水平下,跟踪误差不会超过安全裕度。把这个约束加入到优化目标中,就得到了一个考虑建模不确定性的鲁棒运动规划器。"

这种基于采样和优化的运动规划方法可以在一定程度上处理环境的不确定性,但计算开销较大,难以满足实时性的需求。为了进一步加快计算速度,Chung教授的团队利用深度神经网络来逼近最优控制策略。"我们先用上述方法离线求解大量的最优控制问题,得到一个'轨迹-控制'对的数据集。然后用这个数据集训练一个深度神经网络,输入是当前状态和目标状态,输出是最优控制量。这个神经网络实际上起到了一个'策略函数'的作用,可以实时地把感知信息映射到控制指令。一旦训练完成,它的计算速度就非常快了,基本上是一个前向传播的过程。"

Chung教授强调,这个深度网络只是用来逼近最优控制策略,并不参与动力学约束的求解。"动力学约束是一个比较强的先验知识,完全交给端到端的深度学习去学很困难,既费时又不可靠。我们把动力学约束显式地用数学模型描述出来,再把控制量的求解转化为一个参数优化问题。这实际上就是'运动规划'。神经网络只是用来逼近这个最优化问题的解,或者说,逼近从状态到最优控制量的映射。训练好的网络可以直接部署到机器人上,而不需要再做在线求解,大大提高了实时规划的效率。"

运动规划的outro在环境复杂、变化快的情况下,即便有了上述的鲁棒优化和实时逼近技术,也未必能找到令人满意的解。一个主要原因是这些方法大多基于贪心搜索,缺乏对不确定性的长期考虑。为了克服这个问题,Chung教授的团队受AlphaGo的启发,将深度强化学习与蒙特卡洛树搜索(MCTS)结合,提出了一种"随机运动规划"(Stochastic Motion Planning)的方法。

"MCTS的基本思想是通过反复模拟来评估每个决策的长期效用。它先根据当前的最优策略执行一个'探索性的模拟',得到一个累积奖励值;然后根据这个奖励值更新树上每个节点的统计量,進而调整最优策略;如此迭代,直到找到一个令人满意的解。这个过程有点像人下棋时的'读秒'。神经网络在这里的作用是指导树的生长。它可以根据历史数据预测每个决策的效用,引导树向更有希望的方向拓展"。

随机运动规划的一个关键优势是能够权衡"探索"与"利用"。"传统的优化算法大多是决定性的,总是贪婪地选择当前最优的决策。这在静态环境下没有问题,但在动态环境下很容易陷入局部最优。MCTS通过引入随机性,鼓励智能体去探索那些当前看起来并不那么优的决策,但从长远来看可能带来更大收益的决策。这种权衡在不确定环境下是非常必要的。"Chung教授解释道。

分层架构是运动规划领域的另一个重要话题。"运动规划问题往往具有多尺度、多层次的特点。比如,一个自动驾驶汽车,不仅要规划出一条到达目的地的全局路径,还要考虑如何变道超车、如何在十字路口左转或右转。这些决策的时间尺度、空间尺度是不一样的。"Chung教授说,"我们的做法是将其分解为多个层级,每个层级负责不同粒度的决策。高层负责全局路径规划,中层负责局部路径规划,低层负责具体的速度、转向控制。每一层的决策都要服从更高一层的约束。"

这种分层决策结构在Chung教授的"Leonardo"双足机器人项目中得到了充分体现。"Leonardo的运动规划包括三个层级:顶层是一个'中央模式发生器',决定步态的频率和相位;中层是一个步态规划器,根据地形和障碍物分布规划落脚点;底层是一个全身控制器,控制各个关节的协调运动。三个层级通过不同频率的反馈回路连接,既保证了决策的实时性,又实现了全局和局部的协调。"

"分层规划与分层控制密不可分。每一个规划层级的输出,都是更低层级的控制器的输入。反过来,每个控制层级也会将反馈信息传递给更高的规划层级。这就形成了一个多尺度、多通道的感知-决策-控制闭环。" Chung教授强调,"这种闭环结构赋予了机器人面对不确定性的适应能力。高层感知到环境变化,可以及时调整决策;底层控制器根据决策的变化,实时调节执行。即使规划有误差,只要误差在控制的容错范围内,整个系统就能稳定运行。这就是分层架构的魅力所在。"

自适应控制与增量稳定性

在机器人领域,运动规划负责找出一条从起点到目标的可行路径,而控制系统的任务则是让机器人精准地沿着这条路径运动。乍一看,只要规划出的路径足够好,控制系统的任务应该不难完成。但实际上,机器人在执行过程中经常会遇到各种意外情况,如风力干扰、路面摩擦、机械磨损等,导致它偏离预定轨道。如果控制系统不能及时修正这些偏差,轻则达不到预期目标,重则可能酿成事故。因此,一个好的机器人控制系统必须能够感知这些干扰,并自动调节控制策略,确保机器人在动态环境下的运动性能。这就是自适应控制的任务。

传统的控制理论大多基于线性系统,分析其在平衡点附近的稳定性。然而,绝大多数实际系统,尤其是机器人系统,都是非线性的。它们的状态空间不是欧氏空间,而是一个黎曼流形。对这类系统,平衡点稳定性的概念难以准确刻画其动态特性。Chung教授及其团队提出的"收缩理论"给出了一种全新的视角。

"收缩理论研究的是系统在轨迹上的稳定性,即增量稳定性。"Chung教授解释道,"所谓增量稳定,就是系统对初值变化的敏感程度。如果从两个非常接近的初值出发,系统的两条轨迹能随时间快速收敛到一起,我们就说系统具有增量稳定性。"

这个过程有点像放大镜下的光线。当光线通过会聚透镜时,会变得越来越集中,最终汇聚到一点。这一点就是系统的"渐近轨道"。增量稳定性意味着,无论初始状态多么分散,系统最终都会被吸引到这条渐近轨道上。

"增量稳定性有两个重要性质。"Chung教授继续说,"一是指数收敛。如果系统是增量指数稳定的,那两条轨迹之间的距离会以指数速度衰减到零,而不是线性衰减或者多项式衰减。换句话说,增量稳定系统对初值的依赖会随时间飞快地消除,这个性质叫做'初值遗忘性'。"

遗忘初值意味着增量稳定系统具有自我修复的能力。即使由于干扰或测量误差导致轨迹偏离,系统也能自动调节,快速回到正轨。这就是自适应控制的理论基础。

增量稳定性的另一个性质是鲁棒性。Chung教授指出:"如果系统受到有界干扰,轨迹偏离渐近轨道的距离也将是有界的。这个上界由干扰的大小决定,与时间无关。也就是说,增量稳定系统能将有界干扰的影响限制在一个可控范围内,防止误差无限放大。这个性质叫做'有界输入有界输出稳定性',是鲁棒控制的理论基石。"

基于上述理论,Chung教授的团队提出了一种自适应-神经网络复合控制框架。其核心思想是将深度学习嵌入到自适应控制器中,用神经网络逼近未知的系统动力学。

传统的自适应控制大多针对线性系统,采用有限维参数模型描述不确定性。这种方法对强非线性系统和高维不确定性捉襟见肘。深度神经网络具有优越的非线性拟合能力,能学习任意复杂的函数,是对传统自适应控制的有力补充。但神经网络毕竟是个"黑盒子",缺乏可解释性和鲁棒性。为了克服这个问题,他们没有完全依赖神经网络,而是将其与传统的自适应控制相结合。

"具体来说,我们假设被控对象的动力学可以分解为两部分:一部分是标称模型,可以用物理定律准确描述;另一部分是建模不确定项,包含环境干扰和未建模动力学,用神经网络来逼近。" Chung教授介绍说,"自适应控制器的目标就是估计出这个不确定项,并设计反馈律抵消其影响。神经网络在这里起到一个'动力学补偿器'的作用。"

为了让神经网络有针对性地学习不确定项,他们在训练过程中引入了"对抗性学习"的思想。"根据不确定项的物理特性,我们为其设计一个参数化的'对抗模型',它产生的干扰最容易引起跟踪误差。然后就像对抗生成网络一样,我们让神经网络去最小化在对抗干扰下的最坏情况跟踪误差。这个过程可以理解为一个智能体永无止境地和自己过不去,以此锻炼自己应对变化的能力。"

这个自适应-神经网络复合控制器已经在各种机器人平台上得到验证,展现出卓越的环境适应能力。例如,在"Neural-Fly"项目中,他们成功实现了四旋翼无人机在强风干扰下的精准悬停。即使风速、风向发生突变,无人机也能迅速调整姿态,将位置偏差控制在厘米级以内。

"风场扰动高度非线性,很难用简单的数学模型描述。我们的做法是用深度神经网络去学习这个复杂的非线性映射。网络的输入是无人机的状态,如位置、速度、角度等;输出是气动力和力矩。通过反复训练,网络可以从飞行数据中总结出风扰动的一般规律。" Chung教授解释说,"有了这个学习到的'气动模型',自适应控制器就可以快速估计当前风扰动的大小和方向,并施加反向的控制力矩抵消其影响,保证无人机平稳飞行。整个闭环系统表现出很强的鲁棒性。"

除了无人机,他们还将这一方法应用到了漫游车、人形机器人等平台。每个平台都有其特定的环境不确定性。比如漫游车要应对不同地形的摩擦特性,人形机器人要克服关节柔性、重心偏移等扰动。得益于深度神经网络强大的表征能力,复合自适应控制器能学习各种复杂环境下的运动规律,大幅改善机器人的运动性能和环境适应能力。

增量稳定性理论不仅为自适应控制提供了坚实的数学基础,也为机器人系统的故障诊断与容错控制开辟了新的途径。Chung教授和学生利用增量稳定性,提出了一种高效的执行器故障检测方法。

"传统的故障检测大多依赖硬件冗余,在每个执行器上安装传感器,通过多传感器信息融合判断故障。这种做法成本高、可靠性低。" Chung教授说,"我们利用自适应控制的状态信息,用稀疏表示的方法从数据中推断故障源。核心思想是最小化故障的个数,优先考虑单点故障。一旦发现故障执行器,就重构控制分配矩阵,用余下的正常执行器补偿故障造成的影响。"

他们在一个六旋翼无人机模型上验证了这一方法。实验设置了3个推进器完全失效的故障情形,该算法能在不到1秒的时间内正确诊断出故障,并重新分配推力,保证无人机的姿态稳定。相比传统基于观测器的诊断方法,这种基于增量稳定性的故障诊断具有计算简单、响应快速的优点,有望用于未来的自主系统。

"自适应控制一直是机器人和自动化领域的前沿和难点问题。"Chung教授总结道,"环境的多样性和不确定性对机器人的智能化提出了巨大挑战。传统的自适应控制理论局限于线性系统和有限维不确定性,难以应对日益复杂的应用需求。将深度学习引入自适应控制,开启了环境感知、学习、推理、决策与控制一体化的新范式。同时,可证明稳定性的理论保障了自适应系统的安全性和可靠性。这是'可证明AI'的重要一步。未来,机器人将通过不断学习适应不断变化的世界,像人类一样从经验中总结规律,提炼策略。这需要智能科学和控制科学的持续交叉融合。"

展望未来

采访接近尾声时,我们请教了Chung教授对机器人学习未来的展望。"我认为,控制理论家应该更多地参与到机器人学习的研究中来"。Chung教授说,"很多人工智能的研究者觉得,只要数据和算力足够,是可以搞定一切的。但实际上,机器人系统是一个集感知、控制、规划、执行等多种能力于一体的复杂系统。我们既要让机器人像人一样思考,又希望它们比人更可靠、更安全。这需要人工智能和控制论的交叉融合。"

他以自动驾驶汽车为例:"如果只是单纯堆砌机器学习模块,一旦遇到训练数据中没有覆盖的情况,极易发生致命事故。我们必须用可证明安全的控制器作为底座,将机器学习视为一种提升性能的辅助手段,而不是万能的灵丹妙药。"

对于机器人学习领域的新入门者,Chung教授特别强调了"对传统控制理论的扎实理解"的重要性。"新的东西固然令人兴奋,但很多时候,看似创新的想法其实源自几十年前的杰作。控制论和人工智能历史上有太多殊途同归的例子了。" 他笑着说,"我的建议是,在追逐时髦概念的同时,也要修炼内功,特别是优化理论、动力系统理论和鲁棒控制理论。它们是通向机器人学习的一剂良方。"

采访在轻松愉悦的氛围中结束。Chung教授学识渊博、见解独到,为我们理解机器人学习这一前沿领域提供了一个全新的视角。控制与人工智能的融合是大势所趋,但也充满挑战。如何在"智能"与"安全"之间找到平衡,是一个值得深思的问题。在科技飞速发展的今天, Chung教授最后提到:"未来的自主系统必须在保证安全的前提下,具备持续学习与进化的能力。这需要控制论与人工智能的深度融合。"

p202412/12/wendao-gongyingliansiwei_DzvVy2GbPBLs.jpg