8月7日-8月9日,年全球人工智能和机器人峰会(简称“CCF-GAIR”)在深圳如期举办!CCF-GAIR由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办,以“AI新基建产业新机遇”为大会主题,致力打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
8月8日上午,在「机器人前沿专场」上,大道智创联合创始人龙建睿博士进行了题为「机器人导航技术的通用平台和垂直场景」的演讲。
龙建睿是伊利诺伊理工大学博士,哈尔滨工业大学本科。年开始负责机器人自主移动系统的研发,专精于视觉/激光SLAM算法、导航与控制算法和多传感器系统架构,致力于通用场景下可靠、轻便、零部署overhead的技术方案。持续在安防、智能工业/农业、清洁防疫、物流配送和信息分发等各种场景下探索低速无人驾驶技术的商用可能,主导推进的e巡安防巡逻机器人、DDR移动零售机器人、防疫机器人、移动信息发布机器人和CS一体化智能牧场机器人等产品目前已成功落地,并具有完全自主知识产权。
大道智创是一家专注于研发安保机器人的公司,主要研发和销售巡逻机器人、安保机器人等商用服务型机器人,以视觉定位为主,配合多传感器融合,在复杂环境下实现全自主定位巡航。
以下是龙建睿博士在大会的演讲实录,雷锋网作了不修改原意的整理和编辑:
大家好,我的分享主要围绕机器人导航技术展开,从通用平台和垂直场景两个角度去理解,以及提供我本人的一些判断。
机器人“动”起来
这次讲的主要是移动服务机器人而不是工业机器人,因为那不是我们的专长。此外,我们希望机器人能“动”起来,能为我们提供处理问题的服务,因此也不讲固定机器人。在过去几年,我们看到很多机器人在不同的场景服务人类,但服务局限于交互服务,如人脸识别、语音识别、对话、迎宾等。相反,我们探索的是机器的自主运动服务。因为人类一个非常重要的功能就是行走,要在物理世界互动。机器人需要扮演的是一个跟物理世界互动的角色。张宏院士提到定位导航,即我在哪,机器人需要知道我在哪,然后知道自己要去哪,因为这是它能够开展服务的一个核心。但是我们先不谈“我是谁”,因为这是强人工智能的问题,这是终极机器人的答案,我们现在暂时无法回答。接下来我会提供一些自己的想法,即我们认为它有什么、猜测它会变成什么样,但是我们不能断言它具体是什么样子的。
服务机器人行业的市场规模大概如下:
如上图所示,全球服务机器人的规模是亿美元左右,而且还在快速增长,中国在全球的占比也是不断增长,速度加快,但最关键的一点是,服务机器人正围绕着“我在哪”和“我要去哪”这两个核心问题发展出了一系列应用。
现在已经有很多基于传统AGV的新应用出现,比如商用清洁、配送、安全巡逻、现代农业等(如下图):
上图展示了机器人在许多场景下的应用。
最左边的三张图是相对传统的行业应用,如搬运机器人,如变电站与核电场内的巡检机器人。以及左下角是现代农业的自动化推料机器人。这三张图跟其他应用的不同之处在于:左边的场景离我们的生活稍微有点远,我们并不用每天去仓库,可能也被禁止进入核电站。右边这三列诠释了近几年的应用变化。服务机器人进入这些环境,已经是跟我们进行零距离接触了。我们家里可能会用小小的扫地机器人帮我们扫地,在商场会看到商用清洁机器人为大环境进行清洁,也看到一些零售服务机器人和信息广告分发机器人,它们能在商场或更大的环境里自主运行。相信很多人也见过送餐机器人,它可以让繁忙和需要人力的行业慢慢变得高效。右边三样是室外机器人的应用,如物流配送机器人、巡逻机器人、零售机器人。
服务机器人的应用场景越来越丰富,所处环境的变化越来越多,而人类能对它进行的改造其实越来越少。怎样才能打造这么一些系统呢?我们相信真正有效率的办法是找到这些机器人的共性,平台化,让它扩展。
上图顶部的场景就像是一棵树的枝,底下是我们想到的通用的平台和模块。一个机器人系统可能有非常多这样的模块,那么它们之间有哪些共性呢?我们应该怎么看待每一个模块呢?它们是更容易通用化的东西,还是需要非常多细致的定制呢?接下来做一些简单的介绍。
1.运动平台
首先,移动服务机器人肯定有一个运动平台,涉及到“海陆空”三军。我们看到天上飞的、水里游的、地上走的,似乎都有两种模式、能跨越各种地形的足式的机器人。如果我们是一个小小的爱好者,或者是小小的创业公司,要做产品,需不需要从头开始搭建一个机器人品牌呢?不需要。我们可以去找通用的平台。
目前看起来,许多工作已经开始往平台化、通用化的方向努力了。比如智能驾驶汽车,里面线控与其他部件的标准已经非常固定、非常成熟。那是否意味着运动平台作为运动机器人的核心已经固定地通用化了呢?其实不是,因为我们看到机器人的一切服务都是在场景当中,运动平台自然是要为场景服务,我们没有办法让轮式机器人到天上去巡逻、去追踪,也没有办法把一个无人机放在海里面。
比方说,最左边的两个机器人都可以运动,都是驶轮式的,控制可能也都比较简单,可以原地旋转。但是我们可不可以在室内使用坦克一样强壮的机器人呢?理论上是可以,但是它的预算、功耗、对环境的干扰和影响有可能是灾难性的。所以我们在高端的写字楼里应该不会看到这么强壮的机器人。或者说,如果要在小区里、公路上、开放道路上做巡逻,我们可不可以用左上角的机器人呢?好像也不可以。这就造成一个问题:好像就连这么一个简单的运动平台,也没有办法完全通用化,而更多是一定要根据场景进行选择。
上图所示是一些比较传统的定位导航设备,如轮子里程计、惯性测量单元和GPS。相对于前面的环节来说,它的通用性会更好一点。但是,如果我们要做机器人服务的产品,那些这些东西的选择一样是有非常多的考量,比如制造的成本、性能和成本的平衡。
接下来这几类传感器是近几年比较热门的:
激光雷达可以直接探测周围环境物体的位置和距离。右边的摄像头看起来很不起眼,但擅长追踪物体和环境的纹理信息。这两种类型的传感器最大的特点是信息量非常巨大,可以提供各种各样的冗余。好像这样的传感器配上开元算法是不是就解决了导航所有的问题呢?是不是就可以判断它是通用呢?其实不是。
我们看左边的激光雷达。提到“激光雷达”,大家认为具体是指什么样的雷达呢?是平面雷达还是度的3D雷达?如果是3D雷达,又是多少线的?还是那个不怕振动但是视场角有限的MEMS雷达?你要的雷达是美国人生产的还是中国人生产的?需要的是第几代雷达?这是一系列非常细致的问题。即使确定了这些,我们也会发现后面有一些跟算法紧密相关的问题。
视觉则更复杂。单个摄像头可能看起来简单一点,但是引入立体视觉(机器人系统中非常常见的设备)之后,就有非常多具体的问题,比如分辨率、精度、曝光时间。像立体视觉还有基线的问题,基线长的话可能探测的时间越长、越远,甚至还有一些混搭的玩法,比如右下角度的鱼眼的全景摄像头能不能跟其他传统摄像头进行配合?这一系列的东西听起来更像是为了场景设计出来的部件,而不是通用的部件。由于激光雷达和视觉系统的误差、模型、定位的精度不同,而且又有一些互补,所以现在出现了第三类的、介于两者中间的混合型产品(如RGBD相机),可以同时提供纹理和比较精确的深度。有些创业公司把激光雷达和一个或多个摄像头配合在一起,通过非常高级的算法和定制化的芯片直接计算出非常长距离的、非常高精度的深度信息和RGBD信息。这里列出来的设备范围有限,但是我们看到过这样的创业公司会做出非常远距离的深度相机。这些都是优化的方向。那它们之间有没有通用呢?有没有共性呢?有,但还是以场景导向为主。
2.计算平台
接下来讲到较有通用性的计算平台。从嵌入式到PC,再到汽车上使用的自动驾驶器和超级计算机。我们也希望这些东西是机器人系统里面最容易被通用化、最容易被广泛推广的。
下面是定位导航的核心软件。我们做机器人导航与算法优化经常会听到客户、投资人、爱好者或其他人问的一个问题:这些东西不都是开源了吗?这些东西都已经是造好的轮子,你们为什么要自己去开发呢?
我讲几个简单的对比。现代的数学其实是几百年前就已经开源了,那我们能够用几百年前的数学做出机器人或者人脸识别的机器吗?不能。数学就像一个万能的轮子,但是你要把这个轮子打造成自己想要的样子。这里就是我们做定位导航和算法优化要考量的地方。首先是开源还是闭源?其实没有软件可以完全不依赖于开源,或者只依赖于开源。它一定存在非常多定制化和场景适配的问题。从开源到闭源,中间的平衡掌握恰好是一个机器人公司,特别是做底层技术机器人公司真正有价值的地方。在这个探索的过程当中形成对场景、场景配置和模块组合的理解,还有对从业者本身优秀的直觉。这些理解的价值远远大于产生酷炫好看的demo。
另一个问题是:可配置化和可替换组件是一种好的方式吗?还是用一体化和傻瓜化的东西?这里我想举两个例子。如果有一把瑞士军刀,现在伸出来是螺丝刀,但是我希望它马上变成开瓶器。我想这个是非常容易的,只需要把另外一边拔起来。它是一个可配置化的产品,也是一个可以替换的组件。但我们卖给用户的一定是这样的东西吗?再举个例子:最近有一种比较火的化学物质叫硝酸铵,它可以配置成高效率的氮肥,也可以配置成非常凶猛的炸弹。那我们要把这么一种东西交到用户手上吗?这一切都非常依赖于你对产品的定义、对产品使用场景的限制,还有中间缺失的某一种运营的环节。
还有一个问题是:端上的功能还是云上的功能?这涉及到算力分配。我想这以后慢慢会变成协同,但是协同的界限在哪里?哪些东西是需要实时、马上、立刻、快速处理的?而哪些东西可计算量不大,不用占据我太多资源,我也不着急用的,我也可以慢慢交给云?随着通信系统的变化,界限也会慢慢推移。
3.环境改造
环境改造是机器人行业