8月5日,合创资本「VINNO Day」论坛第07期《自动驾驶中的数据战争》在燧石星火直播平台和北大i1898 APP上线。本次分享,合创资本投资企业--MINIEYE创始人刘国清博士,就自动驾驶中的数据战争展开精彩分享,直播吸引了3300多位合伙人、被投企业和投资机构在线收看与交流互动。
以下内容为直播整理总结:
今天主要聊一聊自动驾驶数据。
数据闭环
跟很多人工智能的应用一样,智能驾驶主要涉及三件事,一是算力算法,另外一个就是数据。
算力在人工智能行业里面占据重要地位,是很关键的一个角色,所以基本上每家芯片公司都在围绕算力做非常多的研发投入,持续有一些新的型号产品。算力的峰值出现,不像2014年、2015年的时候可选的车规级计算平台只有几家,而且算力非常有限。现在,这种瓶颈已经逐渐被打破。
算法。如果把数据比喻成弹药的话,算法就是武器。回顾2014年到2018年这个阶段,人工智能特别是神经网络的发展,是算法迭代的黄金时期,从几十层到上百层的神经网络层出不穷,在性能上表现的也是越来越好。 这5年左右的发展,赶上可能过去10年甚至20年算法的进展。2019年以后,视觉以及一些融合相关的感知类算法迭代上,进入到一个相对平缓的发展节奏。
2019年以后,突破性的算法较少出现,更多的集中在一些应用,到底怎么把神经网络的技术神经网络算法应用到实际场景里去,就是我刚才提到的数据,它是弹药。
这是一个典型的人工智能系统架构。橙色代表训练的过程,蓝色代表推理过程,训练的过程相当于处在一个学习阶段,去掌握一些技能。这个技能可以是识别车、识别语音,识别中文、西班牙语等等,也可以是推荐可能感兴趣的 IC、IT类产品。 它涉及到不同的应用和任务,具体能够实现什么功能依赖于你的训练数据。经过这样一个训练,我们得到了一个模型,基于这些模型就可以进入到influence推理的过程,去实现一些应用。
比如,基于人脸识别。可以去做上班打卡的一些产品,基于语音识别或者语音的一些合成等,去做一些跟语音相关的专业应用等,这其实就是一个典型的人工智能的架构。
举一个例子,疫情后大家都养成了带口罩的习惯。以前上班打卡不戴口罩的时候,可以非常准确地识别到我是谁。但是,当我们戴着口罩有可能就无法识别了。但是过了一段时间,又可以支持戴着口罩进行人脸识别了。 其实是因为考勤机缺少戴口罩的数据,相当于它没有学习过这个东西,但是后来随着需求的增长,以及后台数据针对于带口罩数据的补充,它又掌握了这个新技能。这一点也体现数据的价值巨大。
与考勤打卡这种相对可控的环境下做出的人工智能应用而言,自动驾驶相关的人工智能技术面临的挑战是更大的交通环境和场景。最核心的一个问题是我们要识别和分析,交通环境里的各种目标,它的内差很大。比如说,对于人脸,同样是这个人脸不论白种人,黄种、黑种、大人、老人还是男人,他都是两个眼睛一个鼻子一张嘴,结构也是非常稳定的。在这种情况,对于人脸的表达,内差比较小。但是,对于我们要面临的交通场景里边的目标。比如说,人体有各种各样的姿态,站立、蹲着、打伞、穿雨衣的时候,甚至还有一些奇装异服的行为,所以同样是行人,区别可能非常大。对于车也是一样,各种各样的车型,包括对于光照的影响,天气的影响等等,这些都造成交通场景下各种目标的内差很大。
数据是战略资源。从技术角度来看的话,数据的摩尔定律已经被打破了,相信用不了多久,在车载车规级的算力上会有更多像英伟达一样的企业去满足新的硬件平台,甚至到L3、L5的一些增量需求。
而算法,随着时间的推移其稀缺性呈边界递减;而数据它实际可以持续地扩宽我们的护城河,真正形成长期的壁垒。 如果想要公司去共享自己积累下来的核心数据其实是很难接受的,只能靠更多的企业和联盟自己去积累。
到底怎么去积累?一种方式是进行自行采集。像Waymo部署了几百台自动驾驶车辆,在美国几个州进行路测,受到车队规模的限制,整个采集的积累过程比较缓慢。积累100亿英里数据需要76.1年,而业界普遍认为做L4、L5基本上要做 100亿英里以上的里程数据。
另外一种方式,通过用户生成数据。比如目前特斯拉的用户已经使用Autopilot系统驾驶了超过10亿英里,为他们提供了大量更有针对性的宝贵数据,更好地了解意外事故。我们MINIEYE则与美国GM联合研发,利用已量产的ADAS产品,自动采集“Corner Cases”数据,帮助L4/L5级自动驾驶的研发。
如何在整个自动驾驶的演进过程中打造竞争力?如何有效构建数据闭环呢?
从量产的产品拿回用户使用过程中生成的数据,利用这些数据帮助持续迭代技术,然后利用迭代的技术实现产品的进化,进而 OTA或者交付给新的客户,用数据去驱动整个的研发事情,在自动驾驶的整个版图上非常重要。
MINIEYE云端数据工厂
我们的定位是做自动驾驶体系里面的感知,所以整体数据的积累也是围绕感知的定位来做的。
首先,数据怎么生成。目前在前装、后装都有一系列产品,包括我们去年年底还推出了一代消费级的驾驶辅助类产品,目前都是集中在L1和L2阶段。这些已经装配的产品为我们提供了非常好的数据源,我们从这些已经量产装配出去的设备上,利用自带的司机或者5G模块进行通信,帮助我们拿回用户使用过程中数据。
主要包括两类,一类是交通环境处理。除了摄像头数据、雷达、超声波等等这些数据,不同的车型,不同的数据源都有不同的积累。我们既有原始数据,还有整个的感知数据,这些感知数据帮助我们为车主和客户提供了驾驶辅助功能。另一方面,它能够帮助我们去筛选想要的数据。除了外部的交通环境以外,还有驾驶行为数据。 包括转向、油门、刹车这些控制类的数据。不仅要了解外面的环境,还要知道在这种环境下驾驶员是怎么操作的。
其次,数据的获取。当然硬件基础需要通信模块,目前我们主要两种方式,一种是自带的4G或者5G的module,另外一种是T-BOX。通信通过T-BOX回传到云端,我们自研了分布式架构,在安全性、扩展性和集成性上都有很好的优势。 基于这样一套分布式架构,我们去做任务管理和任务下发。 基于我们的任务管理系统和装配件,可以拿回大量的数据,围绕这些数据我们可以开发一套大数据管理平台。
最后,数据的使用。在数据闭环里,数据驱动非常关键的一个点,是如何提升测试的效率和有效性。测试现在是整个自动驾驶技术环节里面最核心的部分。在我们构建的数据闭环以及围绕数据驱动的研发体系里面,我们把测试做成了一种在线服务,叫TaaS(Testing as a Service),包含了一系列自主研发的一些工具和平台。
拿到数据后,我们会通过Mini-Annotation进行半自动化数据标注。目前,根据不同的目标和任务基本上达到70~80%的自动化。在我们的TaaS中,还有一个比较核心的部分是Mini-OJ自动化测试系统,可以在线实现测试数据的管理、分析以及相关可视化,促进协作各方面效率提升。
除了软件和算法层面上的测试以外,硬件在环也在汽车电子里面很重要的部分。我们硬件在环做成一种分布式,传统的在环整体来讲做的比较重,我们通过模拟器的方式尽可能把它小型化和轻量化,并且我们让所有的HIL都联网。整个这样一套分布式的HIL系统对于高效地去实现硬件相关的测试也起到了很重要的作用。
我们还做了Mini-SIM自动化仿真测试系统。不同的天气条件、路况、车型、光照条件等等都可以通过这种仿真的方式去搭建测试环境,实现相关主体的测试。基于数据发现问题,基于这些问题,针对性的迭代技术。通过补充数据或者修改我们的网络结构重新设计网络模型,帮助我们解决问题,通过OTA算法对我们的量产数据设备进行升级,让我们的用户始终都享受最好的服务。
数据的增值服务
数据不仅助力我们构建自己的技术壁垒,帮助我们按照一种渐进式的方式迭代技术,让感知系统能够满足越来越高阶的自动驾驶感知需求。除此以外,数据的商业价值也很大,围绕数据我们可以去做一系列的增值服务。
目前,有一系列的车型和车队装载了我们的产品,围绕这些产品,我们可以把这些数据按照一定的需求拿回来。基于这些数据,我们一个典型的应用就是帮助客户来进行高精度地图相关的数据的更新,我们和四维图新也有很深入的合作。我们通过量产的终端ADAS设备实时根据特定需求去捕捉道路的数据,包括矢量、建图的数据可以回传到云端,然后在云端帮助四维图形和其他的客户,去做高精度地图。
未来,我们希望能够从感知跨越到决策,然后打通感知+决策的整个闭环。