首页 >民生法规

ResNet成阿尔法元核心技术旷视孙剑详

2018-10-17 15:33:03 | 来源: 民生法规

ResNet成阿尔法元核心技术 旷视孙剑详解Zero的伟大与局限

2017年10月19日,DeepMind团队发表了迄今最强版本的AlphaGoAlphaGo Zero,其中一个重要模块是出自华人团队的深度残差络ResNet。就此背景,新智元采访了深度残差络ResNet作者之一,旷视科技Face++首席科学家孙剑博士。孙剑认为,AlphaGo Zero技术提升足够伟大,但在真实技术落地过程中还有着众多局限,并指出未来的主流深度学习技术还将会围绕大数据训练模式的方式展开。在采访中,孙剑还谈了计算机视觉远远没有被解决,全世界的研究人员一起来做都不够。

图: ResNet 作者之一、旷视科技Face++首席科学家孙剑博士

AlphaGo Zero的伟大与局限:两大核心要素实现极简算法,无师自通短期无法成为AI主流

AlphaGo Zero的搜索过程简化了很多,例如把以前系统中的两个络合并成一个络,将深度残差络的输入做最简化。孙剑博士在谈到本次AlphaGo Zero的技术特点时说:把19x19棋局图像直接送给神经络,让神经络看着棋盘做决策,这个非常简洁。

孙剑表示,本次AlphaGo Zero的提升主要有两个核心要素,一个是启发式搜索,一个是深度残差神经络,而这两者又实现了完美结合。其中,启发式搜索的思想非常朴素,是个针对问题设计的一个高级定制版蒙特卡洛数搜索算法;而深度残差神经络则让简单的搜索算法极大地提升了效率。

深度残差神经络(ResNet)在2015年由孙剑在微软领导的视觉团队率先提出,并在当年的ImageNet以及MS COCO两大学术竞赛中包揽五项冠军。ResNet一个重要的突破是实现了152层的络深度,这让一些非常复杂的函数做映射时的效率与有效性得到了极大的提升。结合了ResNet的强大络使AlphaGo Zero能够快速、准确地学习每一子的落子概率和对整个棋局进行判断。

AlphaGo Zero的伟大之处是第一次让机器可以不通过任何棋谱,在只告诉规则的前提下,完全从随机开始,而且只在一台有TPU的单机上运行,不到3天就超越柯洁版的水平,最终成为围棋大师,这种无师自通的学习模式在AI整个发展上是具有里程碑意义的。孙剑博士讲到AlphaGo Zero的技术意义时说。但是,这种无师自通在很多AI落地中也存在一些局限,因为严格讲,围棋规则和判定棋局输赢也是一种监督信号。因此,说人类无用,或者说机器可以自己产生认知,都没有准确地理解AlphaGo Zero。

虽然在技术上令人惊艳,但在很多AI行业落地中,所谓的无师自通或者弱监督学习在短期还是无法成为主流。目前人工智能落地解决的很多事情,实际上都是在模拟人类的某一种技能,让机器应用这一技能去完成任务,而这需要海量的数据与更多的信号输入。以旷视Face++所擅长的人脸识别为例,人脸识别是人类特有的一种能力,与演化和后天习得有关,把这种能力输出给机器,就需要人的监督信号。所以,在今后很长一段时间内,监督学习依然是AI研究与AI商业化的主流方向。

在创业公司也做基础研究:如何做更好、更小的络

对于这次ResNet被AlphaGo Zero论文引用,孙剑显然非常开心,还特意发了朋友圈。这次应用在AlphaGo Zero中的ResNet残差神经络,曾获得了CVPR2016的最佳论文奖,我也非常高兴这个技术可以应用在AlphaGo Zero系统中,当然ResNet并非我一人的功劳,它应当归功于团队的齐心之作和微软亚洲研究院开放的研究环境。目前,我在旷视科技(Face++)也正在打造这样的开放环境和原创精神。

加入旷视以后,孙剑的研究和交流步伐也没有停下。他现在是旷视的首席科学家,同时也是旷视研究院的院长。虽然在采访中,商业化、场景、落地等非常创业公司的词常常出现在孙剑的论述中。但是,孙剑认为,在创业公司做研究和在大企业做研究实际并没有什么不同。做研究很大的一个点就是,别人都往那边走的时候,你要看看别的方向做不做。孙剑说。

这样做的一个结果,是旷视研究院在今年7月提出的ShuffleNet,ShuffleNet专门为了移动应用而生

ResNet成阿尔法元核心技术旷视孙剑详

,在设备提供的计算量很小的时候也能快速响应。卷积神经络在设计空间有几个重要的维度,比如深度、卷积核个数,卷积核大小以及特征图,每一层的计算复杂度完全取决于这几个参数。孙剑说:我们目前得出的结论是:一个络的真正性能,主要取决于其计算复杂度。如果新的络结构没有大的变化,基本是计算力决定这个络性能有多好。

为了适应移动端的计算力,ShuffleNet在结构上继承了残差络(ResNet)的设计思想,并在此基础上做出了一系列改进来提升模型的效率:首先,使用逐通道卷积替换原有的3x3卷积,降低卷积操作抽取空间特征的复杂度;将原先结构中前后两个1x1逐点卷积分组化,并在两层之间添加通道重排操作,进一步降低卷积运算的跨通道计算量。

图: ShuffleNet结构单元

ShuffleNet的主要吸引力在于,它使用的是任何人都可以在任何深度学习框架中轻松实现的简单、标准的操作(分组化卷积 + channel shuffling)。这对于许多应用都非常有用,事实证明,ShuffleNet发布后也得到同行的广泛应用。任何人都能用,而且易于使用、容易实施,能快速改进性能,这正是我们需要的研究,这样的研究在未来也将变得愈发重要。

除了像ShuffleNet这样通过络设计的方式把计算量降下来,旷视在去年还发表了一项工作DoReFaNet,走的低精度的路子,把内部的数表示从浮点型,切换到定点或者更低位的表示,它可以是络中的权重,也可以是络中的特征。DoReFaNet训练中的梯度用Low-bits表示,因为这个络的权重、激活,以及梯度分别用一位、两位、以及四位来表示,所以我们研究院就叫这个络DoReFa-Net。

在今年的ICCV上,孙剑和旷视的研究人员Yihui He,以及ResNet的另一位作者张祥雨(以前也在微软亚洲研究院,现在和孙剑一起加盟旷视)合作,也有一篇论文发表,题为《加速极深神经络的特征剪枝》(Channel Pruning for Accelerating Very Deep Neural Networks),继续在降低计算量的这一方向上发力。

猜你喜欢