人民网

「AI视觉」的创新源头,从仿脑到追光逐电|专访北京大学教授黄铁军

文 | 秦明;编辑 | 石亚琼

开始前,黄铁军教授先分享了自己十多年前的一个小故事。

2011年,他在斯坦福大学电机工程系图像系统工程中心Bernd Girod教授团队做访问教授。第一天,Girod教授和他一起午饭后在校园边散步边探讨问题。在聊到斯坦福网络中心创办思科公司时,正好走到山坡上的一栋小楼,可以看到屋里有不少音乐设备。

这时,Girod突然停下来问他:你知道斯坦福大学科技成果转化最成功的案例是什么吗?黄铁军告诉36氪,他当时脑海中闪现的是Google等为代表的一大批硅谷顶尖企业。

Girod教授告诉他,其实最成功的例子是这个小楼内音乐装备使用的音频合成技术,这是斯坦福大学教授的发明。随后它被应用于电子琴各种音频的底层技术中,比如雅马哈等企业的产品都是用这种技术来模拟多种逼真的声音。

这表明每架电子琴的制作都要有该技术专利许可,同时也意味着源源不断的收益会流向创新者。

黄铁军谈到,科技企业如果缺乏核心技术,就难有长远发展;若没有原创发明,也很难成为伟大的企业。因此,一直以来,追求原始创新、追寻最本质的东西,是他科学研究中的第一导向。

黄铁军在1988年进入大学,10年间先后攻读了计算机应用专业学士、工业自动化专业硕士和模式识别与智能控制专业博士学位。从硕士期间参加863项目手写印刷体汉字识别开始,如今他已在视觉信息处理方向上探索了30年。

期间,他陆续在视频编码标准、视觉特征分析、高速成像原理等三方面实现了创新突破,终结了国外向我国视频行业索取高额专利费的历史,创立了以特征分析与压缩为中心的视觉大数据处理技术体系,以及超高速脉冲视觉技术新体系。

近期,在第一届专精特新技术创新大会暨科学家创新创业论坛前夕,36氪数字时氪专访了北京智源人工智能研究院院长、北京大学计算机学院教授黄铁军,聊了聊当下人工智能的发展,包括他对AI视觉研究的思考、以及对科技成果转化的理解。

「AI视觉」的创新源头,从仿脑到追光逐电|专访北京大学教授黄铁军

北京智源人工智能研究院院长、北京大学计算机学院教授黄铁军

01 做减法,追寻第一性原始创新

早在1985年,黄铁军刚刚上高中,就赶上来“电脑要从娃娃抓起”的东风,跟随班主任霍振祥老师学习Basic语言。他回忆到,在学校微机课程中第一次接触到苹果电脑,很是兴奋,因为进步很快,霍老师把自己大学期间的计算机教材都给他自学,他对油印教材中的流程图至今记忆犹新。

黄铁军告诉36氪,真正开始研究是在大学毕业那一年,他后来的硕士导师研究手写体汉字识别。当时导师申请到863计划课题,需要新生力量,鉴于他当时成绩优秀,就被免试进入课题组读硕士。之后,博士期间研究虚拟现实,主要是基于双目立体视觉的场景建模,算是计算机视觉比较早期的一拨人。

黄铁军回忆到,2002年我国DVD产业遭遇高额专利费,自己博士后刚出站,便协助高文教授组织成立数字音视频编解码技术标准工作组,开展了至今20年的视频编码标准突围和超越之路。

2013年欧洲人类大脑计划启动,全球掀起脑科学与类脑研究热潮,北京市布局“脑科学与类脑计算”重大专项专家组,黄铁军担任了召集人,专注灵长类视网膜神经编码机理研究,提出了脉冲视觉编码新原理,研制了比人类视觉和电影电视速度快千倍的超高速相机和视觉系统。

每个脚印恰好都踩在了时代进步的节点上。

黄铁军谈到,2011年在斯坦福大学访问期间,他听了吴恩达、余凯的学术分享,那时候深度学习才刚刚热起来。转折点在2012年,Hinton团队把Imagenet视觉检测识别任务的性能提升了10%+,随后几年,计算机视觉研究发生了翻天覆地的变化,传统方法被推翻,迎来了基于深度学习的AI视觉研究。

一方面人们都沿着这条重大变革之路继续往前走,另一方面黄铁军仍然保留自己的独立思考——是不是有了深度学习,视觉就真的成功了吗?

世俗所认为的成功与学者们认为这件事是否彻底解决了,依然是两回事。黄铁军表示,那时候大多数人的创新基本上都选择做加法,比如增加神经网络参数数量,刷数据集,不断尝试新网络结构等等,结果是越来越复杂。

他更倾向于做减法,追寻第一性原理,回到最本质的源头创新上。

黄铁军告诉36氪,科研的成功不是一味进行算法性能优劣的比较,相比于“论文等身”,他更在乎独创性的原始成果,同时期望可以找到足够大的市场需求,推动产业社会变革。时机到了,技术驱动很容易引起社会性变化,搜索引擎便是典型的一个例子。

现如今,人工智能不断与产业场景结合。关于未来新一代人工智能的技术路线走向,他谈到有三条,第一是基于大数据和深度学习算法实现的人工智能技术路线;第二是通过强化学习,在虚拟环境不断训练得出的具身智能路线;第三是通过模拟生物神经系统和生物智能,最终实现智能生命技术路线。

其中,生物脑科学的精细模拟,是启发新一代人工智能的重要路线。

近期,他们团队对线虫302个神经元精细建模,训练出由高精度神经系统控制的、与环境实时交互的智能机器线虫,能够像真实线虫一样嗅探并控制身体蠕动到感兴趣的目标,从源头创新开始迈向了智能生命。

02 AI视觉的创新源头,从仿脑到追光逐电

AI视觉当下的创新源头是什么?黄铁军告诉36氪,抓手有两个。

一个是生物源头。强大的视觉处理系统是生物的天然能力,计算机视觉的研究源头还是在生物。基于此,清楚认识生物视觉的基本原理是第一个要探寻的问题

另一个是物理源头。人们能看到物体,是因为照射到物体上的光反射进观察者的眼睛中,之后通过神经元传递,让大脑感知到了物体本身。从物理设备角度看,视觉是对光信号的捕获、加工与处理。因此,回答物理世界、光信号、以及相机采集的图像视频三者之间关系是目前要追寻的另一个重要问题

黄铁军谈到,将上述两个视觉原理研究清楚,那么其他问题可能也就迎刃而解了。

在生物视觉层面,要理解整个视觉系统的机制,首先要建立起对每个细胞单元的理解。黄铁军谈到,人的眼睛里面大约有六七十种神经细胞,每种细胞及彼此间的连接都要研究清楚。

比如光信号进入视锥、视杆细胞后,细胞是如何把光信号转为电信号的?神经网络结构是如何连接的、每个连接上的信号是如何向下传递?最后需要将整个系统通过计算机重演出来。从2014年起,他们团队便开始研究了,目前已经做到了部分视觉细胞的精细建模。

黄铁军继续补充到,视皮层约占大脑皮层五分之一,若能清楚演绎出从光信号进入眼睛开始一直到最后完成识别的信号加工过程,便可以说将生物视觉搞明白了。他的团队希望再用五年左右的时间把灵长类视网膜搞清楚,他相信,在全球科研人员的努力下,预计可以在2035年左右解决这些问题。

与此同时,黄铁军也自信的谈到,他的团队已经解决了物理源头层面的研究难点。

谈物理源头要从光谈起。光学虽然不是黄铁军教授团队的学科范围,但是要探讨相机是如何采集与表达光信号的。如果研究计算机视觉只是从图像视频数据集开始,便没有追寻到第一性原理

光具有波动特性,又有粒子特性,即所谓的波粒二象性。光的波动性表现在每个光子本身,它们振动频率不同、能量不同,最后反映在光谱上的分布也就不同。

相机是通过捕获高速冲击过来的光子流,把它转成一幅图像或视频。黄铁军表示,光子在运行撞击相机传感器的物理过程中,本质是把高速运转的物理世界变成每秒几十赫兹的慢速过程。可以想象,当光子打到螺旋桨的扇叶上,然后反弹撞上镜头背后的感光元件,形成一张图片。

这里面会带来一些问题,一方面螺旋桨扇叶高速旋转是清清楚楚地发生着,另一方面传统相机以几十赫兹的速度是完全无法记录下整个过程。

黄铁军告诉36氪,虽然高速相机目前可以做到,但是成本高、体积大的特点仍然无法普及利用。其中的技术问题在于,即使相机能够每秒输出3万幅图像,背后的算法、存储能力、计算系统也难以实时处理,当前硬件设备成本高昂,这是第一个要解决的问题

视觉信息表达一直以来都采用图像与视频,少有人思考还有什么更好的办法。背后的原因,可以追溯到发明相机的年代,本质是一种化学方法逻辑。黄铁军谈到,目前人们表达信息的方式还停留在胶片时代,包括数码相机也是一样,比如打开快门,曝光数毫秒形成一幅图像。

其中的误区在于光从来都不是“整整齐齐排着队”,它是一个自然发生的随机过程,相机通过曝光获取图像的方式,最大的损失就是把丰富的动态过程变成单一的静态图像,科研人员再用算法通过比较不同图像的差别来估计运动过程,纯属浪费,但这就是目前计算机视觉的主流方式,黄铁军解释到。

如何能够低成本实时记录动态过程引发了他的深入思考。

当下,黄铁军教授团队研究的课题之一就是把光的整个运动过程记录下来。极端情况是把一个光子转成一个比特,常规器件做不到,就收集一组光子(例如1000个)转为1个比特,这样光强的时候比特流会密集,光弱的时候会相对稀疏,要想了解某时刻光强如何,可以用两个比特或两个脉冲之间的时间来计算,这就很好地刻画了光的物理过程。

也就是说,不同于传统相机,基于“视觉+雷达”模型的脉冲相机的每个像素独立,不需在特定时刻一起成像,自行记录光线变化,将光信号转换成0和1组成的数字比特流,所有像素的比特流按照空间排布组成的流阵列,准确刻画了传感器视窗采集到的一段时间内光线变化的物理过程

他的团队采用成熟的CMOS光电器件和芯片,实现了超高速连续成像,有机会逐渐淘汰贵且大的高速相机乃至所有摄像头,重塑包括表示、编码、检测、跟踪、识别在内的整个视觉信息处理体系。

放弃传统图像视频表达,回到表达光物理过程的本源,这就是叫做减法。基于此,在脉冲视觉的世界中没有图像,光变成脉冲流,图像视频等只是产物之一,脉冲流还可以直接输入脉冲神经网络,实现超高速机器视觉。

03 成果转化,没有糊里糊涂的成功

视觉表达过程不用图像,而用脉冲流,这个原理的提出使人们真正离开胶片时代,完成数码相机没有完成的数字化革命。

有了技术原理模型,黄铁军在2016 年1月申请发明专利,2019年中国专利授权,随后美国、日本、韩国、欧洲等国际专利也均授权;2017年团队设计了第一块芯片,能够拍摄出高速的过程,性能显著;2021年进入科技成果转化,成立了公司——脉冲视觉。

根据官网介绍,这是一种全新的脉冲视觉智能技术,颠覆了视频概念;通过脉冲相机,将光信号转换成0和1组成的数字比特流,所有像素的比特流按照空间排布组成的流阵列,准确刻画了传感器视窗采集到的一段时间内光线变化的物理过程,能够“追光逐电,见所未见”。

「AI视觉」的创新源头,从仿脑到追光逐电|专访北京大学教授黄铁军

脉冲相机拍摄高速扇叶(来自脉冲视觉官网)

实验室芯片到工业级芯片,从零到一的工作已经完成,接下来就是产业化了。

他谈到,该技术可广泛应用于高铁、电力、风电和工业检测等行业高速检测需求,也可以用于车路协同、自动驾驶等实时响应场景,同时也用于高速手机摄像头,提升主摄成像质量,记录高速运动过程。

从原创技术的诞生到市场化的产品,可能直接转化后企业就欣然接受,也可能需要经过很长时间才能找到它的应用爆发点。

脉冲视觉已经完成了“从零到一”的原始创新,能否将独特优势技术发展成硬科技企业,需要经过市场经营与验证,这就需要强有力的团队支撑。在这个转化过程中,科学家关注技术创新和技术升级,特别需要职业经理加入,组建从技术、产品到经营的专业团队。

过去成功的企业中,大多是平台性企业,本质上是商业模式加上互联网。黄铁军谈到,当下中国的原始性创新不断涌现,越来越多的“专精特新”企业逐渐登上舞台,未来也将从原创技术成长为某个方向的小巨人乃至全球领先企业

(完)

「AI视觉」的创新源头,从仿脑到追光逐电|专访北京大学教授黄铁军

免责声明:本文来自网络投稿,观点仅代表作者本人,不代表芒果财经赞同其观点或证实其描述,版权归原作者所有。转载请注明出处:https://www.mgcj.net/932348.html
温馨提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。