作为旷视消费(fei)物联网业务的重(zhong)要后方力量,成(cheng)都研究院的(de)使命可谓“顶(ding)天立地”。向下(xia),夯实算法产业发(fa)展地基,通过更加智(zhi)能的手机影像算(suan)法助人们在不同(tong)环境下拍出更(geng)高质感图像;向上,在 HDR、Denoise、SR、光(guang)流等与业(ye)务密切相关的细(xi)分赛道上展开更加极(ji)致的探索,在(zai) CVPR、ICCV 等顶级(ji)会议上持续(xu)输出“旷视势能”。
“科研(yan)做上限,产品看下(xia)限”,旷(kuang)视成都研(yan)究院负责人刘(liu)帅成以此总结科研(yan)与商业化二(er)者间的“鸿(hong)沟”。但正(zheng)因如此,成研院为打(da)通“产学研用”融通壁垒提供了肥(fei)沃土壤,为激(ji)发科技创新(xin)氛围默默蓄力。
从零开始 科研(yan)之路要如何蹚?
自2018年成立以来(lai),成研院(yuan)累计发表 10 多篇(pian)论文被CVPR/ICCV/ECCV/AAAI 顶会收录,这样(yang)的成果足(zu)够令人惊喜(xi)。期间付出的(de)心血,实非朝夕(xi)之功。2019 年(nian)下半年,成研(yan)院转型聚焦于手机(ji)影像算法研究(jiu)领域。回(hui)顾那段日子,刘帅成(cheng)坦言最头疼的是(shi)很多同学之前(qian)并不是研究这个领域(yu)的,刚开(kai)始不知怎(zen)样搞科研,既(ji)对手机影像(xiang)算法缺乏深入了解(jie),也不清楚完(wan)成一篇 CVPR 需要(yao)经历什么样的过程(cheng)。
而对于刘帅成来(lai)说,图像研究并不陌(mo)生,他一(yi)直专注于底层视(shi)觉和计算摄影学(xue)研究,具有多(duo)年科研经验,于是他决意带大家(jia)一点点来。他把(ba)“怎么读 paper、怎么(me)想 idea、想到 idea 后怎么做实(shi)验”等繁杂的任务逐(zhu)个拆解下去(qu)。“刚开始,大家想(xiang)到的 idea,要么跟别人撞了(le),要么就根本不可能(neng)发表。”
凭借(jie)对商业落地(di)实践的持续观察,每周两次雷打不(bu)动的“Paper Reading”,以及(ji)队内日渐高(gao)涨的“传帮带(dai)”科研氛围(wei),团队的科研能力逐(zhu)渐提升,最(zui)终形成了 2021 年的井(jing)喷之势。
“这其(qi)实是互相影响的过程(cheng),有些同学感觉(jue)自己做了很久(jiu)的项目,也想尝(chang)试发点论文,或者有(you)些同学看(kan)到别人打比赛拿了(le)奖或者是发了顶会,他可能也(ye)会想去尝(chang)试一下。”
而(er)在 CVPR NTIRE(New Trends in Image Restorationand Enhancement, 即图像(xiang)恢复与增强的新趋(qu)势)2021 挑战赛上(shang),成研院还包揽了(le)图像超分辨率(lu)、图像 HDR 两(liang)大赛道的冠军(jun)。
提到(dao)团队首次打(da)比赛的经历,刘帅成(cheng)坦言一切(qie)都靠摸索。“整个比(bi)赛过程中,我们能(neng)看到不同账(zhang)号在榜单上的排(pai)位,有段时间我们(men)团队始终处(chu)在第二或第三的位(wei)置,我们就使劲(jin)想办法搭各种模型(xing),A 同学把这(zhe)几个结构试了(le),B 同学把那几(ji)个结构试了(le)。要试哪些结(jie)构,大家会先开会(hui)讨论 To Do List,对每一项任务做(zuo)到精细的时间管(guan)理和计划制定。”
最终(zhong)结果多少有些让(rang)人意外。开始排在(zai)第二第三名的比赛,成研院最终(zhong)斩获了冠军;而长(chang)期排在榜一(yi)位置的一项(xiang)比赛,反而因为大(da)意而被后(hou)面的人追了上来,最(zui)终拿到亚(ya)军。“今年我们也(ye)要吸取这样的教训(xun),一次排在(zai)第一并不代表(biao)最后也排在(zai)第一,刚开始排在第(di)二第三名,也不代表(biao)最后没有机会去(qu)反超。”
重在(zai)实践 如何叩开(kai)商业的门?
将科研成(cheng)果应用于(yu)商业世界,推进产(chan)品落地是成研院立(li)足之本。尤(you)其是面对智能(neng)手机“影像为王”的加速进化(hua),更需要AI算法配(pei)合不同平台的硬件实(shi)力更好发挥效(xiao)能。
一(yi)个好的算法最终(zhong)能够实现工(gong)程化落地,中间需(xu)经历包括模(mo)型优化、加速、质量(liang)评估等多环节流程。为此,刘帅成强调(diao),相较于科(ke)研对“最好”的追逐(zhu),做产品更要关(guan)注“下限”,“将(jiang)算法应用到产品中(zhong)去,各种情况都要(yao)考虑到,对用户来说(shuo),质量和成(cheng)片率都很重(zhong)要。”
另(ling)一方面,不(bu)同于实验中完全(quan)客观的结果,不同客(ke)户 QA(Quality Assurance,品(pin)控)的标准、偏好(hao)也将极大地(di)影响算法优化。有(you)的 QA 对图(tu)像“发灰”很敏感(gan),有的 QA 对噪声(sheng)很敏感,这(zhe)就要依据不(bu)同重点去发(fa)力。刘帅成表(biao)示:“手机(ji)产品迭代(dai)节奏很快(kuai),尤其临近产(chan)品发布的(de)时候,我们内部要(yao)跟客户交互(hu)着测试,一周可能要(yao)发布几个版本,以进行高(gao)速迭代反(fan)馈。
2021 年,成研院在(zai)开展技术(shu)攻关的同时,与(yu)内部业务团队(dui)协同的交付流程(cheng)亦开始迈入正轨(gui),高效交(jiao)付、批量化交(jiao)付渐入佳境,包括(kuo)超画质、降噪和图像(xiang)增强等在(zai)内的技术,在(zai)诸多智能(neng)手机中广泛应(ying)用。
“批量交付是指算(suan)法已经成(cheng)熟,已在某一个(ge)机器上实现量产,我们需要(yao)把量产的(de)算法推广到更多机器(qi)上做适配,这就叫做(zuo)批量交付。这是从 1 到 100 的产(chan)品化的过程,从 0 到 1 则(ze)更像是项目(mu)化的过程。”刘帅成解释道(dao)。
持续进(jin)化 科研人揭秘成(cheng)长“宝典”?
正如成研院的存在(zai),为很多不(bu)知道“如何(he)进入圈子”的年轻人(ren)搭建了一个平(ping)台。“我们其实(shi)也带了很多完全没有(you)经验的同学,带到(dao)他们去申请(qing)博士,相当于(yu)给他们当跳板(ban),我们也希(xi)望他们能跳得更高。”
在给予(yu)年轻人机(ji)遇与关注的(de)同时,一些(xie)同学们会遇到的共性(xing)问题也日渐突出(chu)起来。比如,没有(you)相关学科背景怎么(me)办?不知道如何搞(gao)科研怎么(me)办?投论(lun)文被拒怎(zen)么办?为此,成研院(yuan)结合实操经验,为有(you)志于从事(shi)算法工作的伙(huo)伴们给到一些小小的(de)建议。
1.相较于学习背(bei)景,发自内心地热(re)爱更重要。是否能做好这件事(shi)情,取决于你是(shi)否是发自内心(xin)地热爱。当你很爱这件事的时(shi)候,你才有强大(da)的自驱力(li)去发掘各(ge)方面的资源、去积累(lei)相关经验(yan),否则很可(ke)能遇到一(yi)个比较困难的(de)问题就退(tui)缩了。
2.论文数量不是(shi)衡量一切的指(zhi)标,投论文(wen)要摆正心态。相较于(yu)论文数量,论文(wen)后续影响力(li)如何更为重要,经过(guo)一段时间的沉淀(dian),优质论文的引(yin)用量是很高的。面(mian)对论文被拒的情况,要有一颗平(ping)常心,切实分析(xi)原因是下一次投(tou)稿成功的关键(jian)。最重要的(de)是,要保证(zheng)自己不被失败纠缠(chan),能站起来直(zhi)面这些挑(tiao)战。
3.不打无(wu)准备之仗。做画质方向,顶(ding)会里关于low-level的论(lun)文,以及国际(ji)顶级学术期刊 TPAMI,IJCV等,都值得同学们(men)关注。另外,做(zuo)底层视觉,传统算法也很重要,很多深度学习算法(fa)借鉴了传(chuan)统算法的设计(ji)思想,学扎实(shi)基本功才是继续深造(zao)的资本。
4.坚守“长期主义(yi)”,继续(xu)深耕自身研究领(ling)域。成绩不(bu)是一蹴而就的,得有(you)一定时间(jian)的积累,有些(xie)同学习惯打(da)一枪换一个地方(fang),缺少坚持,很(hen)容易“走得快但(dan)走不远”。结硬寨,打呆仗,长(chang)时间专注一件事情,在自身领域(yu)里长期坚持聚(ju)焦,才能发光发热(re)。