不出户,越四季,游四海|vivo运用AI打造更懂用户的人像技术

2023-08-01 16:37:13    来源:腾讯网

不出户,越四季,游四海|vivo运用AI打造更懂用户的人像技术

2020年,vivo牵手FIRST青年影展,到今年已是第四年,但这却是我头一次到现场感受这场别致的影展,真是大开眼界。特别令我开心的事情是,今年这届影展的超短片单元,有近60%的作品是由手机完成,且最年轻的创作者只有14岁。我曾说过:“这是一个美好的时代,因为手机影像的普及,让每个人都拥有挥洒自己创意的机会”,在这次影展上是实实在在感受到了。但作为消费电子行业的媒体人,对于本次影展的关注还是要落脚到7月30日下午的影像盛典特别活动,在这次活动上,vivo再次壮大了自己的影像技术矩阵……

AIGC和人像技术的融合


(资料图片)

今年FIRST青年影展的活动是从7月23日开始的,而本次vivo影像技术的特别活动早在7月18日就在重庆拉开了帷幕。在这一天,我头一次来到了位于重庆南岸区的vivo智能工厂,vivo动(作)捕(捉)实验室就在这里。这次行程对我来说还挺意外的,这家工厂布局于2014年,于2017年竣工投产,在vivo产品阵列中占据重要位置的S系列就在这里生产,但我怎么也没想到vivo动捕实验室居然坐落在厂区之中,一系列vivo面向未来的AI影像技术也在这里开发预研。

我们能看到的vivo动捕实验室的具体形象,主要是由多达175台单反相机(174台负责影像捕捉,1台用于监控)和数十枚LED闪光灯组成的环形暗室,以及用于处理暗室捕捉信息处理、算力强大的服务器阵列组成。短短数秒的成像之后,再经过40分钟左右的建模运算,现实世界中的实体就能被数字化为3D模型,从而就可进行各种灵活的图形处理。官方宣称这套模型可以重建出“毛孔级”的高精度3D人体模型,可以支持在虚拟环境下实现极具真实感的渲染视效。现场有媒体老师自告奋勇参与了建模实验,从最后呈现在大屏幕上的结果来看,“毛孔级”三个字的形容毫不夸张,尤其是面部、衣服等表面细节的保留非常全面。

除了这些能看到的内容,在FIRST影展特别活动之后,与vivo影像副总裁于猛、vivo影像产品高级总监李卓、vivo影像认知产品总经理汤青良等蓝厂高层的面对面交流中,于猛还提到了vivo动捕实验室令人咋舌的“软件”配置:这家实验室是2022年,vivo与位于美国圣地亚哥的加州大学联合建立的,同等形制配置的实验室在大洋彼岸也有一套,都专注于AI和3D两个层面技术的预研。位于重庆实验室目前有100多人,学历都偏博士向,规格非常高。

相信看到这里,很多朋友都非常疑惑:动捕实验室那套东西如此庞大,3D建模时间又如此之长,其成果要如何转化到小小的手机中?对比服务器阵营强悍的算力,手机芯片的算力又如何能保证实现的效果呢?这一点实验室的工程师解释得非常清楚,他们所做的工作,主要是为vivo储备人脸、人体和手势为核心的三大人像3D感知算法能力,实现对人脸面部表情、人体姿态动作以及手势交互感知的精准捕捉和驱动。换言之,实验室后最交付到手机软件端的也会是一套适应手机应用场景的软件模型,在手机芯片的算力驱动下,实现最接近实验室的运行效果,套用那句经典的广告词:实验室“知其道”,手机终端“用其妙”。

人像3D感知能力之于vivo影像所擅长的人像赛道相当重要。比如vivo X系列手机后置影像模组人像模式中的蔡司镜头风格模拟、虚拟景深等算法,就必须依赖人像3D感知算法的能力,同样,S系列的前置自拍功能也需要这套算法的能力。特别是被我们称为“死亡空洞”的小缝隙、发丝等弱纹理边缘的抠像效果,过去总是不尽如人意,而vivo动捕实验室给出的结果显示,在其构建的算法体系下,过去那些看起来“一眼假”的“翻车” 场景将被极大的弱化。更重要的是,因为有动捕实验室提供的基础模型保驾护航,就算是不运用多目方案,采用单摄像头方案也能实现非常好的空间捕捉能力——不开玩笑,Google相机早就给我们呈现了算法的威力。

细心的朋友肯定注意到动捕实验室那上百台相机旁边还有总计数十枚LED灯,只需要3秒钟时间,这些LED补光灯就能模拟各种角度的补光效果并由相机捕捉下来——这就是智能补光(重打光)算法的基础,相信很多人都还记得伴随iPhone推出人像模式时那数种模拟灯光效果吧,殊途同归。它的基础应用还是为人像模式提供更有空间感、氛围感和质感的照片,这一点很容易理解,但它更深层次的应用,则是动捕实验室为vivo影像开辟的未来赛道:通过与AIGC(生成式AI)算法结合,探索高品质虚拟内容创作技术在人像拍摄场景的有效应用,比如这次特别活动上展示的:将建模的3D人像置于不同实景之中,足不出户便可穿越四季、云游四海,且合成的照片真实程度极高,妙趣横生。

但是,这种将抠像出来的3D模型置于实景中合成的照片,想要“毫无PS痕迹”,最重要的就是需要将实景的光线条件合理地打在3D人像模型上,才能实现理想的效果。vivo动捕实验室的影棚中,补光灯与捕捉相机的位置一一对应,自然能在3D建模的同时,也将光线信息一并纳入其中。重要的是,这些AIGC算法的运行,全部基于端侧的模型算力,这是出于vivo保护用户数据隐私的底线来进行的。

于猛特别提到:vivo布局动捕实验室,一方面是为现在竞争激烈的常规影像赛道服务,其产生的3D建模算法,能为vivo标志性的影像功能服务,另一方面则是布局未来的第二赛道,尽管端侧AIGC能为传统影像带来哪些杀手级的应用尚不明确,但现阶段vivo影像团队必须要有勇于试错的勇气,只有这样才能为未来技术的产品化做好储备。

剑指百分移动影像

第一个章节的内容,从属于本次影像盛典特别活动中的“超感人像系统”技术家族。除了这项兼具现在与未来的技术之外,还有其他很多新技术在会上被提及,它们的出现,让影像技术矩阵的规模再次被壮大。受制于场合,这些技术的介绍都有些蜻蜓点水的味道,但它们都无一例外剑指下半年就要推出的下一代影像旗舰。本来对X系列寄予厚望的消费者就不在少数,在这次技术发布之后,期待值又是上升了一大截。

其中我最感兴趣的就是蔡司宣布专门为vivo设计的全新标准“Vario-APO-Sonnar”长焦镜头。Vario,意为蔡司变焦镜头;APO,复消色差,长焦镜头中这项技术不可或缺,被首次运用于移动影像领域;Sonnar,蔡司用于其中长焦镜头的结构,结合起来看,就是蔡司为vivo专门设计了用于移动影像的中长焦变焦镜头。再加上运用了浮动镜组技术,让这一支镜头可以涵盖中长焦风光、微距和人像等多个场景。在vivo X90 Pro+上,蓝厂运用计算光学技术让6400万像素传感器的长焦模组焕发了第二春,相信这枚镜头在未来会让X系列拥有更强的影像表现,毕竟于猛也说长焦和视频会是vivo接下来将要发力的赛道。

说到视频,当然就要提到vivo全新的影像协处理器V3。这次发布会上只是简单透露了些许参数,比如6nm制程,AI-ISP架构等,在它的算力加持下,vivo新的影像旗舰不仅可以支持4K@60帧的电影级视频录制,还能在录制完成后进行焦点、虚化等后处理操作——将这一系列特性放在FIRST影展这个场合宣布,vivo显然是想要表明在视频生产力方面,其对专业创作者也同样有吸引力,大家不一定非要去用iPhone。在会上,vivo也提到将会支持索尼双层晶体管像素(2-Layer Transistor Pixel)技术,考虑到李卓在会后专访中提到与索尼定制的VSC仿生光谱传感器,说不定在这项新技术上,vivo也同样会进行定制。

之于普通消费者,除了全新的超感人像系统是福音之外,包括全景模式在内的全焦段夜景能力又是另外一个好消息。新的“苍穹夜景系统”能在夜景拍摄这个典型场景下,让vivo手机的用户更轻松地拍摄出华丽清晰的照片来。为了让手机镜头能有更好的发挥,会上也宣布蔡司T*镀膜将运用Multi-ALD技术,将镜片组之间的中心反射率从之前的0.2%降低至0.1%,进一步减轻复杂光线条件下的炫光和鬼影。

写在最后

从2017年开始,在AI加持下的移动影像产生了跃迁式的大发展,即使在这个过程中,有过“画月亮”的争议,但到了今天,相信所有人都已经高度接受了这项技术的存在。正如于猛所说,在传统移动影像的技术发展越来越体现出平台期的特征时,尽早着手下一个赛道的预研刻不容缓。比如3D人像建模与AIGC的结合,借助手机算力即可产生可以类比电影工业级特效的结果,那么无论是对创业者,还是普通消费者,不又是一个值得期待的未来么?

标签:

X 关闭

X 关闭