原创Synced机器之心
机器之心原创
作者:杜伟
继之后,腾讯微视又解锁了照片的跳舞技能。
80、90后的小伙伴,应该很熟悉香港歌手陈慧琳的热门歌曲《不如跳舞》吧,歌词中的「聊天不如跳舞,谈恋爱不如跳舞……」风靡了大街小巷,使很多人爱上了跳舞。遗憾的是,对于一些四肢不协调的小伙伴,在人前跳舞无异于一种折磨。但是,不会跳并不意味着看不到自己跳舞的样子。
随着计算机视觉和生成对抗网络的快速发展,人体动作迁移技术的出现使那些没有跳舞天赋的小伙伴也有机会展示自己的舞姿。简单来讲,给定一段别人跳舞的视频和用户的一张照片,通过人体3D重建与人体分割技术、背景修复和GAN生成技术,可以实现用户静态照片随驱动舞蹈动起来,并达到真实、和谐、以假乱真的姿态生成效果。
然而,学界近年提出的一些人体姿态迁移方案,如DanceNet等,都存在着一定程度的不足,如生成结果模糊、肢体形状不完整、舞蹈动作僵硬等。此外,这些方案对于普通用户而言技术门槛过高,实操性不强,导致参与度不高、落地困难,亟须改变。
近日,腾讯微视APP上线的「照片会跳舞」新特效玩法实现了人体姿态迁移技术的真正落地,让不会跳舞的你也能在手机上舞动起来。
玩法非常简单,用户只需下载微视APP,上传单人/多人全身正面照,系统即自动对照片进行3D建模,生成以假乱真的虚拟形象;接着选择舞种,通过技术能力使虚拟形象按照选定的舞蹈模板「舞动」起来,模拟效果十分逼真,动作也流畅自然。
单人舞蹈选1张照片,多人舞蹈选2-3张照片。
目前,用户可以在「照片会跳舞」中选择10种舞蹈模板,涵盖了广场舞(筷子兄弟小苹果、八神摇)、宅舞、炫舞(迈克尔杰克逊BeatIt)、全国中小学生广播体操(年第二套《时代在召唤》)和儿歌(鲨鱼宝宝)等多种类型,更有网络上传播甚广的魔性蹦迪「接着奏乐接着舞」。
部分舞蹈模板,从左至右依次是夹腿舞、两只老虎、Bangbangbang和大风吹。
跳舞动态效果怎么样呢?欣赏下魔性的「小苹果」和蹦迪神曲「接着奏乐接着舞」:
新玩法上线以来,便吸引了大量的微视用户,相关视频数十多万,播放量更是达到余万。用户纷纷秀出了自己狂放不羁的舞姿,也有明星加入到了这场「舞蹈狂欢」中。这不,硬核大叔腾格尔向「最强舞者」发起了挑战:
据了解,这是腾讯微视在前段时间火遍全网的「蚂蚁牙黑」表情迁移玩法的基础上推出的APP端单人或多人跳舞动作迁移玩法,也是腾讯光影研究室针对人体姿态迁移技术研究的突破性落地。
目前主流的人体姿态迁移技术为了达到较好的动作迁移生成效果,以及缓解自遮挡问题引入的纹理不可见问题,一般需要用户上传多张不同姿态的全身图片或一段视频,并且需要较长时间的后台微调处理。
QQ影像中心技术团队经过对人体3D重建技术、GAN网络的不断挖掘与优化,最后实现了使用单张用户图,就能达到业界需要复杂技术方可实现的人体姿态迁移效果。同时还支持更高分辨率的输出,解决了动作僵硬等问题,既保证了舞蹈素材的动作准确性,也使动作更加连贯自然。
主流人体姿态迁移方案有哪些不足?
在人体动作迁移实现过程中,动作跨度大、像素搬移多、纹理复杂、动作自由度高和自遮挡频繁等干扰因素导致生成指定姿态的人体一直比较困难。
目前,学界解决人体姿态迁移的主流方案仍然需要原始姿态到目标姿态的warp操作,分为像素级别和特征图(featuremap)级别。根据使用的技术方案不同,warp操作又可以分为2Dwarp和3Dwarp。
2Dwarp方案中具有代表性的是NeurIPS论文《FirstOrderMotionModelforImageAnimation》中提出的核心模型「FirstOrderMotion」,其中预测warp流的网络需要输入用户图与目标姿态图的2D关键点信息,然后利用warp流得到目标姿态下地图,GAN网络对warp后的图片(或特征)进行修复。虽然生成的动作较为和谐自然,但warp流不够精确与稳定,导致结果模糊、肢体形状不完整、纹理还原度不高。
红框内人脸模糊不清。图源: