作者:腾讯互娱前沿技术中心  专家工程师  解卫博

SIGGRAPH(Special Interest Group for Computer GRAPHICS,计算机图形图像特别兴趣小组),一直致力于推广和发展计算机绘图和动画制作的软硬件技术。绝大部分计算机图形技术软硬件厂商每年都会将最新研究成果拿到SIGGRAPH年会上发布,顶尖的游戏公司会在SIGGRAPH揭秘最新的实时渲染技术,电脑动画创作者也将他们本年度最杰出的艺术作品集中在SIGGRAPH上展示。

因此,SIGGRAPH在计算机软硬件,图形图像技术以及CG等方面都有着相当的影响力。对于游戏图形程序员来说能参加SIGGRAPH是一件很值得纪念的事情,一直都很向往去参加SIGGRAPH会议,非常幸运今年终于有机会去现场开阔眼界,聆听各位大师的真知灼见,因此写篇文章纪念一下激动的心情。

SIGGRAPH每年都有一个主题,今年的主题是Render the Possibility。下面分享一下在SIGGRAPH展台见识的一些VR新技术。

1.眼球追踪技术

人看到事物的成像会根据眼睛距离事物的距离来进行自动适应调整,而我们带上VR头显后,眼睛和屏幕之间的距离是固定的,因此会对眼睛造成一定程度的欺骗,而屏幕远景和近景的切换,眼睛会无法识别,从而导致晕眩。眼球追踪技术可以获知人眼的真实注视点,从而得到虚拟物体上视点位置的景深。所以,眼球追踪技术或将成为解决虚拟现实头盔眩晕问题的一个重要技术突破。

除了减少眩晕提高用户适应能力,准确获取眼睛的信息就能够做出最佳的渲染方案和交互方式。通过眼球追踪技术可以准确地获取用户眼睛的聚焦点,可以带来以下三个好处:

  1. Foveated Rendering

  2. EyeGaze Interaction

  3. Eye animation Capture

1.1眼球追踪技术的相关应用

1.1.1 Foveated Rendering

VR设备对画面分辨率要求很高,以Oculus Rift为例,用户需要 Nvidia GeForce 970或AMD Radeon 290显卡的成本就达300美金,而这还仅仅是渲染1k的分辨率,要让渲染的分辨率匹配现实世界的分辨率,单眼必须渲染8K的分辨率,对硬件配置要求就更高,目前还只能望其项背。而人眼成像的过程中,中央凹视野(Foveal vision area)成像清晰,只覆盖视野1-2度,视觉敏锐度高;周边视野(Peripheral vision field)成像是模糊的。

1.1.2 提升性能

NVIDIA之前专门针对虚拟现实设备中普遍存在的图像延迟状况, 推出了MRS(multi-resolution shading)以便加快渲染速度,该技术使得VR的渲染不再是将整个画面以相同的分辨率进行渲染,而是分成了几个不同的区域。焦点区域会以完整的高分辨率进行渲染;而画面的边缘则以更低质量进行渲染,再加上边缘的像素经过变形后的损失,可节省25%-50%的像素,理论上可提升一倍的渲染速度。但是nVidia的MRS技术是以屏幕中心为聚焦点,也就是说认为头是转动的而眼睛是不转动的,当眼睛转动的时候会就会出现该清晰的地方模糊,体验比较差。

如果能获取用户的聚焦点就可以对聚焦的中心区域采用高分辨率渲染,对中心区域附近的采用60%分辨率渲染,远离中心区域采用20%分辨率。这样可以极大地降低渲染的像素数目,从而可以极大地降低GPU开销。 

下面的两幅图中左边是未开启Foveated Rendering,右边是启用了Foveated Rendering,可以看出FPS的提升非常明显。从大量测试数据来看,Foveated rendering可以提升60%-150%的性能提升,当然这也是和场景有关的,但也足以说明其对性能带来的巨大帮助。

1.1.3 降低眩晕

人看到事物的成像会根据眼睛与事物之间的距离来进行自动适应调整,而我们带上VR眼镜后,眼睛和屏幕之间的距离是固定的,因此会对眼睛造成一定程度的欺骗,而若屏幕中远距离的场景和近距离场景切换,眼睛会无法识别,从而导致晕眩。眼球追踪技术可以获知人眼的真实注视点,从而得到虚拟物体上视点位置的景深。所以,眼球追踪技术或将成为解决VR头盔眩晕问题的一个重要技术突破。

1.1.4 EyeGaze Interaction

除了画面渲染方面,眼球追踪技术还可以大幅度提升VR设备的交互体验。用户通过眼球转动与VR用户界面的交互可以直接用眼睛控制菜单,触发操作,让人摆脱不自然的转动头部操作。

1.1.5 Eye animation Capture

戴上VR 头显后,玩家的上半部分脸完全被挡住,用传统的表情捕捉技术只能捕捉下半部分脸的表情动画。有了眼球追踪技术后就可以捕捉眼睛的运动,从而可以捕捉眨眼,皱眉,眼睛转动。这会使玩家的表现更加生动,这一点对于VR社交的应用尤为重要。

Veeso同样也是基于智能手机使用的VR头盔,兼容Android和iOS手机。在Veeso的头显内部,安装了两个用于追踪面部表情的红外线相机,第一个用来追踪瞳孔、眉毛和眨眼,第二个用来追踪下颌和嘴巴。

1.2 眼球追踪技术公司

SIGGRAPH参展的眼球追踪公司有两个:FOVE和SMI。这两个公司的demo(Foveated Rendering & EyeGaze Interaction)我都作了深度体验,在使用前都需要一个校正的过程,校正后就可以正确聚焦,就可以体验Foveated Rendering带来的性能提升和用眼神杀死敌人。

1.2.1 FOVE

FOVE是一个VR头显公司,在头显内部采用2个红外相机来拍摄眼睛,根据眼睛的图像和校正的数据来计算眼睛在屏幕中的注视点。本来是要拍一下红外相机是如何布局的,但是被告知不能照相,略有点遗憾。不过在后来去SMI展台体验的时候拍到了SMI的相机布局。

FOVE 校正:

因为每个人的脸型和眼睛大小都有很大差异,所以目前的眼球追踪技术都需要一个校正的过程, FOVE的校正还需要工作人员参与才能完成,虽然只需要校正4个点,但一旦人工参与就麻烦了许多。

FOVE的眼球追踪目前有一个比较明显的问题,当你摘下HMD再次带上HMD后,如果和之前戴的位置、朝向略有差别就会造成追踪的结果出入较大。开发者表示会在以后解决这方面的问题。

FOVE Demo:

FOVE这次的展示有专门展示Foveated Rendering和EyeGaze的demo。Foveated Rendering的demo可以通过一个球来显示目前眼睛聚焦的区域,可以很好的提升帧率;EyeGaze的demo最具有代表意义的就是打飞机的小游戏。可以准确的跟踪到眼睛聚焦的区域,真正做到看哪里打哪里。

1.2.2 SMI

SMI对于眼球追踪技术的研究已经有很多年了,在这个领域积累了很多的技术,可以说是眼球追踪技术的鼻祖。随着VR技术的快速发展,SMI也找到其眼球追踪技术的用武之地。之前在网上也搜到了很多相关的资料,这次也有幸到SMI展台进行了深度体验。

SMI是在Vive和GearVR的基础上进行改造,将2个红外相机集成到HMD中,红外相机会透过透镜拍摄眼球的图像,主要追踪的是眼球的图像,眉毛区域是追踪不到的,因为眉毛很多时候是被HMD的海绵垫挡住了。

SMI校正:

SMI也需要一个校正过程,但是和FOVE相比就高端了许多,屏幕中会按顺序出现3个绿色的点,玩家只需要依次注视这3个点就可以完成校正,整个过程不超过10秒,完全自动化。

SMI的眼球追踪技术适应能力非常不错,摘掉HMD再带上HMD即便HMD的位置稍有变动依然可以准确追踪,这一点要比FOVE的体验好很多。

SMI Demo:

SMI这次的展示有专门展示Foveated Rendering和EyeGaze的demo。Foveated Rendering的demo有两个,一个是和nVidia合作开发的,nVidia能采用SMI也说明了在这个技术上目前SMI应该是处于领先地位,另一个是一个堆满箱子的场景,从截图可以看出关闭和启用Foveated Rendering对于帧率的影响非常大。

EyeGaze的demo最具有代表意义的是个打地鼠的小游戏,地鼠会在不同的地方出现,需要第一时间将注视的焦点移到地鼠身上才能打到地鼠。一开始如果不适应的确会出现瞄不准的情况,试几次后就可以适应。我尝试了单纯转眼睛瞄准,转头瞄准,明显感觉转眼睛瞄准会快很多,而且人的第一直觉是去转眼睛,只有转眼睛覆盖不到的区域才回去转头,快速转头也会导致头晕;还尝试了摘掉HMD再重新带上,故意和上次带的位置有点偏差,基本没有影响追踪的结果。

2.Cubic Motion

虽然现在美术可以做精度和质量非常高,接近真人的模型,但是对于高精度面部表情来说难度很高,游戏中流行的是采用offline的方法去捕捉,在游戏运行时进行播放即可,而到了VR这里如果能够实时捕捉面部表情,并且实时绘制出来对虚拟直播有非常大的意义。这个课题是比较前沿的,去年Epic,Cubic Motion在GDC展示了实时捕捉面部表情,同时在UE4中渲染demo。这次SIGGRAPH他们做了更大的质量提升。

Cubic Motion通过计算机视觉方法进行特征点追踪,并且可以将数据实时映射到超高质量的角色表情动画中。去年GDC已经做过一次demo展示,整个Pipeline是基于offline的,然后做了大量的优化,得到的反馈非常不错,这次SIGGRAPH又在去年GDC基础上做了不少改进。CubicMotion摘获了这次Realtime interactive大奖,足以证明其在表情捕捉领域的领先地位。

总体来说CubicMotion包括以下内容:

  1. 基于计算机视觉,追踪200+特征点的同时保持90FPS

  2. 采用DeepLearning深入分析实时驱动3Lateral的rig生成的高质量面部表情动画

  3. Mark和MarkLess模式都可以输出高质量动画

  4. 培训的数据库适用于单个或者多个相机

  5. 高质量眼睛动画捕捉

  6. 捕捉Blood flow和瞳孔的细微变化

  7. 捕捉高质量的皱纹

  8. Pipeline深度集成到UE4

2.1面部表情的实时渲染

身体部位作为Xsens rig传给UE4的IKinema,大部分肢体捕捉技术是现成的,花了很少时间来装备。   面部表情动画是这个demo的核心技术。

在这个demo之前已经有成熟的offline流程来捕捉面部和身体部分的动画,只是没有定位到实时渲染的层面,实时的demo是在原先offline流程的基础上进行了一些特殊定制,大部分流程是相同的,除了offline流程采用立体相机并且采用了一些实时算法不需要的处理。最大的挑战在于如何获得如此高质量的面部表情追踪 最终实时渲染出来。

2.2 CubicMotion: The solver

CubicMotion是今年实时面部表情解决方案,表现非常出色的一家公司,该公司的计算机视觉技术足以胜任,同时跟踪200+面部特征点的同时保证90FPS,并且可以将数据实时映射到超高质量的avatar角色上。Cubic Motion的贡献在于实时拍摄并且对数据进行深入分析来驱动3Lateral rig。

左边是立体相机方式 右边是输入的2个摄像机

SIGGRAPH采用的实时解决方案是采用立体摄像机,offline动画是通过立体相机拍摄得到的,这样可以达到最好的质量。

2.3深度学习系统

Cubic Motion的解决方案最重要的部分是他们拥有一个深度学习系统,它通过立体Rig进行学习,然后将其应用到独立相机上。换句话说因为有大量的离线学习信息,Cubic Motion可以更好地感知演员的面部表情。虽然人们可以手动调整rig或建模型,但需要花费大量的人力物力。Cubic Motion的系统只需要从数据库学习,然后在运行时就可以保证很高的精度,不需要手工调整或者改变模型。

离线系统允许进行校准。学习的第一阶段采用只有立体相机才能提供的详细信息,这使得在运行时刻可以更好的了解和修正运行时带来的问题。实施版本没有任何的手动援助和调整,因为它是实时运行的。

深度学习的关键在于提供图片的正确的数据源。为了达到这个目的立体数据被模拟成独立相机模式。被转换成独立相机的数据后就可以进行实时数据分析了。

立体数据可以很容易给独立相机带来明显的求解,这要比没有学习的结果精确很多。将面部动画系统和深度学习结合产生了一个高度灵活的嘴唇和面部动画同步的解决方案。Cubic Motion采用他们独特的非线性解决方案可以输出一个精确的2D移动图,和FACS相关联,最终输出3Lateral rig引擎需要的数据。

2.4眼睛追踪

眼睛追踪是逼真表情动画系统的关键技术。Cubic Motion团队对眼睛追踪也采用了深度学习的方法。在学习眼睛追踪时会精确的加入一些标记辅助学习,用来驱动实时追踪。尽管高光会影响眼睛追踪,但眼睛的晶状体基本没造成什么问题。因为Cubic Motion的解决方里训练和实时应用都是按照同样的方式工作的,为了精确培训眼睛追中需要学习100-150次。这当中有对高光,明暗变化,眼皮处于不同位置的情况进行补偿的采样,这些都可以在学习阶段解决,你可以说这里有大量关于眼睛在做各种事情的采样。

眼睛追踪时Cubic Motion的标准解决方案,在GDC demo中对其进行了调整,做了大量的优化。

如果眨眼会对眼球追踪造成问题,那么追踪牙齿就更困难了。因为牙齿大部分时间都被嘴唇挡住。在GDC之前离线立体追踪的工作已经完成,Cubic Motion建立了一个精确的下巴运动模型,这个模型足以胜任对话。演员的牙齿提前被扫描出来,起初,3Lateral只针对牙齿,后来他们开发了一个新的嘴巴和牙齿的扫描系统,新的系统可以提供更多的细节,而且让演员感觉更加舒服。

2.5 Blood Flow

对演员的面部血流进行建模,演员的表情变化时会造成不同压力变化,这样也会引起血流的改变。虽然3Lateral在运行时刻知道血流的对应的表情(脸红,害羞,紧张),但它们还是采用了简化模型。当考虑血流后三维的脸被进一步增强,因为有一些视觉标记 – 围绕眉毛例如,血液流动告诉我们哪些地方鼓起。

角色的表现是第一位的,因此任何使她更富有表现力都非常重要。团队在demo后期让血流可以正常工作,在实际游戏中如果它们发现有的情绪反应不会被触发就会手动加关键帧进去。

2.6瞳孔扩张和收缩

有意思的是团队在项目后期还加入了瞳孔扩张和收缩,当演员往前看时增加了很多眼睛的细节。瞳孔扩散和情感变化引起的血流变化虽然不容易察觉,但如果和关闭这些效果的图像比较下来还是很容易发现不同的。

3.PinScreen

PinScreen是一位南加州的教授LiHao创立的,他们公司的一些技术都是走在业界前列,最近几年也在SIGGRAPH论坛非常活跃,今年有他们的主题演讲,对他们的一些主要技术做了系统的介绍:

  • Facial Performance Sensing HMD(SIGGRAPH 2015)

  • Avatar

  • Hair

  • Capture Moving Target

3.1 Facial Performance Sensing HMD

这个技术是去年SIGGRAPH发表的,针对戴了HMD来捕捉面部表情。对Occulus进行了改装,采用Intel Real scene相机捕捉下半部分脸;眼睛的表情捕捉则采用在海绵垫上增加压力传感器来完成。压力传感器的信号需要经过一个校正过程,采用深度学习的方法,因此使用前需要一个学习的过程。LiHao的这个研究开辟了一个新的领域,从去年到今年有好几个公司都是采用类似的思路来实现戴了HMD之后的表情捕捉,这个技术对于VR社交的意义非常重要,可以将玩家的表情完全复制到VR世界的角色中。

3.2 Avatar

根据视频流实时生成3D Avatar也是他们一个很有意思的技术,可以将角色A的Avatar替换到角色B,从目前的质量来看还原度还是不错的,但是质量还是无法和视频中的图像相比,不过这一切都是一个开始,也是很不错的进展。

3.3 Hair

2013年他们就开始尝试从各个角度拍摄的头发的图片,建立点云模型,最终生成3D的头发模型,质量也很不错。

去年他们开始尝试从一张照片中根据深度学习的方法,从发型数据库中生成3D头发模型(这些发型数据来源于The Sim Resource)。这可以说是深度学习和图形结合的一个不错的应用,今年SIGGRAPH有一个报告名称为”AutoHair”就是在这个基础上做了很多优化,让从一张图片上生成3D头发更加快速。

3.4 Cpature Moving Target

通过摄像机间的相关性生成每一帧动作序列的点云模型,这样就可以作为模型放到VR场景中。之前很多公司都是采用几十个相机,而LiHao只同时采用了4个相机,虽然还有些地方还会有瑕疵和漏洞,但最终生成的结果也是很不错的,但是该算法目前还需要offline处理,无法达到实时的效果。

4.HandPose

Handpose是微软研究院推出的实时精细手势跟踪系统。该系统可在仅利用一个深度摄像头(如Xbox One的Kinect)的情况下对复杂手势进行精确重构。其目标是用来促进新的人机交互方式。

手势跟踪相对于身体运动跟踪显然要难得多,因为手部动作牵涉到形状尺寸更小的手指的复杂且细微的运动,那么多手指的并发运动是很难区分的,而且有时候手指之间还会相互阻挡。根据微软这篇论文的描述,此前的手势识别系统一般要求是从正面进行识别,而且必须是近距离。为了解决这一问题,微软的Handpose利用了机器学习、3D建模以及合成分析(利用预先建立的手势集对实时手势进行比对)等技术来提高手势识别的精度和适用范围。

5.3D Scaned Avatar

尽管3D建模工具可以创造逼真的人物模型,但这很考验美术的功力,需要很有经验的美术才能做出高质量的角色模型,同时也需要投入大量的时间成本。

如果采用3D设备人物进行快速3D扫描,根据3D扫描的模型生成人物的avatar,最后导入到建模工具中进行快速调整,最终可以放到VR世界中。这是一个很容易想到的思路,3D扫描既可以最大程度还原真实人物的各种细节信息,也可以节省大量的美术成本。

5.1 Qualcomm

高通的展台也有3D扫描设备,通过3D扫描大概几分钟就可以生成3D扫描数据,然后根据3D扫描数据生成角色的头部模型,最后导入到demo中。

不过从现场的demo来看,目前高通3D扫描的质量还是有待提高质量,不过相信在未来这个技术一定会有巨大的应用空间。

5.2 Uraniom

Uraniom是一个专门从事将3D扫描的人物数据转换成3D Avatar,这一点和高通的思路是一样的,它的不同在于玩家可以非常容易将自己的3D Avatar导入到FIFA,Oblivion,GTA5中。

只要能提供玩家自己的3D扫描数据就能很方便的生成自己的3D Avatar,通过一个简单的工具就可以把自己的3D avatar应用到游戏中,让玩家自己做真正的主角。不过该方法目前支持的游戏比较有限,而且是仅限于PC单机游戏。从整合度和质量来看Uraniom目前还是比较领先的。

我从网上找了一个3D扫描的数据,通过他们提供的工具可以很快速的生成3D Avatar头部模型,这个模型就可以直接在他们的demo中使用。

6. Mobile Room Scale

一般玩游戏只需要坐着手柄就可以周游世界,对于VR则不同,VR是对现实的虚拟,在VR世界漫游时需要像真实世界一样移动(Room Scale),这样才能极大地提高沉浸感。HTC Vive采用LightHouse可以实现精确的Room Scale,但这需要安装Lighthouse,然后需要标记一块可玩区域,这个过程是需要花费很多时间的,如果有一种方法可以随时随地Room Scale就可以极大地提升体验。这是一个非常热门的课题,包括Occulus的卡神(约翰卡马克)都在研究这个问题。这次SIGGRAPH有好几个公司带来了他们在这个领域的最新研究。

6.1 Ximmerse

Ximmerse通过一个类似PS Eye的锂电池供电设备,放在桌上,然后在1m左右的一个范围内,双手拿着类似Vive的手柄,进行交互。交互响应的延迟低,准确度高。有了vive的6dof体验用户表示更容易学习和掌握。由于有手柄的存在,交互比较省力,丢失手柄识别后,可以在很短的时间内恢复。Tracking的计算,都是在chip里面做,不利用手机资源,所以延迟小,且不影响手机性能。

6.2 Project Tango

Tango采用6 Doff的追踪和定位,可以对位移和旋转进行精确定位。位置追踪技术是让在VR自由行动的一项基础性技术,Google希望在未来在某种程度上取代GPS的功能。

目前的导航都是基于2D的,Project Tango有精确的3D定位功能,因此可以实现室内导航,对于不熟悉且结构复杂的环境,比方说博物馆应该还是可以用到,对于盲人来说也是一项福音,这个功能可以很大的辅助盲人进行导航,甚至结合空间学习的功能可以帮盲人避开一些危险的区域,和无人机避开危险的道理一样。

将Tange平板放在过山车上,可以实现快速精确的定位,足以证明器定位能力非常稳定和快速

6.3 Dacuda

瑞士公司Dacuda采用iPhone 6和蔡司VR ONE头盔实现VR空间定位,采用手机的内置摄像头根据计算机视觉的方法实现六自由度跟踪,并能以每秒60多次的频率来确定头部位置和旋转角度。从现场体验来看高频信息比较多的场景表现还是相当不错的,但对于纯色的场景,比方说白色墙面就表现差了很多;对于透明物体,比方说玻璃的表现同样也差了不少,这是基于计算机视觉的方法做room scale共同面临的难题。

6.4 Qualcomm

高通这次展示了采用骁龙820的头显,该头显通过一个鱼眼相机,根据计算机视觉的方法来检测特征点或线来实现部分Room Scale方案,对于大面积的白色墙体和透明物体这种则采用内置传感器来辅助。展示的demo很简单,只绘制了一个章鱼,这个章鱼就是VR世界的原点,玩家移动都是以这个章鱼为参考。我曾尝试躲在白色展台后,再回到真实世界的原点,这时VR世界中也回到章鱼的位置。甚至用手半遮挡鱼眼镜头也能工作,除非用手完全遮挡时就会出现问题。虽然后来得知精度比Dacuda要差不少,但整体体验还是很不错的。

7.Reality Capture

尽管现在的建模技术可以做的非常逼真,动作捕捉可以让动画非常自然,但依然离真实拍摄的人物视频有很大差距。而视频只是在某个角度拍摄的图片序列,无法在VR世界这种自由视角的环境下使用,如果有一组的摄像机阵列从不同角度拍摄人物的动作序列,这样每个角度的视频信息都有,可以最大程度的还原人物的表演。这正是前面PinScreen想达到的目的,对于VR和电影技术都有很大的意义。之前也了解过一些做相关技术的公司,因为需要很多摄像机同时拍摄,数据量是非常巨大的,处理时间也非常长。这次SIGGRAPH参展的4DView算是在这方便做的不错的一个公司。 Fusion4D是Holoportation背后的黑科技,它的Paper这次也发表到SIGGRAPH。

7.1 4Dview

4DViews采用摄像机阵列(24个摄像机)同时拍摄演员的演出,拍摄的背景为绿屏;然后将采集的24个绿屏视频经过软件处理生成三角型模型。

因为4DViews是采用三角形对每一帧进行建模,因此可以保证和VR场景的光照一致,也可以保证阴影的正确。

4DViews的抠边技术做的还是比较到位的,边缘和背景分离的比较干净,没有非常明显的瑕疵,当然小的瑕疵还是有的,因为不稳定噪声的闪烁也是比较小的。

现场demo有3个:

1.车技表演,这个有很多素材,可以在手机上下载app,然后下载不同的数据,每个数据有不同的动作序列

2.一个spotlight和3个女人,每个女人会从自己位置到spotlight中心位置,然后再回原位,这个demo主要体现光照和阴影是和虚拟场景完美结合的

3.一个女人,可以用vive控制手电筒照到她身上,展示动态灯光和影子。

4DViews目前可以说和VR场景结合的非常不错,背景去除的比较干净,也没有明显的闪烁效果,正确的光影可以最大程度让视频和VR场景融合到一起。

4DViews也可以做一些简单的AR应用,但由于无法获得真实场景的深度,只能在平面上做AR应用,否则遮挡关系就会出问题,光照也是无法和真实场景融合到一起,阴影同样无法做到。

关于4DViews的磁盘空间占用,154mb对应9.27秒,和类似的技术比算是业界良心了。:)

154mb for 9.27s

4DViews的demo还可以支持左右脚的模式,其实就是对三角形进行了镜像,如果留意衣服上的字就可以明显看出是进行了镜像操作而达到左右脚的模式。

7.2 Fusion4D

微软最近公开的Holoportation结合了全息投影和 AR 增强,现实技术所开发的研究项目。这个项目来自他们的 I3D 小组:在固定的空间内,架设8个 3D 摄像机,实时捕捉目标的全身动作,再通过 3D 建模重构画面,然后传送到对方的 AR 眼镜 HoloLens上。Fusion4D就是Holoportation背后的神秘技术。

要知道以前的动态三维重建技术还局限于线下非实时处理,而且处理速度相当慢,有时处理一帧深度图像要花数分钟,这样算来一个几百帧动作序列的重建工作可以花上好几个小时,显然根本无法满足现场直播的需求。

如果要用一句话描述Fusion4D做了什么,那就是Fusion4D实现了多视角下的实时动态三维重建。具体来讲,多视角就是有多个深度摄像机,可以360度无死角的对重建对象进行深度信息采集(作者搭建的实验场景使用了8台深度摄像机);实时就是重建速度达到每秒30帧以上。

8.Stereo Cubemap

360度相机拍摄的图片对于风景党来说是个很好的体验,可以从任意角度欣赏美景。然而相机拍摄的环境的灯光,天气,季节都是不能随意改变的,如果能把真实环境建模出来通过真实的渲染器生成接近真实光照的图像,然后再加入可以调节的灯光,天气就可以营造任何用户需要的氛围,最后在渲染器中生成Stereo Cubemap,就可以在VR设备中体验不一样的世界。这次SIGGRAPH有两个公司就在做这样的尝试。

8.1 V-RAY

V-RAY可以在3ds Max中生成高质量Stereo Cubemap,然后就可以在OCculus或者GearVR中体验。

8.2 OTOY

OTOY有接近真实渲染的高性能渲染器OctaneRedner,通过OctaneRedner可以快速生成接近真实渲染的Cubemap,通过Stereo Cubemap就可以在其播放器中为用户呈现接近现实的画面。OTOY还有一个版本是可以在一个房间中做短距离的移动,在移动的过程中遮挡关系都是完全正确的,通过单个Stereo Cubemap是无法做到的,OTOY是采用了很多个Stereo Cubemap来实现的,每一个Stereo Cubemap的显存在30mb左右,很多Stereo Cubemap的话占用的显存也是非常大的。

眼球的盛宴——VR in SIGGRAPH 2016

发表评论

电子邮件地址不会被公开。 必填项已用*标注