2016 年 7 月 12 日,UPYUN Open Talk NO.23 在深圳举办,本期又拍云 Open Talk 的主题是“虚实之间:VR背后的技术挑战”。活动上,奇境科技CTO刘粤桂、3Glasses战略技术支撑部负责人罗毅、又拍云售前技术总监朱涛分别就VR领域进行了精彩的分享,本文是奇境科技 CTO 刘粤桂的分享原文整理。

大家好,我是刘粤桂。

我参加这种活动其实比较少,第一次参加是 2010 年左右,参加之前我心里也在想,这次应该讲些什么内容,然后我就问一些参加过很多分享会的前辈,这样的一个展会重点是什么?前辈比较资深,他直接告诉我两句话,第一句是这样的分享装逼要装到位,第二句是尽量少讲干货。我觉得这个老油条的做法,我可能并不是很适合。

先介绍一下我们公司,奇境科技是2014年成立,成立的时候VR这个行业还没有这么火爆,当时在深圳也找不出几家VR公司,但是现在几十家是有的。这个行业的火爆过程我们是经历过了,我们在这个行业也算有一定的知名度,我们有很多产品也都是大家所熟知的,公司今年的发展也还算可以,天使轮融了几千万元,所以在行业内还能混得下去。大家有兴趣可以了解一下我们公司,这是我们公司网站:http://www.qj-vr.com

image.png
“浅析未来VR游戏的黑科技”,这是我要讲的主题。这个东西早一年前或者两年前讲,可能价值会更高一些。我讲这块有几个原因:

1. 讲一个东西一定要有它的核心价值,不能讲一些比较生僻的技术。如果一个技术仅仅是很小众或者很多时候用不上,甚至于价值比较低,那技术再高明价值也是不大的。

2. 目前这块在国内还没有形成巨无霸公司,还有一定的创业机会。如果一个技术在国内已经有了山一样的巨人,讲也没有太大的意义,对大家有启发也好,没有启发也好,大家已经不可能挑战这座大山。

3. 一项技术如果只是存在于科幻一样的场景里面,也没有太大意义,假如我讲量子计算机的东西,没有太大的意义,因为目前没有实现的可能性。

image.png

VR游戏相关的技术主要有三块,分别是空间定位、动作扑捉和游戏展示。

在座应该都玩过游戏,可能大家都玩休闲游戏,然后玩一些重度游戏,不知道在座的朋友对VR有没有太多的了解,或者是玩过、见过?可能不到1/4的人玩过或者接触过VR游戏,没有玩过的建议大家花20元钱去体验一下VR过山车,或者有兴趣可以去我们公司体验一下HTC的游戏。

VR游戏有什么特点?

传统游戏的输入输出设备都是鼠标、键盘、显示器,手机也好、电脑也好,输入输出设备都是类似的。VR游戏完全不是这样。VR游戏的输出设备就是头盔,大家可以看一下图2中间这个,这就是输出设备。玩普通游戏的时候,人盯着显示器看,代入感比较差,就像你看电视一样,电视剧里面的剧情只是在电视里有,跟现实格格不入,而戴上这个头盔你就会有一种身临其境的感觉,它就像模拟视网膜的原理,头盔上的两个镜片可以模拟人的视网膜,你看到的东西会让你觉得这可能就是我真实见到的东西,你看到一个游戏场景的东西,你可以理解成现实中看到的就是它,真实感比较强,沉浸感在体验过程中也可以感受到。

另外就是输入设备,平常玩游戏都是鼠标、键盘。打游戏有很重要的参数叫APM,玩竞技类游戏,APM不超过200属于菜鸟级,但是在VR游戏里面,输入设备不再是鼠标和键盘,你能看到大量人在玩游戏的时候,可能做一些比较夸张的动作,甚至于做一些让人不可思议的东西,在我们看来有点群魔乱舞的感觉,这是动作扑捉。手柄也是VR游戏的输入设备,比如HTCVive有两个手柄,手柄是现在市面上比较常见的输入设备。随着技术的发展,输入设备可能会有更大的改变。

动作扑捉其实不算太先进的技术,也不是什么太新的技术,这个技术已经发展了很多年,以前的设备都是非常昂贵的,一套动作扑捉以前都是百万、几十万元,现在要做到民用,至少要一万以内。这个技术目前在改良阶段,并不是说技术理论有多先进,它是可行的,并且在国内是没有巨头的。

VR的游戏展示是什么意思呢?现在不管直播平台还是电竞平台,都是比较火爆的,但是普通游戏的直播或者是竞技,转播起来比较简单,就是看着电脑屏幕,把电脑屏幕弄成大屏幕甚至弄成多个大屏幕,就能很好的完成这个东西。但VR游戏是不一样的,我们常见的VR游戏屏幕就像两只眼睛一样的挂在那里,如果把这个东西作为直播平台给人直播或者转播,人家看起来可能会一头雾水,就效果来说也不合适,所以目前这块不管是国内还是国外,都没有特别好的处理方式。

下面我会具体来讲这三块内容。

一、空间定位

image.png
打格斗类的VR游戏就是用拳头、脚,不会用鼠标、键盘,打 FPS 可能就是拿把枪,目前行业认为就是这么干的,所以空间定位技术特别重要,但是市面上目前没有特别好的解决方案。

空间定位技术,目前国内也有很多公司做。我们接触到的公司里面有一家上海青瞳,他们的空间定位技术做的还不错,我所体验过的设备里面,这一套在体验店应该是能用的。还有所谓的无线电波空间定位技术,网上的分类主要是GPS和外激光,这些技术的实现原理都是差不多的,只不过实现方式或者系统布置的时候会不一样,或者载体不一样,例如你用GPS的电磁波和红外、激光不一样,所以我分成两块来讲。

如图3可见,第一个是可见光,也是电磁波的一种,实现方式跟上面两个是完全不同的两套架构;第二个就是无线电波。

1. 可见光空间定位技术

image.png
可见光空间定位技术的简单实现方式可看图4,简单实现方式的意思就是你按照这个步骤,把代码写好,布置一下会有初步的demo,但是不是说随便做一下就能做到很好的效果。这是不可能的。

image.png

可见光空间定位,就是在上面布一个摄像头,下面有一个人在里面走。如何知道这个人在走?很简单的道理,看图5,这有几个球,在专业里面叫marker,即“标记点”,这个图看起来挺傻的,所以这样的技术目前没有得到大规模的推广应用。假设一个人头上带着发光的球,上面有一个摄像头在走,在不断的照着,你走的时候他拍一张照片,能拍到这个球,用图象处理接口可以比较轻易获得球的轮廓,根据颜色的色差,能算出来这个球在图片中的像素位置,得到像素位置之后可以做一个很简单的透视投影反转。透视投影是3D渲染中的一个投影方式,你看着一个位置,当位置投影在视网膜上,这就叫透视投影。反转就是你得到图片上的任何一个像素,你根据摄像机的位置、宽高比,很容易算出空间的射线,你知道在哪个点做透视投影可以投到什么位置,所以可以得到一个空间的射线。如果同时有两个(或者多个)摄像头同时照到这个标记点,那么可以同时得到两条空间射线,两条空间射线的交点那就是标记点在空间中的位置。

可见光空间定位的优势就是技术成熟,这个技术发展了20年。以前做电影特效,或者是动作扑捉,基本都是用类似技术。Sony现在比较火的PS VR,使用的也是这个技术。

为什么这个技术现在没有得到大规模的应用呢?我的理解是这样的:这个方式看起来比较傻,而且可见光空间定位的缺陷非常明显:

1. 容易被遮挡;

2. 过度依赖环境;

3. 价格昂贵;

4. 延迟比较高。

我们所设想的VR游戏,你在场景中真实的走动能反映到游戏里面,你在场景中真实的动作也能反映到游戏里面,所以才有动作扑捉这个东西。我在这里走,我在游戏里面是一样的走,我在这里一脚踢过去,游戏里面也是一样一脚踢过去,这样玩起来整个真实感会非常的好。问题来了,这样的东西,如果多人同时在一个地方跑,蹲下来,甚至于趴下,这样的需求看起来比较少,但是在VR游戏里面这样的需求是比较多的,假定以后玩一个VR游戏,随时需要蹲下来,甚至于趴在地上,甚至于手舞足蹈跟人家打一些格斗游戏;或者假设你蹲在墙角,或者蹲在一个偏远的地方,或者旁边有人,都是可能有遮挡的,这个遮挡会成为该技术比较致命的伤,没有拍到的话,这个技术就会出现问题,这是不可避免的。

过度依赖于环境大家都能想得到,一个白球在这里,如果这里有一盏灯,或者衣服上有白点,因为这个是通过色差,图象处理的方式识别标记点,如果环境中的光照,衣服上的标记点程序判断不出来,就会导致判断失效。

还有这个东西价格比较贵,如果是百度或者Google上查这样一个技术,很多人都会讲这是一套价格比较低廉的解决方案,网上传的价格比较便宜。我不知道什么原因,也没有深入了解过PSVR,但是根据我们的调研,国内的摄像头都是比较贵的,一个普通的高速摄像头普遍都在2万人民币左右。这套技术用普通的摄像头其实也能做,但是会有问题,第一个问题是角度,普通摄像头开的角度比较小,照的范围很小,这里大概有4、5米,假设顶上架一个摄像头,能拍的范围,普通摄像头可能只有两三平方,其实是非常小的范围。假定像按30、50平算的地方,预计要好几十个普通摄像头才能布完,价格、成本都是很大的问题。

另外一个是延迟。做VR,延迟是非常关键的,假定每秒钟60帧,每秒钟能拍60张图片,按1000毫秒算,就是十几毫秒读一张图片,得到一张图片需要处理,需要计算标记点,计算之后还要跟整个环境中的其他摄像头做统计、做别的处理,一整套下来至少需要20、30毫秒以上的延迟。如果按照20、30毫秒的延迟,目前在VR游戏里面是很难达到的,而且还要考虑其他的处理效率,和其他可能出现的意外。目前我们希望的摄像头至少要达到240帧以上,效果才是比较理想的,120帧不够。

基于这几个因素来考虑,我认为可见光空间定位技术在短期内没有太大的可行性,没有太大的推广价值,目前国内也有一些在做,但是无论是设备的价格,还是可操作性,还有别的东西,并没有达到太好的效果,所以我们目前并没有很倾向于可见光空间定位技术。

2. 无线电波空间技术

这是第二种空间定位技术,第一个是我们常见的GPS空间定位技术,还有红外空间定位技术、激光空间定位技术,大家应该都用过GPS。

image.png
所谓的红外也好、激光也好,还有GPS也好,实现的原理大同小异,如图6所示。大家都是使用电磁波,为什么使用电磁波?我们做空间定位,除了电磁波还有没有别的实现方式?为什么要使用电磁波而不是别的东西呢?很简单的道理,按照目前的物理学理论,光速是宇宙的第一速度,也就是说目前来说,电磁波是宇宙中我们所知的更快速度,原因很简单,也很无奈,光速快,所以我们用它,为什么?因为我们需要很低的延迟,我们做一个空间定位是做实时定位,如果延迟没有达到20毫秒,甚至更低,这个技术是不能做VR应用的,可以做GPS定位。

我们所说的VR行业要求,这块是非常高的,所谓HTC定义的标准,渲染的时候要达到90帧,所谓的90帧是什么概念?现在所有的游戏,魔兽、LOL等,一般高定义是60帧。所以说VR游戏的要求相对来说是比其他要高的,我们现在做的VR游戏都是非常烧显卡的游戏,HTC低的显卡配置是GTX970,其他的游戏再大型其实要求都没有这么高,所以帧率要求,刷新率、频率要求太高的话,必须要用好的技术或者快的速度。

显示方式也讲的比较清楚,目前定位技术很多,但是我们所知道的比较主流的,红外也好、激光也好,还有其他的,HTC这一套也是基于激光的技术,国外还有一些用红外,主要是红外和激光为主,我们所谓的GPS定位,原理也是一样的,首先会发很多的同步卫星,同步卫星在上面会不断广播一些消息,广播消息会加上时间轴,精确到毫秒下来,你的手机收到这个时间,我现在的时间是多少,你就知道我收到了一个多久之前发来的信号,根据时间、光速,可以算出来发射信号的卫星距离你多远,卫星都是有编号的,收到信号的时候就知道是哪个卫星发过来的,卫星在轨道上运行的位置是已知的,已经知道它的位置、跟你的距离,可以很轻松的理解为就是一个围绕着它的球,你就在这个球面上。假定同时你收到两个卫星发来的信号,同样知道跟它们的距离,等于你基本上是两个球的相交。假定是三个卫星,基本上你能确定你的位置。

这么讲不知道大家有没有理解,所有空间定位实现原理都差不多,区别在于你的整个场地的布置方式,还有要考虑的设备成本和设备的方向。

什么叫做设备的方向?假定这里有一个镜头,有一个激光发射器,它是垂直于地面,往前发激光,如果像一盏灯一样往周围发,这个不讲方向,只知道距离,但是如果平面是固定的,这样是知道方向的。通过增加方向这个信息,会导致整个程序的计算复杂度提高,但是可以更有效。这是把GPS定位的原理进行理解,比如HTC那套设备,你能看到两个黑黑的东西挂在那里,其实这两个东西不断发射一些激光,头上的头盔、手上的手柄有很多个光的传感器,说白了就是个接受器,它不断接受那两个发射器发射出来的激光,其实实现原理是差不多的,差别只在于处理的方式。

原理大家看起来都是比较简单的,或者看起来实现方式都是差不多的,为什么市面上没有特别成熟的产品呢?或者说目前市面上没有像GPS那么流行,随便手机上装一个东西就可以很好的定位呢?VR游戏重要的是三点:头显、空间定位、动作扑捉。打格斗游戏就是用拳头、脚,不会用鼠标、键盘,打FPS可能就是拿把枪,目前行业认为就是这么干的,所以空间定位技术特别重要,但是市面上目前没有特别好的解决方案,让大家可以很容易的体验到游戏。

其实主要原因在这里:

1. 成本,我们说一个东西如果不能进入民用级别,或者客户量没有达到一定的基数,这个行业的发展是会受到非常大制约的,一个东西的成本要到什么地步才能满足这个行业的需求,或者进入普通人能接受的范围内呢?目前来说,HTC的一整套解决方案是比较便宜的,6888,作为一个公司行为买一套东西,价格是可以接受的,但是对个人来说这个价格是偏高的,一般人是不愿意投这个钱来买的。

2. 有一些技术制约。我们常用的GPS定位是有误差的,一般误差范围是10米,10米对于VR设备来说是完全不能接受的。像GPS这么强大的技术为什么还有10米的误差?就像刚才所说的,因为它用了电磁波定位,利用了电磁波的原理,电磁波的速度非常快,非常快就有好有坏,明显的一点,它的速度并不是稳定恒定不变的,我们所说的电磁波首先在真空中的速度可以理解为不变,但是穿透地球上的大气层或者穿透一些电解质,速度都会发生一定的偏差,这个偏差对人的视觉来说其实是无关紧要的,但是在VR计算上就是不可接受的硬伤,所以这个东西目前并没有特别好的解决方案。

3. 精度问题,精度是什么意思呢?这个世界上其实没有100%的东西,如果从数学上或者从工程学上来说,为什么这么说?你说这个东西的长度是10公分,但是它真的就是10公分吗?其实不是的,比如说黄金是足金,它100%是黄金吗?其实也不是的。它可以是999,都有一个误差,在一个允许的误差范围之内,由于光速速度太快,所谓的时间计算要求就非常高。

光速的速度太快,比如一个卫星开始发电磁波信号过来,计算到现在的时间,现在的时间精确到毫秒甚至微秒,设备接收的时候也得到一个时间,这个时间可能得到毫秒甚至微秒,但是要知道光速30万公里/秒,就算是精确到微秒也是不够的,原子钟的技术说白了就是能让时间越精确,能得到的数据就越高。这两个也是制约技术发展的重要的原因。不提GPS,就提现实中用到的VR技术空间定位,假如我们用红外或者激光做空间定位,HTC那一套首先范围有限制,我们常见的HTC一套设备两个发射器,一般范围是4×5,做一套室外是不够的,室内大家看起来觉得效果很好,很震撼,很火爆,这个东西如果只能用于室内,不能用于室外,对于技术的发展是制约很大的,我们看到国外用的室外定位的视频,看起来效果很好,不管是用什么技术、算法来做各种各样的优化,我说的这两个原理,从根本上没有技术进步是不可能解决的,算法只能做优化处理,有时候很有用,但是并不是能从根本上解决这个问题,说白了这个问题是存在的,只是通过算法掩盖住了,仅此而已。

目前无线电波空间定位,红外、激光或者其他的一些东西,在全世界来说没有一套特别好的解决方案,能解决室内、室外定位同时价格还合适,所以我觉得这个在未来的两三年之内会是一个比较大的方向,会有很多的公司不断的做这一块。其实目前国内也有一些公司做的不错,比如上海青瞳,据我所知是国内做这块比较稳定,而且有产品拿出来,北京也有公司在做。

总体来说这个技术这些问题没法解决的话,VR游戏的体验有一段时间会受到影响,例如现在的体验店,我们公司目前有打算搞线下体验店,并且有打算引入这样的解决方案,做大面积的空间定位,但是目前还没有定下用哪一项,因为都有技术上的问题,或者售价比较贵,如果在座有这方面的创业意向,可能还是有机会,毕竟目前国内还没有比较大的公司在做这一块。

二、动作捕捉技术

image.png

下面讲一下动作捕捉技术,大家看图7,上面的这张图片是网上的图片,现实中可能也是差不多的,看图片就很诡异,非常不合时宜,但是我之前查资料看到,早期的动作捕捉用于上世纪7、80 年代中的电影,那是更让人觉得诡异,难以接受的奇葩造型。这些点都是标记,网上有一些视频,做一些比较细致的动作捕捉的时候,甚至需要做到手指关节的时候,会看到手指上都是白白的珠子,整个人看起来很怪异,例如飞车飞跃,很多手指上绑着珠子,手腕上绑着珠子,动作捕捉技术用到两块技术:光学动作捕捉技术和惯性动作捕捉技术。

1. 光学动作捕捉技术

image.png
光学动作捕捉技术跟光学空间定位原理差不多,基本上是一样的。

大家可以看一下图8所示的原理,首先在人所有需要的关节上,比如要捕捉手指的动作,要在手指上做标记,你只需要在需要捕捉的地方做标记,标记的时候周边都布满各种各样的高速摄像头,平常我们玩足球游戏、篮球游戏,里面好多好多的动作,好帅的扣篮动作,那些都需要有人弄上比较奇葩的装备,把动作都实现一遍,电影中的特效也是一样的,然后把动作录下来,在游戏里面把动作呈现出来,才能看到这样的效果。实现原理也是一样的,高速摄像头通过图像处理技术快速得到任意时间的空间坐标,比如手指上有一个标记,手指在不断运动,做一套标准动作的时候,手指上一秒钟弄240 帧的摄像头,一秒钟处理好多的图片,你会得到它时刻的空间位置,就得到一个轨迹,把轨迹集合到之前做好的骨骼里面,做3D游戏的都知道骨骼动画,骨骼点足够多,每个点的坐标时刻记录下来,保存下来,得到的就是骨骼动画,大概就是这个样子的。

光学动作捕捉技术也发展了十几年,目前全世界来说,设备比较流行,比较多,算是比较成熟了,但是问题也比较明显。光学动作捕捉技术在VR里面目前不可能得到大规模的应用,在我们行业里面,目前这套方案是不可能选择的方案。

大家可以看一下图8中的图片,据说这套设备在现场布置起来需要一卡车,一卡车是什么概念?一个线下体验店,开到超市里面,10平方米,本来每天的客流量就这么多,需要布置一套上百万的设备,何年何月才能收回成本?我听说,这样的设备至少要几十万以上的价格。使用也不方便,这样的设备现场布置之后还要调校,之后还有一些实时性的问题,我们现在拍照,以前拍照都是先拍下来,觉得照片不漂亮用PS处理一下,这个叫所谓的“后处理”,光捕作用的是后处理,它并不可能实时,或者说实时的时候效果有问题。这样使用起来是非常不方便的,如果这个技术可以做到价格很低,可以实时,也是可以满足需求的,但是目前达不到。所以光学动作捕捉技术目前没有在VR行业大规模应用,还是经常用于电影、游戏的动作捕捉。

胸口加入了一个骨骼点,跟人打在一起的时候,有可能所有的摄像头都拍不到这个点,这时候只能通过其他的方式,例如说预测,或者别的算法来做一个近似值模拟这个动作,做出来的效果也是不理想的。这样一套设备在VR行业,我认为一两年内看不到什么应用前景和前途。

2. 惯性动作捕捉系统

image.png
图9是惯性动作捕捉系统。行业外的人可能不是特别了解,行业内的都知道这个东西。国内有一家比较大的公司,叫诺亦腾,这个公司不光是在国内名气比较响,在国际上名气也是比较大的,他们的设备主要是卖到国外,主打产品就是惯性动作捕捉仪,去年这个公司的估值有20亿元。在我们这个行业里面,做到估值20 亿元,并且有人愿意买单投钱是不简单的事情,据说他们在这一块有核心的算法。

惯性动作捕捉系统的实现原理其实蛮简单的,上个月有一家以色列的公司到我们这里推他们的传感器,他们的传感器是一块非常小的芯片,大概是手指这么小,可以拿着一个芯片装App,芯片绑定在凳子上,凳子这么动,你看到App里面有一把枪也这么动,都是一样的。说白了,运动的方向和空间、位置都是可以定位得到的。我们所用的手机,只要手机不是太差,都有陀螺仪,你可以在里面旋转,它时刻知道方向,VR全景视频或者一些游戏,你把手机反过来拿,就会把视频调过来看,实现的基础原理是陀螺仪。

理论上,假定你身上布的好几个传感器,知道空间中的绝对坐标,或者说以你的身体某一个点建立一个坐标系,然后任意一个传感器相对这个点的相对坐标你是知道的。已经知道的时候,运动的时候会有方向并且有速度,有加速度,根据这个加速度和方向其实能算出来任意值,比如1秒钟算100次,1秒钟内任意时刻的位移,是可以得到的,所以通过这种方式也能够得到所有的骨骼点的运动轨迹,知道运动轨迹之后也能得到一条骨骼动画。我们在网上可以任意搜一下诺亦腾的设备,有一个东西,类似穿衣服一样,衣服上串了很多标记点,然后做一套动作,在屏幕上会有一个机器人,机器人是跟着你一起动的,你往前走他也往前走,你做什么动作他也做什么动作,体验看起来特别好,在视频上看起来基本上没有什么问题。

整个VR行业里面,在未来一两年,这样一套设备应该是比较主力的东西。他们的好处一个是使用简单,另一个是价钱便宜,1.8万元听起来还是很贵的,在商用来说应该是可以接受的,如果希望开线下体验店,这个价钱大概很多人是可以接受的。但是对个人来说价钱还是太贵,1.8万元对一般人也是不愿意买的。

我听说北京有一些行业内的人也在做这套解决方案,据说成本可以做到1000元,我看起来应该是很困难的。上次以色列公司跟我们联系的时候,他告诉我技术如何国际领先,芯片对于我们这种行业公司,行业内找你合作的人一般会送你一些东西,我们有很多VR设备是其他公司送的,但是以色列这个东西不单不肯送,还要售30美金一个。我听到这个价钱的时候,我吓了一跳,一个传感器30美金,接近200元人民币,在身上绑定至少要30个节点,那就要6000元,还要算上别的东西。不算销售成本,光算传感器的成本就6000,目前这一块还是有比较大的潜力可挖。类似的解决方案价钱应该能做到几千块,但做到1000元,我是抱怀疑态度的,因为传感器的成本摆在那里,按30个传感器来算的话,一个传感器价钱要在10元左右,才有可能把成本做到1000元。

惯性动作捕捉系统也有劣势,扑捉仪的不足有误差累计问题,一个物体从A点移到B点,再移到C点,再移到D点,一个一个点移动下去,很明显会有问题的。为什么?所有的计算一定是存在精度问题的,不可能绝对正确。从A点移到B点计算的时候肯定是有误差的,误差可能是0.000001,再到C点、D点、E点、F点,不断移动过程中,误差不断的累计,前面可能只是误差0.0001,后面的0.0002,因为误差是相对坐标,不是绝对坐标,惯性捕捉全部都是计算相对坐标,误差就是相对误差,相对误差不断累计的时候,会出现非常大的问题,也就是没法用。据说早期这样的设备,一开始的时候动作很准,慢慢的越来越不准,越来越不准,变得没法用,这就是所谓的误差累计问题。

行业内目前有各种各样的办法来补救,用得多的就是通过算法上来弥补,我听说诺亦腾有一定的办法解决,听说他们是过一段时间做一次绝对坐标的矫正,配合其他的第三方工具,这是有可能的。

怎么实现?我倾向于过一段时间过一段时间做一次绝对坐标的矫正,因为算法这个东西不可能做到绝对正确,顶多做到90%的正确,已经很厉害了,你要长期使用的话肯定是有问题的。

这个不足应该是会制约技术的发展,我预计未来一两年,诺亦腾这样的公司,或者大量创业公司做的类似惯性捕捉的设备,在线下体验店会得到大量的使用。如果要做这一块的创业,有一定的风险,目前做的话还是北京那边比较多,深圳这边我暂时还没有听到做得比较好的公司,也有可能我比较孤陋寡闻。

三、VR游戏展示

image.png

大家可以看图10,是HTC的推广视频截图,大家有没有觉得比较酷,或者大家有没有看出什么问题,你可能看出来是一个人在野外玩一个游戏。

再看一下图11,其实这两张图大家对比一下就很容易理解,你真实看到的是什么?是这个人在这样的环境里面很傻逼地在动,但是在外面的大屏幕上看到一个人在绿草如茵的地方,很快乐地在里面玩游戏。这个视觉冲击还是比较大的,说白了,你所看到的背景是虚的,假的环境,假的宠物机器人,它是一个游戏场景,但是人是在真实的环境里面玩,它可能就是站在这块绿布前玩的,但是在宣传视频、推广视频里面看到他在这里面玩得很嗨。这一块,在以前的游戏里面是不需要做的。

image.png
大家看一下图11,我叫它“绿抠”,这个技术现在没有什么专业术语。

背景是纯绿的,一块绿色的布搭这样一个环境,一个人带着HTC的眼镜,拿着手柄在里面玩游戏。为什么看到那边是在游戏场景里面呢?其实很简单,先说技术实现原理,如果对3D图形或者视频解码技术比较熟悉,非常好理解实现原理,首先设想头对着人拍,可以得到一个视频,视频传到本身游戏电脑里面,做一个硬解,就是GPU的解码。它非常快,而且占用尽量少的GPU资源解码一个游戏。

在后处理中写一个shader,把视频图片做一个mask,一个简单的色差计算,得到一张图片,把这个人套出来,把背景去掉,过程中人不能穿绿衣服,穿了肯定不行,说白了,显卡GPU里面把这个人抠出来,再贴到原来的游戏场景里面去。这个和之前的AR有点像,看起来好像这个人在这个地方,跟宠物在玩游戏。

目前我们在线下体验店见不到VR展示技术,我们很希望在线下体验店做很好的展示,如果去过线下体验店或者了解这个行业的都会觉得有一个比较难解的问题,我看到一个人在那里玩游戏,玩起来好像很激动,但是不知道他为什么这么激动?这样子其实整个吸引力就会大大的下降。这一块的展示技术,在未来的一年之内我认为会慢慢的完善。

再就是直播,目前的游戏直播在直播行业里面占比较大的比重,可能会超过30%,比如英雄联盟直播、DOTA直播,各种各样的游戏直播,但是有一个问题,假设在玩一个VR游戏,怎么直播比较合适呢?这就是很明显要处理的问题,你可以想象一下,假定你做这个VR游戏直播,去掉人,做一个机器人在这里合适吗?

其实这些都不是什么太合适的解决方案,在目前我们常用的VR游戏里面,这样的直播,就算把这个人去掉,目前都没有做。没有做的原因很多,主要是目前开发的VR游戏,大部分是用两个引擎来做,用这两个引擎来做的好处就是可以快速开发、快速上线,可以很容易做出效果非常逼真的游戏。但是不足也非常明显,如果他们已经不提供这样的东西呢,你做的时候要付出非常大的成本,目前来说是不现实的,如果自己做引擎,或者从头到尾有自己核心的东西,可能可以往这个方向走,但是使用第三方引擎的只能被动等别人做好这个东西。

假定做一个VR直播,之前老早有一个足球比赛的直播,去年有阅兵直播,这些都是行业内比较火爆的VR直播,但是这些直播有一个很明显的问题——缺少互动,弹幕也没有。目前VR游戏在直播这块有非常多的东西可以做,做出来甚至还有一定的竞争力。

我们可以想象一下,玩这么一个游戏,如果你从一个观察者的角度,我们所谓的上帝视角来做一个直播,效果会好吗?可能对看直播的人来说,效果未必会很好。因为这样的直播,其实也失去了身临其境的感觉。所以目前在行业内,很多人都在挖空心思的在想往哪个方向来做。

我们也有自己的解决方案,我们其实可以尝试另外一种角度,你看别人玩游戏,如果有这样一个游戏,而且能够得到别人在玩游戏里面的数据,例如等级、放技能、打怪,跟网络游戏一样,同时参与在里面,只不过是以一个上帝视角的形式在里面参与,这也是一个思路。未来我们会考虑绿幕和上帝视角这两种方式。