光场相机的技术原理

图 1. 7D全光函数示意图

上述光场的描述是以人眼为中心。光路是可逆的,因此光场也可以以物体为中心等效的描述。与“光场”相类似的另一个概念是“反射场(Reflectance Field)”。如图2所示,物体表面发光点的位置可以用(x, y, z)三个维度来表示;对于物体表面的一个发光点,总是向180度半球范围内发光,其发光方向可以用水平角度和垂直角度(θ, Φ)来表示;发出光线的波长表示为(λ);物体表面的光线随着时间(t)的推移会发生变化。同理,反射场可以等效表示为7维函数,但其中的维度却表示不同的意义。

图 2. 7D反射场示意图

对比光场与反射场可以发现:光场与反射场都可以用7个维度来表征,光场是以人眼为中心描述空间中所有的光线,反射场是以物体表面发光点为中心描述空间中所有的光线。光场所描述的光线集合与反射场所描述的光线集合是完全一致的。换句话说,光场中的任一条光线都可以在反射场中找到。

2、为什么要研究光场?

【从光场采集的角度来看】以自动驾驶为例,首先需要通过多种传感器去“感知”外界信息,然后通过类脑运算进行“决策”,最后将决策以机械结构为载体进行“执行”。现阶段人工智能的发展更倾向于“类脑”的研究,即如何使计算机具有人脑类似的决策能力。然而却忽略了“眼睛”作为一种信息感知入口的重要性。设想一个人非常“聪明”但是视力有障碍,那么他将无法自如的驾驶汽车。而自动驾驶正面临着类似的问题。如果摄像机能采集到7个维度所有的信息,那么就能保证视觉输入信息的完备性,而“聪明”的大脑才有可能发挥到极致水平。研究光场采集将有助于机器看到更多维度的视觉信息。

【从光场的显示角度来看】以LCD/OLED显示屏为例,显示媒介只能呈现光场中(x, y, λ, t)四个维度的信息,而丢失了其他三个维度的信息。在海陆空军事沙盘、远程手术等高度依赖3D视觉的场景中,传统的2D显示媒介完全不能达到期望的效果。实现类似《阿凡达》中的全息3D显示,是人类长久以来的一个梦想。当光场显示的角度分辨率和视点图像分辨率足够高时可以等效为动态数字彩色全息。研究光场显示将有助于人类看到更多维度的视觉信息。

从1826全世界第一台相机诞生[8]至今已经有近两百年历史,但其成像原理仍然没有摆脱小孔成像模型。在介绍小孔成像模型之前,先看看如果直接用成像传感器(e.g. CCD)采集图像会发生什么事呢?如图3所示,物体表面A、B、C三点都在向半球180度范围内发出光线,对于CCD上的感光像素A'会同时接收到来自A、B、C三点的光线,因此A'点的像素值近似为物体表面上A、B、C三点的平均值。类似的情况也会发生在CCD上的B'和C'点的像素。因此,如果把相机上的镜头去掉,那么拍摄的图片将是噪声图像。

图 3. 无小孔的噪声成像

如果在CCD之前加一个小孔,那么就能正常成像了,如图4所示。CCD上A'点只接收到来自物体表面A点的光线。类似的,CCD上B'和C'点也相应只接收到物体表面B点和C的点光线。因此,在CCD上可以成倒立的像。

图 4. 小孔成像

实际的相机并没有采用如图4中的理想小孔成像模型,因为小孔直径较小会导致通光亮非常小,信噪比非常低,成像传感器无法采集到有效的信号;如果小孔直径足够小,当与光波长相当时还会产生衍射现象。而小孔直径过大会导致成像模糊。现代的成像设备用透镜来替代小孔,从而既能保证足够的通光量,又避免了成像模糊。如图5所示,物体表面A点在一定角度范围内发出的光线经过透镜聚焦在成像传感器A’点,并对该角度范围内所有光线进行积分,积分结果作为A点像素值。这大大增加了成像的信噪比,但同时也将A点在该角度范围内各方向的光线耦合在一起。

图 5. 透镜小孔成像

小孔成像模型是光场成像的一种降维形式,只采集了(x, y, λ, t)四个维度的信息。RGB-D相机多了一个维度信息(x, y, z, λ, t)。相比全光函数,其主要丢失的维度信息是光线的方向信息(θ, Φ)。缺失的维度信息造成了现有成像/呈像设备普遍存在的一系列问题。在图像采集方面,可以通过调节焦距来选择聚焦平面,然而无论如何调节都只能确保一个平面清晰成像,而太近或太远的物体都会成像模糊,这给大场景下的AI识别任务造成了极度的挑战。在渲染显示方面,由于(θ, Φ)维度信息的缺失会引起渲染物体缺乏各向异性的光线,从而显得不够逼真。好莱坞电影大片中渲染的逼真人物大多采用了光场/反射场这一技术才得以使得各种科幻的飞禽走兽能栩栩如生。

3、光场4D参数化

根据7D全光函数的描述,如果有一个体积可以忽略不计的小球能够记录从不同角度穿过该小球的所有光线的波长,把该小球放置在某个有限空间中所有可以达到的位置并记录光线波长,那么就可以得到这个有限空间中某一时刻所有光线的集合。在不同时刻重复上述过程,就可以实现7D全函数的完备采集。Google Daydream平台Paul Debevec团队在Steam平台上推出的《Welcome To Light Field》就是采用了类似的思想实现的。然而,采集的数据量巨大。按照当前的计算机技术水平,难以对7D光场这么庞大的数据进行实时处理和传输。因此有必要对7D光场进行简化降维。

如图6所示,美国斯坦福大学的Marc Levoy将全光函数简化降维,提出(u,v,s,t)4D光场模型[9]。Levoy假设了两个不共面的平面(u,v)和(s,t),如果一条光线与这两个平面各有一个交点,则该光线可以用这两个交点唯一表示。Levoy提出的光场4D模型有一个重要的前提假设:在沿光线传播方向上的任意位置采集到的光线是一样的。换句话说,假设任意一条光线在传播的过程中光强不发生衰减且波长不变。考虑到日常生活中光线从场景表面到人眼的传播距离非常有限,光线在空气中的衰减微乎其微,上述Levoy提出的假设完全合理。

Levoy提出的光场4D模型并不能完备地描述三维空间中所有的光线,与(u,v)或(s,t)平面所平行的光线就不能被该4D模型所表示,例如图6中红色标示的光线。尽管Levoy提出的4D模型不能完备描述三维空间中所有的光线,但可以完备描述人眼接收到的光线。因为当光线与人眼前视方向垂直时,该光线不会进入人眼。因此,这部分光线并不影响人眼视觉成像。Levoy提出的4D模型既降低了表示光场所需的维度,同时又能完备表示人眼成像所需要的全部光线。光场4D模型得到了学术界的广泛认可,关于光场的大量研究都是在此基础上展开。

图 6. 4D光场模型

4D光场模型具有可逆性,既能表示光场采集,又能表示光场显示。如图7所示,对于光场采集模型,右侧物体发出的光线经过(s,t)和(u,v)平面的4D参数化表示,被记录成4D光场。对于光场显示模型,经过(u,v)和(s,t)平面的调制可以模拟出左侧物体表面的光线,从而使人眼“看见”并不存在的物体。

图 7. 4D光场模型的可逆性

如图8所示,物体表面A、B、C三点发出的光线首先到达(u,v)平面,假设(u,v)平面上有三个小孔h1、h2、h3,则A、B、C三点发出的光线经三个小孔分别到达(s,t)平面。A、B、C三点在半球范围内三个不同方向的光线被同时记录下来,例如A点三个方向的光线分别被(s,t)平面上A3’、B3’、C3’记录。如果(u,v)平面上小孔数量更多,且(s,t)平面上的像素足够密集,则可以采集到空间中更多方向的光线。需要说明的是,图8中展示的是(u,v)(s,t)光场采集模型在垂直方向上的切面图,实际上可以采集到A、B、C三点9个不同方向(3x3)的光线。

图 8. 4D光场采集空间光线示意图

图像分辨率和FOV(Field Of View)是传统相机成像性能的主要指标。衡量4D光场的指标不仅有图像分辨率和FOV,还有角度分辨率和FOP(Field Of Parallax)。图9展示了基于微透镜阵列的光场相机的光路示意图,物体表面发出的光线进入相机光圈,然后被解耦和并分别被记录下来。以B点为例,发光点B在半球范围内发出各向异性的光线,但并不是所有的光线都进入相机光圈,只有一定角度内的光线被成功采集,被光场相机采集到的光线的角度范围决定了能够观察的最大视差范围,我们记这个角度为FOP。换句话说,图9中光场相机只能采集到B点FOP角度范围内的光线。但FOP的大小随着发光点与光场相机的距离远近而不同,因此通常采用基线的长度来衡量FOP的大小,图9中主镜头的光圈直径等效为基线长度。

图9中B点在FOP角度范围内的光线被微透镜分成4x4束光线,光场相机的角度分辨率即为4x4,光场相机的角度分辨率表征了一个发光点在FOP角度范围内的光线被离散化的程度。而基于小孔成像模型相机的角度分辨率始终为1x1。光场的视点图像分辨率同样表征了被采集场景表面离散化程度,成像传感器分辨率除以角度分辨率即为视点图像分辨率。

图 9. 透镜阵列4D光场的图像分辨率和角度分辨率

基于相机阵列的光场相机同样可以用视点图像分辨率、角度分辨率、FOV、FOP四个参数来衡量光场相机的各方面性能。如图10所示为4x4相机阵列,B点半球范围内发出的光线中FOP角度范围内的光线被相机阵列分成4x4束并分别被采集。相机的个数4x4即为角度分辨率,单个相机成像传感器的分辨率即为视点图像分辨率。所有相机FOV的交集可以等效为光场相机的FOV。基于相机阵列的光场相机的基线长度为两端相机光心之间的距离。一般而言,基于相机阵列的光场相机比基于微透镜阵列的光场相机具有更长的基线,也就具有更大的FOP角度。

图 10. 相机阵列4D光场的图像分辨率和角度分辨率

4、光场4D可视化

4D光场数据可以表示为(Vx, Vy, Rx, Ry),其中(Vx, Vy)表征了角度分辨率,表示有Vx*Vy个视点(View)图像;(Rx, Ry)表征视点图像分辨率,表示单个视点图像的分辨率为Rx*Ry。如图11中上侧图展示了7x7光场的可视化,表示共有49个视点图像,每个视点的图像分辨率为384x512。视点图像分辨率越高,包含的细节越多。角度分辨率越高,单位角度内视点数量越多,视差过度就越平滑。角度分辨率越低,视点就越稀疏,观看光场时视点跳跃感越明显。假设在10度的可视角度内水平方向上包含了7个视点,相邻视点间的角度为1.67度,在2米的观看距离,相邻两个视点的水平距离为29毫米。当视点个数减少,相邻视点的空间距离变大,观看者移动观看位置时就会感到明显的视点跳跃。

光场中任意两个视点间都存在视差,将光场(Vx, Vy, Rx, Ry)中的部分视点图像放大,如图11中下侧所示;同一行所有视点图像之间只有水平视差,没有垂直视差;同一列所有视点图像之间只有垂直视差,没有水平视差。

图 11. 光场角度分辨率和视点分辨率可视化分析

光场作为高维数据,不便于可视化分析。为了更好的分析光场中的视差,往往将光场中某一个水平/垂直视点上所有图像的同一行/列像素堆成一幅2D图像,称之为光场切片数据(Light Field Slice)。光场切片图像可以将光场中的水平视差和垂直视差可视化,便于直观分析。如图12中蓝色线条所在的行像素堆叠后就形成了图12中下侧的光场切片图像。类似的,如图11中将光场中同一垂直视点上所有绿色线条所在的列像素堆叠后就形成了图11中右侧的光场切片图像。

图 12. 光场切片图例

5、 光场相机

光场相机的硬件结构是由主透镜、微透镜阵列和CCD/CMOS感光器三大块组成。这个结构模型看似简单,但是实际的组成如下图解析:可以看到实际的主透镜,就跟传统相机的主透镜一样,是由多个透镜组组成的,以校正各种光学像差畸变,主透镜模型看似也就单块,实际结构确是很多块!而微透镜阵列,的确就是薄薄的一层,并行排布的很多个一块,紧随其后的就是CCD和CMOS。

图 13. 光场相机的硬件结构示意图

不考虑光波的波长等信息,仅考虑方向和位置,光场,即所有传播方向和所有位置上的光线,可以用一个四维变量来表述L = L(u,v,s,t), u, v代表方向坐标,s,t代表位置坐标,这种表述方法称为两平面表示法。

图14 光场的两平面表示法

左图可以说明光场相机采集这个四维向量的过程,微透镜本身的位置(s,t)代表了空间坐标,因为由光路图可以看出,某个微透镜接受的光线,只是物空间某个平面上的一个小区域,这点可以由初中所学的主透镜的针孔模型说明,由光路可逆原理,可以随便画从某个微透镜上任意一点发出,并穿过主透镜光心的光线,这跟光线必然只能达到某个物平面的一个小区域。

此外,某个微透镜下存在多个像素,每个像素和这个微透镜中心都有一个相对位置,这个相对坐标就是(u,v)方向信息。可以画一个从一个像素的光线,经过微透镜的光心,最后击中主透镜上的一个位置,这个位置也就对应着主透镜看物体时的不同“视角”。

一句话,微透镜本身的位置就是空间信息(s,t), 微透镜下像素相对于微透镜中心的位置就是角度信息(u,v)!因此,光场相机可以同时对光线的方向和位置进行采集!

参考文献

[1] E. N. Marieb and K. N. Hoehn, Human Anatomy & Physiology (Pearson, 2012).

[2] A. Gershun, “The light field,” Moscow, 1936, P. Moon and G. Timoshenko, translators, J. Math. Phys. XVIII, 51–151 (1939).

[3] Moon P, Spencer D E. The photic field[J]. Cambridge Ma Mit Press P, 1981, 1.

[4] Zhang C, Chen T. Light Field Sampling[J]. Synthesis Lectures on Image Video & Multimedia Processing, 2006(1):102.

[5] Javidi B, Okano F. Three-Dimensional Television, Video, and Display Technology[J]. Materials Today, 2003, 6(2):50.

[6] Ozaktas H M, Onural L. Three-Dimensional Television: Capture, Transmission, Display[J]. Thomas Telford, 2008, 2(1):487 - 488.

[7] E. Adelson and J. Bergen, “The plenoptic function and the elements of early vision,” in Computational Models of Visual Processing (MIT, 1991), pp. 3–20.

[8] Todd Gustavson, George Eastman House. Camera: A history of photography from daguerreotype to digital[M]. Sterling Innovation, 2012.

[9] M. Levoy and P. Hanrahan, Light field rendering[C]. Proceedings of ACM SIGGRAPH, 1996.

参考博客

Mars说光场(1)— 为何巨头纷纷布局光场技术 | 雷峰网 (leiphone.com)

转自:新赛道投资调研

本文仅作技术信息交流,如有侵权,请联系删除。

end返回搜狐,查看更多