只通過眼球反光,就能復現你眼中的世界?如此科幻的場景,竟然在這篇論文中成為現實
編者按:本文來自微信公眾號 新智元(ID:AI_era),作者:新智元,創業邦經授權發布,頭圖來源攝圖網。
“唯一真正的探索之旅,不是去拜訪陌生的土地,而是透過別人的眼睛來觀察宇宙。”——馬塞爾·普魯斯特
(資料圖片)
通過別人的眼睛來看世界,這個又科幻又詩意(又恐怖)的想法,已經成真了!
現在,我們只需利用眼睛的反光,就能三維重建這個人正在觀察的物體。
是的,這很黑鏡。
最近,來自馬里蘭大學的團隊,提出一種全新的方法——通過利用包含眼睛反光的人像,來對攝像機沒有拍到的場景進行三維重建。
論文地址:https://arxiv.org/abs/2306.09348
項目地址:https://world-from-eyes.github.io/
經典科幻中的場景都成真了?用眼睛反射產生輻射場重建?這個想法看似瘋狂,實則有足夠的理論依據。
作者介紹說,因為人眼具有高度的反射性,所以從捕捉頭部移動的一系列幀中,完全可以做到僅使用眼睛的反射,就能重建和渲染人們正在觀察的3D場景。
鑒于這個概念非常「黑鏡」,而且這篇論文一發布沒幾個小時,《黑鏡》新一季就宣布上線了,這種巧合簡直讓人懷疑《黑鏡》的導演是不是也注意到了這篇論文。(狗頭)
黑鏡第六季今日上線
這項研究一出,網友們直接炸了。
所以,我們已經快進到這一步了?
這不就是2000年代《攻殼機動隊》中的場景嗎?這些虛構全都變成現實了!
100%的《銀翼殺手》,現在就給我一份拷貝吧。
儒勒·凡爾納的《基普兄弟》成真了!
當然,也有人對此表示毛骨悚然:這個技術可千萬別被用于調查取證之類的事情。
而在今天,我們已經有了Varjo眼動追蹤相機,還有蘋果的VisionPro以及其他頭顯,這些設備都可以捕捉大量鏡頭素材,結合進這項新技術,無數嶄新的科幻場景,恐怕馬上都要成真了……
通過利用光線在人眼上的微小反射,研究團隊開發了一種方法,可以使用在固定相機位置拍攝的單目圖像序列來重建人所觀察到的(非直視)場景。
不過,僅僅在觀察到的反射上訓練輻射場是不夠的,原因有幾個:1)角膜定位中的固有噪聲,2)虹膜紋理的復雜性,3)每張圖像中捕獲的低分辨率反射。
為了解決這些挑戰,團隊在訓練過程中引入了角膜姿態優化和虹膜紋理分解,并借助基于人眼虹膜的徑向紋理正則化損失。
與傳統的需要移動相機的神經場訓練方法不同,他們使用的方法將相機放置在固定的視點上,完全依賴于用戶的移動。
利用人眼反光,實現場景重建由于準確估計眼睛的姿態十分困難,再加上虹膜和場景反射之間的紋理相互交織,因此這項任務頗具挑戰性。
為了解決這一問題,作者針對眼睛姿態、描述場景的輻射場以及觀察者的眼睛虹膜紋理,進行了聯合優化。
具體來說,主要的貢獻有三點:
1. 新的三維重建
提出了一種從眼睛圖像中重建觀察者世界的3D場景的新方法,可以將先前的基礎工作與神經渲染的最新進展相結合。
2. 虹膜的徑向先驗
引入了虹膜紋理分解的徑向先驗,顯著提高了重建的輻射場的質量。
3. 角膜姿態的優化
開發了一種角膜姿態優化的過程,以減輕眼睛姿態估計的噪聲,克服了從人眼中提取特征的獨特挑戰。
結果顯示,利用這個全新的方法,我們可以通過移動畫面,從眼睛的反射中獲得場景的多個視角,最終實現完整的場景重建。
更厲害的是,團隊還嘗試利用Miley Cyrus和Lady Gaga的MV,來重建她們眼睛里的景象。
作者表示,他們成功地重建了出現在Miley的眼中的物體,并且從Lady Gaga的眼中似乎看到了一個人的上半身。
然而,由于這些視頻的質量不夠高,因此還不能斷定重建結果的準確性。
Lady Gaga
Miley Cyrus
如何做到的?眾所周知,健康成年人的角膜幾何形狀幾乎相同。
因此,只需在圖像中計算一個人的角膜的像素大小,就可以準確計算出他們的眼睛位置。
接下來,作者通過從相機拍攝光線,并將它們反射出近似的眼睛幾何形狀,來訓練眼睛反射的輻射場。
為了避免人眼的虹膜在重建中出現,作者同時訓練了一個學習虹膜紋理的二維紋理映射,來進行紋理分解。
實驗評估 合成數據評估首先,作者通過在Blender場景中放置人眼模型,進行了合成數據上的評估。
下圖展示了僅利用眼睛反射重建的場景。
由于在現實生活中無法完美估計眼角膜,作者和評估了角膜姿態優化對估計角膜半徑噪音的魯棒性。
為了模擬真實數據中可能遇到的深度估計誤差,作者通過使用不同噪音水平對每個圖像中觀察到的角膜半徑進行縮放,來破壞觀察到的角膜半徑r_img。
下圖展示了在不同噪音水平下的性能變化。
值得注意的是,隨著噪音的增加,與無姿態優化的重建相比,作者提出的姿態優化重建在重建的幾何形狀和顏色方面更為魯棒。
這證明姿態優化對于現實場景至關重要,因為圖像中從投影的角膜到初始橢圓擬合并不完美。
此外,在有無紋理分解的情況下的定量比較顯示,作者的方法在SSIM和LPIPS方面在紋理分解的情況下表現更好。
值得注意的是,作者沒有計算PSNR,因為在設置中,反射和場景本身之間的照明差異非常大。
真實世界評估為了保證視野的真實,作者選擇了索尼RX IV相機進行拍攝,并使用Adobe Lightroom對圖像進行后處理,以減少角膜反射中的噪聲。同時,作者在人物的兩側加入了光源來照亮目標物體。
過程中,被拍的人需要在相機的視野范圍內移動,以便團隊在每個場景中拍攝5-15幀圖像。
由于場景照明具有較大的動態范圍,作者在所有實驗中使用16位圖像,以避免丟失觀察到的反射中的信息。
平均而言,每個圖像中角膜只覆蓋約0.1%的區域,而目標物體大約會占到20x20像素,并與虹膜紋理交錯。
數據處理作者首先通過對圖像進行角膜中心和半徑的估計,來獲得角膜的初始位置估計。
然后,使用平均深度和相機的焦距直接近似來計算角膜的三維位置,并計算其表面法線。
為了自動化這個過程,作者使用Grounding Dino定位眼睛的邊界框,并使用ELLSeg對虹膜進行橢圓擬合。
盡管角膜通常被遮擋,但我們只需要未遮擋的區域,因此可以使用Segment Anything來獲得虹膜的分割掩碼。
真實結果從下圖展示的效果中可以看出,作者的方法能夠從真實世界的人像圖片中重建3D場景,盡管存在角膜位置和幾何估計的不準確性。
由于角膜邊界的模糊性,想要在圖像中實現精確的定位十分困難。
此外,對于某些眼睛顏色,如綠色和藍色,3D重建也會更加困難,因為虹膜紋理較亮。
此外,在沒有明確建模紋理時,重建后的畫面中還會出現更多的「漂浮物」。
為了解決這些問題,可以通過增加徑向正則化的程度,來改善重建的質量。
不過,這個方法依然存在兩個主要的限制。
首先,目前的真實世界結果是基于「實驗室設置」,例如對人臉進行放大拍攝、使用額外的光源照亮場景等。而在更自由的環境中,就需要面對傳感器分辨率較低、動態范圍較小且存在運動模糊等更大的挑戰。
其次,目前對虹膜紋理的假設(例如恒定紋理、徑向恒定顏色)可能過于簡化,因此該方法在眼睛大幅度旋轉時可能會失效。
作者介紹共同一作Kevin Zhang,目前是馬里蘭大學的博士生。
Brandon Y. Feng在馬里蘭大學獲得計算機科學博士學位,研究興趣集中在計算成像、中層視覺和計算攝影領域。曾開發了用于圖像和3D數據處理的機器學習算法,應用范圍涵蓋混合現實到自然科學等領域。
Jia-Bin Huang是馬里蘭大學副教授,此前在UIUC獲得了博士學位。研究興趣集中在計算機視覺、計算機圖形學和機器學習的交叉領域。
參考資料:
https://world-from-eyes.github.io