在 Nvidia 的新款 GeForce RTX 5080 上親身體驗 DLSS 4

昨晚,Nvidia 終於推出了 RTX 50 代顯示卡 - 但在假期期間,我有機會花一些時間在配備新 GeForce RTX 的 PC 上測試全新的 DLSS 4 升級和幀生成技術5080,運行更新版本- 這令人印象深刻。 Nvidia 透過新的「視覺變換器」模型升級了其超解析度升級和光線重建技術,提供了一些顯著的品質升級,同時幀生成從一個插值幀提升到兩個甚至三個。最終結果是外觀更加美觀的《Cyber​​punk 2077》能夠以遠高於 120 fps 的幀速率運行完整的路徑追蹤體驗。

這裡有很多東西要討論,但要先明確的是,這是預覽、初看報道。我接觸到的 RTX 5080 是工程樣品。驅動程式還不是最終的。我可以提供有關 DLSS 4 如何運作以及幀率提升的大致思路,但確切的數字必須等待審查硬體和最終驅動程式。此外,我對硬體的有限時間視窗限制了我可以進行的測試範圍 - 但無論如何,我看到了足夠的內容並捕獲了足夠多的內容,以便對新技術做出初步反應。

下面嵌入了我訪問的成果,但說到捕獲,就像之前的 DLSS 3 幀生成一樣,由於新幀生成系統的幀速率放大係數,展示 DLSS 4 的實際外觀有些困難。多幀生成使 DLSS 4 非常適合最新一波的 QD-OLED 4K 240Hz 顯示器 - 但市場上沒有能夠以每秒 240 幀的速度捕獲超高清的捕獲技術。

這是在 Nvidia GeForce RTX 5080 上運行的 DLSS 4,在 4K 螢幕上以全解析度觀看效果最佳。在 YouTube 上觀看

在影片 B-roll 中,我嘗試透過將幀速率限制為 120fps,然後放慢 50% 以適應 YouTube 高階 4K 60fps 容器的限制來展示幀生成的品質。然而,解鎖運行時,幀速率遠高於我施加的 120 fps 限制。因此,雖然影片讓您了解新的幀生成如何呈現,但現實世界的體驗卻截然不同:幀持久性將顯著降低,因此幀生成偽影遠不那麼明顯。實際上,我需要阻止 DLSS 4 在視訊平台上提供任何類型的代表性媒體。啟用完整多幀生成的 DLSS 4 專為最新一代高刷新率顯示器而設計,我在完全解鎖運行的 Alienware AW3225QF QD-OLED 4K 240Hz 顯示器上體驗了它 - 效果非常好。

值得慶幸的是,DLSS 超解析度和光線重建的改進可以透過 4K 60fps 擷取來展示 - 並且這裡有一些關鍵改進。現有的 DLSS 使用卷積神經網路 - Nvidia 表示,這「透過分析局部上下文並追蹤連續幀中這些區域的變化來產生新像素」。該模型隨著時間的推移不斷改進,但只能走到這一步,最新版本僅顯示了迭代改進。

新的 DLSS 模型使用視覺轉換器,類似於 ChatGPT、Gemini 和 Flux 背後的基礎技術。 Nvidia 表示,這“使得自註意力操作能夠評估整個幀和多個幀中每個像素的相對重要性。”其參數數量是先前 CNN 模型的兩倍,因此,我們有望獲得更高的穩定性、減少重影、更高的細節和增強的抗鋸齒功能。 Transformer 模型具有高度可擴展性,因此 Nvidia 預計透過更好的訓練可以進一步提高品質。它也向後相容,這意味著它可以改裝為在 2.0 版本或更高版本上運行的先前 DLSS 遊戲。它也適用於所有先前的RTX 卡,可以追溯到2018 年基於圖靈的RTX 20 系列,但模型複雜性的增加可能會產生某種性能影響(可能會被質量的提高所抵消- 這確實需要徹底的測試) )。

點擊以獲得更高解析度的圖像。在頂部,您將看到視覺變換器技術如何幾乎消除我們經常討論的舊 DLSS 重影。左下角,您將看到新技術改進的細節,而右下角則顯示 DLSS 光線重建對細節的改進。 |圖片來源:數位鑄造廠

儘管我們捕獲的材料有限,但圖像品質專家 Alex Battaglia 和我從 B-roll 中獲得的總體印像是,儘管以與 CNN 性能模式相同的 1080p 內部分辨率運行,但視覺轉換器等效項並不看起來像這樣——更好。有一些明顯的跡象表明,我們在 DLSS 方面長期存在的一些問題得到了很大改善。上面的影片很好地展示了這一點,但拖尾和重影大大減少了。運動中的閃光和不需要的內容「風格化」大部分都消失了,同時,光線重建(本質上是光線追蹤的升級)顯示出類似的、非常受歡迎的改進。

將視覺變換器模型與現有 CNN 版本的 DLSS 進行比較本質上是比較兩種截然不同的 AI 升級器 - 遠遠超出了我使用 RTX 5080 的時間範圍,並且我們一旦獲得了這些結果就會關注內部硬體.然而,超解析度和光線重建改進的影響是重大的。自 2020 年 2.0 版本發布以來,DLSS 僅進行了迭代改進,但它仍然是最高品質的升級器,而 DLSS 光線重建尚未由任何競爭對手提供。假設這兩個方面都能實現顯著改進且沒有任何負面影響,這將使英偉達領先其競爭對手又一步。

DLSS 幀世代也獲得了新功能 - 但這些功能僅與新的 RTX 50 系列卡相關。 40 系列中使用的單生成幀生成技術在 50 系列中透過兩幀生成和三幀生成得到增強。這是一件棘手的事情,特別是當涉及到以平滑、一致的方式調整這些中間幀的速度時 - 因此 Nvidia 表示,新的 Blackwell 架構包含一個硬體組件來確保均勻的速度。

我使用 Petrochem 體育場的黑市進行測試 - 我們之前曾使用該區域來識別《賽博朋克 2077》控制台版本中的圖形瓶頸。與以原生4K 解析度運行的遊戲相比,現有的單幀生成技術與用於超解析度和光線重建的視覺變換器模型相結合,幀速率提高了535%。隨著我們產生更多的幀,收益仍在繼續。添加兩幀後,該值將上升至 725%,而三幀可預見地帶來最大的增幅 - 與原始分辨率渲染相比,增幅高達 913%。

將具有全幀生成和變壓器模型的 RTX 5080 與具有單幀生成和現有 CNN 超解析度/光線重建技術的即將推出的 4080 Super 進行比較,我發現幀速率提高了 91%。

回到幀節奏,您將看到一些幀時間的可視化效果,將單幀生成與完整的三幀生成輸出進行比較,兩者都在RTX 5080 上運行- 令人欣慰的是,後者不僅意味著更快的幀 -速率,而且幀速率也更平滑。我在這裡使用新版本的 Nvidia FrameView 獲取了指標,但使用 FCAT 進行了驗證 - 我們的軟體根據 GPU 的輸出來測量幀持久性。兩個結果都相符。

左上圖是原生 4K 路徑追蹤與不同等級的超解析度和幀生成之間的幀速率差異。右上角,4080 Super 上的舊 DLSS 與 5080 上的新 DLSS 多幀生成。 |圖片來源:數位鑄造廠

我對新的幀生成技術的擔憂是延遲。當 DLSS 3 推出時,幀生成是透過緩衝額外幀然後計算中間幀來實現的。這兩個因素都會增加延遲,但強制納入 Nvidia Reflex 可以在一定程度上抵消延遲,以縮短寶貴的毫秒時間。在影片中,您會看到我包含了 PC 延遲結果 - 再次由 FrameView 測量。黑市運行大約兩分半鐘的平均延遲如下:生成的單個幀的平均延遲為 50.97 毫秒,生成的兩個幀的平均延遲為 55.5 毫秒,生成的完整三幀的平均延遲為 57.3 毫秒選項。

基於此範例,我們將平均增加 6.4 毫秒的延遲並最大化幀生成,以換取幀速率提高 71% - 總體而言,這是一項公平的交易。看看這些結果,在我看來,大部分額外延遲仍然來自緩衝額外的幀,但添加更多中間幀會帶來相對最小的延遲增加。這意味著《Cyber​​punk》中的遊戲玩法仍然具有響應能力,除非您對輸入延遲非常敏感,否則您不太可能分辨出與現有 DLSS 幀生成解決方案的區別。

那時我在 RTX 5080 上度過的時光是充滿希望的。看到路徑追蹤的《Cyber​​punk 2077》在新的幀生成選項下運行速度超過每秒 120 幀,這仍然是相當了不起的,因此要求不高的遊戲可能會運行得更快。事實上,事實證明,幀生成對於克服許多遊戲中的 CPU 限制非常有用 - 看到多幀生成在那裡發揮的作用將會很有趣。同時,超解析度和光線重建品質的改進有望解決我們對 DLSS 的一些關鍵問題,儘管它是當前最高品質的升級解決方案。

我們將盡快更深入地測試 DLSS 4 的所有組件,當然,我們將在適當的時候審查所有 RTX 50 系列 GPU。