Nvidia Switch 2 新硬體內部:T239 處理器是什麼?

技術洩密者 kopite7kimi 指出,早在 2021 年 6 月貼出Nvidia T234處理器的詳細圖片,首次透露任天堂將收到一款名為 T239 的定製版本。在接下來的兩年裡,大量壓倒性的證據基本上證實了他們是對的。 T239 是一款先進的行動處理器,基於八核心 ARM A78C CPU 集群,搭配基於 Nvidia RTX 30 系列 Ampere 架構的定製圖形單元,結合最新 Ada Lovelace GPU 的一些反向移植元素 - 以及全新文件解壓引擎,快速引擎。它還支援 Nvidia 的控制台特定圖形 API,這幾乎證實了它注定是為。

在這篇文章中,我們將討論將 T239 與任天堂聯繫起來的各種證據,我們還將研究圖形領域中最接近的等效行動 GPU,將其降頻至超低頻率,以嘗試獲得某種方式處理基於安培的低功耗圖形核心可以提供什麼,光線追蹤是否可能,以及DLSS 升級對於第二代任天堂混合手持/控制台有多重要。我們也將看看我們的分析是否與從來選擇開發商。

但讓我們從一個基本的問題開始。我們是否可以百分之百肯定地說 T239 確實是 Switch 2 晶片?這是負面的。然而,我們絕對可以將 T239 與任天堂項目聯繫起來,並且沒有證據 - 事實上也沒有必要 - Nvidia 為其他任何人創建這款晶片。為了在汽車和機器人市場上做出自己的努力,該公司已經擁有了 T234。要了解客製化變體,最好先了解 T234 是什麼以及為什麼任天堂一開始就不能使用該晶片。

這是我們對 Nvidia T239、其與任天堂的聯繫及其潛在遊戲能力的視頻調查。在 YouTube 上觀看

畢竟,回到第一代 Switch,根本不涉及客製化處理器。儘管在宣布任天堂混合版時 Nvidia 進行了行銷暗示,但該機器的核心晶片是普通的 Tegra X1,儘管禁用了一些元素(例如其較低核心的 CPU 核心)。 Tegra X1 從一開始就為平板電腦、手機和遊戲市場而設計,一直很失敗,直到任天堂將其用於 Switch,並在 Switch 上找到了新的生命力。對於 Switch 2,Nvidia 的零件箱中沒有任何適合後續產品的產品。最新的 Tegra 處理器(例如 T234)專為完全不同、要求更高的市場而打造。優秀的行動晶片的建構模組已經存在,但現有的配置對於精簡的主流控制台來說太大且臃腫。

讓我們明確一點:現有的 T234 是一個巨大的晶片。模具尺寸為455mm2,它使 Xbox Series X 處理器相形見絀,為 360mm2。它採用與 RTX 30 系列卡相同的三星 8 奈米技術製造,因此它實際上比目前遊戲機中使用的 7 奈米和 6 奈米製程落後了一步。 CPU大小,具有12個ARM A78AE CPU核心,搭配基於30系列Ampere架構的GPU,具有2048個CUDA核心和256位元記憶體介面。對於汽車和機器人市場,T234 需要大量的機器學習性能,因此還內建了深度學習加速器 - 並且其功能可以透過 GPU 內的張量核心來增強。

Nvidia 的 T239 - 新一代遊戲處理器

顯而易見的是,T234 太大了,無法在行動產品中使用。 455毫米處2,這個處理器比392mm大很多2RTX 3070,結合常識推理、洩密、Nvidia 重大黑客事件以及 Nvidia 和前 Nvidia 員工的不當 LinkedIn 帖子,我們對 T239 的形式有了很好的了解。同樣重要的是,Nvidia 維護自己的 Linux 發行版,雖然其中大部分是私有的,但其中有足夠的 T239 參考資料,可以幫助您了解處理器的組成。

首先,CPU 叢集與 T234 的有很大不同。雖然 A78 ARM 核心很常見,但 AE 變體是為了滿足汽車電子委員會制定的嚴格標準而構建的,其中一半核心用於驗證另一半核心的工作 - 完全不適合遊戲機。 Nvidia 的 Linux 發行版顯示 T239 在單一叢集中有 8 個 CPU 核心,強烈表明將使用 ARM 的 A78C。

Nvidia 的 T234 是其為任天堂定制的遊戲晶片的基礎 - 但它必須被削減,僅僅是因為它對於遊戲機來說太大了。就矽面積而言,它比 Xbox Series X 中的晶片大 23%。
英偉達 T234預計T239英偉達 RTX 2050 4GB
CPU架構12 個 ARM A78AE8x ARM A78C-
GPU架構安培安培安培
CUDA 核心204815362048
記憶體/介面256 位元/LPDDR5128 位元/LPDDR564 位元/GDDR6
記憶體頻寬204GB/秒最大 102GB/秒96GB/秒

記憶體頻寬對於行動遊戲機至關重要,也是目前 Switch 的主要效能瓶頸。 T239 中的 256 位元介面對於行動遊戲機來說非常奢侈,而 Nvidia 的 Linux 更新建議採用 128 位元接口,幾乎肯定會與 LPDDR5 記憶體搭配使用。我們預計絕對最大頻寬為 102GB/s,但當然,任天堂可以選擇降頻以提高效率。 T239 中支援 DisplayPort(可輕鬆配置為 HDMI),就像標準 Switch 中一樣。這裡的區別在於,假設任天堂使用 HDMI 2.1,則有足夠的頻寬來支援完整的 HDMI 2.1。

來自 Nvidia Linux 發行版的其他規格洩漏也很有趣。 T239 上有一個完整的媒體編碼/解碼區塊,儘管該晶片使用RTX 30 系列Ampere 架構,但該媒體區塊是從最新的Ada Lovelace 晶片反向移植的,因此它應該更快,支援更多格式,包括AV1。改進的時脈門控(一種提高休眠矽效率的方法)是 T239 中的另一項 Ada 功能。在討論這款晶片時,功耗是一個有點棘手的問題,出於多種原因,我很快就會解決。

Nvidia 的 Linux 發行版也確認 T239 具有光流加速器 - DLSS 3 幀產生的核心元件。這裡的問題是,這是最後一代 Ampere 演繹版,而不是 Nvidia 認為足以實現幀生成的 Ada Lovelace 演繹版。它是否會在潛在的 Switch 繼任者中發揮作用還有待觀察,但有趣的是,當 Nvidia 構建這款定制、精簡版 Tegra 時,該模組被保留下來。

T239 還有一個值得評論的組件 - FDE。這是 T234 中沒有的全新硬體模組。 FDE 代表檔案解壓縮引擎。與 PlayStation 5 中的解壓縮區塊類似,這基本上允許將資產從儲存超快速解壓縮到記憶體中。 Nate The Hate 最近有一篇報導談到在 Switch 2 硬體上運行的《曠野之息》演示,載入時間為零。嗯,T239 擁有促進超快速加載的硬件,但它需要更快的存儲格式才能實現這一點 - 目前我們還缺乏細節。

Linux 細節描繪了 T239 的非常詳細的圖景,其中許多細節都得到了 Nvidia 黑客的證實 - Ampere GPU 架構、128 位元內存總線和 LPDDR5 內存,以及 Ada Lovelace 設計中向後移植的節能功能。駭客攻擊還表明,T239 擁有 1536 個 CUDA 核心,是規模大得多的 T234 核心的 75%。

「kopite7kimi」在維基百科上找到了這張 Nvidia T234 的模具照片,顯示了 CPU 和 GPU 佔用了多少面積。 T239 擁有 T234 75% 的著色器,並且 CPU 叢集要小得多。

我們現在擁有一款經過大幅精簡的 Tegra 晶片,刪除了冗餘功能並添加了文件解壓縮塊。但還有一些問號。我們期望 CPU 和 GPU 的時脈速度是多少?記憶體運行速度有多快?這是理解行動處理器效能限制的關鍵問題。還有一個問題是T239是否有T234的深度學習加速器。我相信這對於潛在的 Switch 2 及其 DLSS 升級的使用至關重要。

關於時脈問題,Nvidia 提供了一個計算 T234 功耗的工具,它表明 GPU 在 540MHz 時效率最高,這是手持時脈的良好候選者。時脈速度越快,效率就會急劇下降,而且所需的功率越大,產生的熱量就越多。如果對接時脈超過 1GHz,我會感到驚訝,而且它可能會低很多。 1.0GHz 看起來也是 CPU 時脈的最佳選擇。然而,這些是針對更大的 Tegra 晶片的計算,該晶片肯定採用 8nm 三星製程。更小的晶片可能會更高效,但目前沒有證據表明它仍然採用低效的三星 8nm 製程(儘管我懷疑是這樣)。

T239會有怎樣的表現呢?

所以,總而言之,到目前為止,我們已經對一款名為T239 的晶片的規格有了詳細的了解,該晶片已經開發了幾年,該晶片在兩年多前首次洩露,此後在Nvidia 的Linux發行版中多次被引用,在 Nvidia 駭客事件以及 Nvidia 員工在 LinkedIn 上的幾篇貼文中都提到了這一點。但還有更多:如果你願意的話,這是確鑿的證據。當最初的 Switch 開發出來時,Nvidia 創建了一個低階圖形 API,以充分利用 CPU 和 GPU 硬體。它被稱為 NVM。 Nvidia hack 描述了 NVN2 圖形 API。它表明多個 Nvidia 硬體可以與 NVN2 一起使用,但有幾個程式碼片段明確表明它正在其他硬體上模擬 T239 行為。簡而言之,Nvidia 重構了現有的 Tegra,使其更小、更有效率,並配備了快速加載硬體 - 並且它使用了 Switch NVN 圖形 API 的下一代版本。

《Matrix Awakens》演示在我們降頻的 RTX 2050 上耗盡了 VRAM,但採用硬體 RT、Nanite 和虛擬陰影貼圖的《堡壘之夜》在 DLSS 性能模式下以 1080p 的幀率約 30 fps 運行。點擊縮圖以獲得更高解析度。

那麼,對於一款手遊機來說,T239該有什麼期待呢?在最近的微軟 FTC 法庭案件中,動視暴雪提到任天堂去年向他介紹了該設備,其性能概況與上一代硬體一致。嗯,情況很可能是這樣,但我們同樣可以說 Switch 的馬力與 Wii U 或 Xbox 360 相似,但重量卻遠遠超出這個重量。首先,這是透過更現代的 GPU 和更多記憶體實現的。我冒昧地建議 Switch 2 遵循這一趨勢 - 並且走得更遠。我的意思是,Bobby Kotick 談論 PS4 級性能,但與此同時,我們聽到有關在虛幻引擎 5 上運行《黑客帝國:覺醒》的討論,這是 PS4 永遠無法做到的。當您擁有基於更現代的 GPU 的客製化晶片,並配備機器學習張量核心和硬體加速光線追蹤時,就會發生這種情況。

為了了解行動安培級處理器的功能,我開始進行一些實際工作。在 PC 領域,A78C CPU 叢集的功能沒有真正的相同功能,但在 GPU 方面,我們可以接近。我購買的戴爾 Vostro 5630 配備以下規格:Core i7 1360p CPU、16 GB 4800MHz LPDDR5、512GB SSD 和 RTX 2050。

首先,儘管它被指定為 RTX 20 系列部件,但它實際上與基於 Ampere 的 RTX 3050 和 3050 Ti 完全相同的晶片 - 它是 GA107 處理器。我們無法與 T239 的 1536 個 CUDA 核心相匹配,但 2048 個 CUDA 核心是我們可以在 Ampere 遊戲 GPU 上使用的最低配置。那為什麼不直接買一台 3050 筆記型電腦呢?嗯,可以將 2050 想像為腦白質切除的 3050 - 它具有較低的功耗預算、較低的時脈頻率,而且最重要的是,它具有 64 位元記憶體介面。與 RTX 3050 相比,它的頻寬為 96GB/s,運行時存在相當大的瓶頸,但它也讓我們與潛在的 Switch 2 可以提供的頻寬大致相當。但有一個癥結所在 - 2050 僅配備 4GB 記憶體。我預計 Switch 2 的系統總記憶體將達到 8GB 甚至 12GB。

對於令人難以置信的平庸的 Dell Vostro 5640,我們深感敬畏。為了進行遊戲測試,我們將頻率從大約 1350MHz 降到了 750MHz。

您將在本頁頂部的影片中看到我的測試結果,但在繼續之前,讓我們先明確一下:這是我們可以為 T239 GPU 收集到的最接近的近似值,但更準確地說,您在該影片是超低規格的Ampere GPU,以極低的時脈速度運行,缺乏記憶體頻寬。它只能讓我們對行動 Ampere 晶片的性能有一個大致的了解,即使我將其降頻到低得離譜的 750MHz,但即便如此,結果仍然很有趣。

由於 RTX 2050 的 4GB 記憶體限制,我無法運行《駭客任務:覺醒》,而且該演示版似乎至少需要 5.6GB 左右。然而,完全啟用使用 Lumen、Nanite 和虛擬陰影貼圖的 UE5 體驗確實有效。事實上,與控制台版本不同,我們實際上可以在 PC 版本中使用硬體加速光線追踪,並且它確實可以在 RTX 2050 筆記型電腦上運行。我測試了硬體 RT Lumen 及其軟體變體,還測試了原生 720p 和幾個 DLSS 變體,全部解析為 1080p 輸出。根據記錄,具有 DLSS 性能模式(540p 輸入,1080p 輸出)的軟體 RT 是獲勝者,但最好和最差結果之間只有 9.5% 的差異,而以 fps 計算,僅為 2.82fps。

我的猜測是,基於目標硬體的Switch 2 的《駭客任務:覺醒》演示可能是真實的,但Epic 一定做了很多工作,讓虛幻引擎5 的關鍵功能在新的任天堂機器上運行良好,僅僅因為《駭客任務:覺醒》是一款GPU 上的負載比 Fortnite 重很多。既然如此,僅僅在低功耗 Ampere GPU 上運行 PC 程式碼不太可能有那麼明顯的資訊。儘管如此,它確實運行了。您可以使用硬體 RT。 DLSS 很有幫助。

雖然缺乏記憶體頻寬、CUDA 核心和時鐘速度,但透過DLSS 的RTX 2050 仍然可以為《控制》(帶有RT 反射)、《Cyber​​punk2077》、《瘟疫故事:安魂曲》和《死亡擱淺》提供令人信服的1080p 遊戲體驗。對於後者,我們甚至可以在 DLSS 效能模式下以 30fps 的 1440p 輸出運作。

我也嘗試過,對 GPU 密集型介紹進行基準測試。在 1080p 原生解析度下,該序列的平均幀率為 34.9 fps,這確實支持了上一代馬力的敘述。在 720p 下,幀速率升至 52.5fps。我也在 DLSS 品質模式下運行了這個工作台 - 原生解析度的 67%。平均 34.9 fps 增加至 44.7 fps。在使用 DLSS 的 720p 下,幀速率確實有所增加,但效能差異很難準確測量,因為序列實際上上限為 60fps。儘管如此,從遊戲玩法來看,DLSS 效能模式下的 1440p 在這款基於 Ampere 的小型 GPU 上是可行的,雖然遊戲的大部分內容都鎖定在每秒 30 幀,但還是有一些下降。在與BT的對抗中,繁重的後處理似乎讓GPU難以應付。

DLSS 支援:對 Switch 2 有用還是絕對重要?

我相信 DLSS 對於下一代任天堂機器至關重要,但我們能否獲得傳說中的「Switch 4K」取決於原始 T234 的核心組件是否已進入 T239。我指的是深度學習加速器 - 一個單獨的硬體模組,可以將其自身的處理與 GPU 內的張量核心結合。我對 RTX 2050 的測試表明,DLSS 對於升級到 1080p 甚至 1440p 很有用,正如我們在《死亡擱淺》中看到的那樣。然而,輸出解析度越高,DLSS 的成本就越高。在《死亡擱淺》中,將 720p 升級到 4K(DLSS 超性能模式)的額外成本超過 18 毫秒。對於 60fps 演示,僅 DLSS 的處理成本就超過了整個幀的 16.7ms 渲染時間。然而,如果 DLA 從 T234 發展到 T239,DLSS 的計算成本將會少得多。

強調 DLSS 對於整個 Switch 2 企業的重要性也很重要。正如您將在影片中看到的,我們所有的遊戲測試都產生了一些相對令人印象深刻的結果 - 但都需要使用 DLSS,從各種內部解析度升級到 1080p。因此,在 PC 領域,通常認為在 4K 性能模式、1440p 平衡模式和 1080p 質量模式下運行升頻器是「可以的」。客廳裡的遊戲機遊戲是不同的,你坐在離螢幕更遠的地方,影像品質的期望也不同。畢竟,我們已經在這一代中看到了一些非常低的分辨率,甚至從 PS5 和 Series X 開始。

因此,我實際上認為,對於連接到客廳顯示器的行動晶片組,從原生 540p 升級到 1080p 性能模式看起來是可以接受的,而從原生 720p(DLSS 品質模式)升級到 1080p 看起來相當不錯。它看起來肯定比我們在對接遊戲中看到的大多數要求苛刻的 Switch 遊戲要好得多。 DLSS 4K 超效能模式從原生 720p 升級?再次查看上面的影片 - 它遠非原始 4K,但低功耗控制台不需要模仿原生 4K。它只需要在 4K 客廳電視上提供像樣的影像即可。

以下是我們的超低規格 Ampere GPU 如何應對賽博朋克 2077 2.0(調整為 PS5 的性能模式設置,並在 1080p 平衡模式下使用 DLSS)。本質上,我們關注的是 25 fps 到 30 fps。透過點擊縮圖自行判斷影像品質。

這基本上就是我現在對 Switch 2 的了解、它的技術組成以及超精簡的 Ampere GPU 所能提供的大概效能。仍然存在爭議和許多懸而未決的問題。有些人認為 T239 是為廢棄的「Switch 4K」或「Switch Pro」設計的,而實際的下一代 Switch 將提供不同的東西。我不同意這一點:製造 T239 所需的投資水平以及 GPU 及其定制塊的大小代表了對 Tegra X1 的適當的下一代飛躍。

問題與疑慮:T239 是否適用於手持裝置?

然而,對於 T239 存在一些更合理的問題和擔憂。我們已經確定 455mm2T234 對於行動遊戲處理器來說太大了 - 但即使在 CPU 和圖形方面進行了各種削減,T239 也可能比 118mm 大得多2目前 Switch 中的 Tegra X1。更大的晶片需要更強的冷卻能力,這可能不太適合任天堂混合手持/家用遊戲機。有些人認為 T239 根本不在 8nm 三星製程節點上,很可能只有拆解零售機器才能以某種方式證實這一點。

從我的角度來看,最重要的是,透過淘汰過程,T239 是新任天堂機器核心處理器的最佳候選者。 Nvidia 的 Jensen Huang 公開表示英偉達與任天堂的合作關係可能會持續二十年。由於發布日期定在 2024 年,目前還沒有任何其他處理器可以進入新 Switch 的令人信服的消息。

DLSS 難題。這裡的所有讀數均源自原生 720p,然後添加 DLSS 升級以達到 1080p、1440p 和 2160p 解析度。 DLSS 並不是“免費午餐”,GPU 中的 Tensor 核心只能做這麼多。然而,如果 T239 包含 T234 的深度學習加速器,則可以大幅減少 DLSS 的開銷。

我很高興將這些實際測試與 RTX 2050 結合起來,它讓您了解基於安培的最低 GPU 可以提供什麼。假設您相應地調整設置,任何現代遊戲似乎都可以很好地運行。 DLSS 再次成為遊戲規則的改變者,如果深度學習加速器模組存在的話,它可能會更具變革性。

但請讓我再強調一次,這只是我們可以對所討論的 T239 規範做出的最接近的近似值:雖然時鐘較低,但 CUDA 核心較高。雖然記憶體頻寬在 PC 方面微不足道,但它與 T239 所能提供的最好的記憶體頻寬差不多——任天堂可能會選擇降頻。當然,在我們的測試中,CPU 的頻寬並沒有爭用——另一個潛在的效能消耗。

即便如此,這裡還是有希望的 - 請記住,我使用的是我測試的遊戲的 PC 版本,沒有針對行動平台的客製化空間。事實上,魔力將來自開發人員本身。回顧《毀滅戰士 2016》首次登陸 Switch 的時間,或者,或重製版,或由 Rebellion North 製作的令人驚嘆的移植版,例如《狙擊精英》和《殭屍軍團》遊戲。這些遊戲挑戰了 Tegra X1 的技術限制,無論 T239 的規格如何,我希望下次也能看到同樣的情況。

Game Rant 最近報導了任天堂的一項新專利,該專利涉及一種可以獨立操作的雙螢幕機器。這是否與新 Switch 有關還有待觀察,但它確實提出了一個有趣的觀點:我們對機器內部硬體的了解比對設備本身概念的了解更多?

開關 2:我們無法回答的大問題

一旦我們看到硬件,我們關於下一代 Switch 的一些懸而未決的問題可能會得到一些答案。有多大?承諾的電池壽命是多少?比賽會是什麼樣子?現有的 Switch 硬體(包括 JoyCon)可以在多大程度上與其後繼產品相容?我們也可能從英偉達本身那裡得到一些關於它在機器開發中所扮演的角色的進一步披露。

根據我這幾個月來對 T239 的了解,我認為我最大的驚喜是它的硬體是多麼雄心勃勃。如果有機會重新架構一個新的、以遊戲為中心的處理器,Nvidia 可以遵循其 GTX 16 系列顯示卡所製定的路線,剝離機器學習和 RT 硬件,或者通過削減將它們削減到最低限度。方案(例如AMD 將硬體RT 整合到RDNA 2 中的方式,重點是盡可能降低矽成本)。相反,證據表明Nvidia 和任天堂已經就一種設計達成了一致,該設計可以說是超額交付了下一代功能,而文件解壓縮引擎(FDE) 則表明了矽片的生活質量增加,堅定地圍繞著偉大的遊戲經驗。這會是繼GameCube之後任天堂最具前瞻性的硬體設計嗎?

雖然關於使用三星 8nm 晶片的問題仍然存在,但任天堂公司有一線希望,可以進一步推出改進的車型。它可以採用 6nm、5nm 或 4nm 技術來改善散熱和電池壽命,就像改進的 Switch、OLED 型號和 Switch Lite 一樣。從短期來看,問題是 T239 將有多大,以及它的特性是否意味著我們需要更大的手持設備 - 我認為任天堂不會想要這樣的東西。

目前,各種洩密和非官方披露意味著我們對下一代任天堂機器的內部結構的了解可能比對其他更重要元素的了解要多得多 - 例如新硬體的整個概念。 T239 是一款針對行動裝置的處理器,而任天堂將所有開發資源集中到一個平台,這意味著我們幾乎肯定會專注於另一款 Switch,而不是某種全新的概念。然而,從任天堂的歷史來看,直接的 Switch 2 似乎太簡單了 - 但隨著最初的披露希望不會太遠,希望我們很快就能對新機器有更好的了解。