RTX2080/RTX2080Ti顯卡全面評(píng)測 RTX20系電腦顯卡怎么樣?(2)

2018-09-20 09:29:27 來源:快科技作者:佚名 人氣: 次閱讀 1782 條評(píng)論

作為GPU顯卡行業(yè)的領(lǐng)頭羊,NVIDIA的新產(chǎn)品發(fā)布節(jié)奏多年來一直非常穩(wěn),探析一下這個(gè)革命性的Turing架構(gòu),以及全新的RTX 2080 Ti、RTX 2080兩款高端型號(hào)到底表現(xiàn)如何。...

二、架構(gòu)解析之全新內(nèi)核體系

既然是一個(gè)全新設(shè)計(jì)的架構(gòu),我們就要好好看一看這個(gè)以計(jì)算機(jī)科學(xué)之父、人工智能之父艾倫·麥席森·圖靈(Alan Mathison Turing)命名的Turing圖靈新架構(gòu)到底有哪些過人之處,不過硬件架構(gòu)總是伴隨各種高深晦澀的技術(shù)名詞、技術(shù)原理,即便專業(yè)人士也得好好研究才行,所以這里我們僅從高級(jí)層面,介紹一下新架構(gòu)的大致設(shè)計(jì)、技術(shù)概況,以及能帶來的實(shí)際好處。

在以往,NVIDIA為專業(yè)級(jí)計(jì)算卡、消費(fèi)級(jí)游戲卡設(shè)計(jì)的都是統(tǒng)一架構(gòu),只是具體內(nèi)部模塊布局、技術(shù)支持、核心大小不同。好處是可以統(tǒng)一開發(fā),降低成本,壞處是缺乏針對(duì)性,技術(shù)資源要么浪費(fèi)要么不夠。

這一次,NVIDIA選擇了分而治之。針對(duì)高性能計(jì)算、圖形渲染、人工智能、深度學(xué)習(xí)等專業(yè)應(yīng)用的是Volta伏特架構(gòu),目前只有一個(gè)超大核心GV100,是迄今為止GPU歷史上最大的核心,臺(tái)積電12nm工藝制造,集成多達(dá)210億個(gè)晶體管,核心面積達(dá)815平方毫米,妥妥的怪物級(jí)核彈。

Se6516888-54bb-4e68-be0b-e139b5a78641.jpg

針對(duì)游戲顯卡的就是Turing圖靈架構(gòu),也是臺(tái)積電12nm(有說法稱最初計(jì)劃使用三星10nm),其中最大的核心TU102集成189億個(gè)晶體管,核心面積754平方毫米,是僅次于GV100的史上第二大GPU核心。

相比上代Pascal帕斯卡家族的大核心GP102,它的晶體管數(shù)量增加了55%,面積則增大了60%,甚至是次級(jí)新核心TU104都超越了GF102,擁有136億個(gè)晶體管、545平方毫米面積。

Se7f74e06-cf16-4ab5-9278-b9db212b9cd1.jpg

新架構(gòu)核心之所以如此龐大,除了CUDA核心規(guī)模繼續(xù)增大、升級(jí)Shading著色渲染之外,更關(guān)鍵的是RT Core光線追蹤核心、Tensor Core人工智能核心的加入,這也是新架構(gòu)革命性變化的根本支撐。

擁有全新著色性能的SM CUDA核心陣列、支持高達(dá)每秒100億條光線計(jì)算的RT光線追蹤核心、為實(shí)時(shí)游戲畫面導(dǎo)入AI人工智能加速的Tensor核心,三者就構(gòu)成了圖靈架構(gòu)的三大支柱,各自有不同分工又互相協(xié)作,共同實(shí)現(xiàn)新的游戲渲染畫面。

S51b52920-01f8-40ec-887b-96a65ba22c25.jpg

S4eee82a6-db03-4633-8257-6c4a5954a32a.jpg

同時(shí),NVIDIA強(qiáng)調(diào)新架構(gòu)的單個(gè)CUDA核心著色渲染性能是帕斯卡架構(gòu)的1.5倍,第一次可以在4K分辨率、HDR開啟的情況下,提供流暢的游戲體驗(yàn),真正開啟4K時(shí)代。

按照NVIDIA的說法,RTX 2080就能基本實(shí)現(xiàn)4K分辨率下60FPS的游戲幀率,RTX 2080 Ti更是能夠達(dá)到70-80FPS。當(dāng)然具體還要看游戲需求,以及游戲設(shè)置,特別是某些高要求的技術(shù)特性,光線追蹤打開后別說4K了,就連1080p就比較吃力。

S18b01090-0e3e-40a3-87f2-7bb89e7c80bc.jpg

圖靈架構(gòu)的基本組成單元之一還是CUDA核心與SM流處理器陣列,這也是2006年的G80以來NVIDIA GPU的基石。

事實(shí)上,圖靈架構(gòu)的SM陣列也融合了伏特架構(gòu)的不少特性,相比帕斯卡架構(gòu)差別還是挺大的,比如每一組TPC里的SM陣列由一個(gè)增至兩個(gè),同時(shí)SM內(nèi)部的組成方式也截然不同。

帕斯卡架構(gòu)每個(gè)SM陣列集成128個(gè)FP32浮點(diǎn)單元,圖靈架構(gòu)則改成了2個(gè)FP64雙精度浮點(diǎn)單元、64個(gè)FP32單精度浮點(diǎn)單元、64個(gè)INT32整數(shù)單元、8個(gè)Tensor核心、一個(gè)RT核心。支持浮點(diǎn)和整數(shù)并發(fā)操作,并有新的執(zhí)行數(shù)據(jù)路徑,類似伏特架構(gòu)匯總的獨(dú)立線程調(diào)度。

按照NVIDIA的統(tǒng)計(jì),每執(zhí)行100個(gè)浮點(diǎn)指令,平均會(huì)有36個(gè)整數(shù)指令,兩種指令可以并發(fā)執(zhí)行。

如此一來,帕斯卡架構(gòu)的整數(shù)和浮點(diǎn)計(jì)算就可以分配得更加均衡,并與新的Tensor、RT核心相配合,更合理、高效地完成各種負(fù)載。

整體而言,圖靈核心的CUDA陣列可以每秒執(zhí)行14萬億次FP32浮點(diǎn)操作、14萬億次INT32整數(shù)操作。

Sebce40cd-168b-483f-9a53-432266258859.jpg

緩存架構(gòu)也徹底變化,由兩個(gè)載入/存儲(chǔ)單元牽頭,一級(jí)緩存和共享緩存整合在一起,而且容量靈活可變,可以是64KB+32KB,也可以是32KB+64KB,大大降低了延遲,帶寬也翻了一番。

二級(jí)緩存容量則從3MB翻倍到6MB。

Sa93b9a01-bca1-4884-8ff1-6f75f7f144f2.jpg

NVIDIA宣稱,新架構(gòu)每個(gè)CUDA核心的著色渲染性能比上代平均提升50%,部分游戲可達(dá)70%左右,VRMark虛擬現(xiàn)實(shí)測試成績甚至翻了一番還多。

當(dāng)然這只是基礎(chǔ)理論上的數(shù)字,實(shí)際性能還要看其他部分和整體指標(biāo)。

S1dfafcd5-b24e-4a25-a3a5-dcb72872b38a.jpg

圖靈架構(gòu)還首發(fā)搭配新一代GDDR6顯存,目前業(yè)界最快,等效頻率高達(dá)14GHz,搭配352-bit位寬可以帶來616GB/s的驚人帶寬,相比于GTX 1080 Ti在位寬不變的情況下提升了27%,也比用了2048-bit HBM2高帶寬顯存的AMD RX Vega 64高了27%。

而且關(guān)鍵是,GDDR6的成本比HBM2低得多。

另外,NVIDIA還對(duì)新顯存進(jìn)行了各種優(yōu)化,信號(hào)竄擾降低了40%,更利于運(yùn)行穩(wěn)定和進(jìn)一步超頻。