RTX2080/RTX2080Ti顯卡全面評(píng)測(cè) RTX20系電腦顯卡怎么樣？(2)

2018-09-20 09:29:27 來(lái)源：快科技作者：佚名人氣：次閱讀 1782 條評(píng)論

作為GPU顯卡行業(yè)的領(lǐng)頭羊，NVIDIA的新產(chǎn)品發(fā)布節(jié)奏多年來(lái)一直非常穩(wěn)，探析一下這個(gè)革命性的Turing架構(gòu)，以及全新的RTX 2080 Ti、RTX 2080兩款高端型號(hào)到底表現(xiàn)如何。...

二、架構(gòu)解析之全新內(nèi)核體系

既然是一個(gè)全新設(shè)計(jì)的架構(gòu)，我們就要好好看一看這個(gè)以計(jì)算機(jī)科學(xué)之父、人工智能之父艾倫·麥席森·圖靈(Alan Mathison Turing)命名的Turing圖靈新架構(gòu)到底有哪些過(guò)人之處，不過(guò)硬件架構(gòu)總是伴隨各種高深晦澀的技術(shù)名詞、技術(shù)原理，即便專業(yè)人士也得好好研究才行，所以這里我們僅從高級(jí)層面，介紹一下新架構(gòu)的大致設(shè)計(jì)、技術(shù)概況，以及能帶來(lái)的實(shí)際好處。

在以往，NVIDIA為專業(yè)級(jí)計(jì)算卡、消費(fèi)級(jí)游戲卡設(shè)計(jì)的都是統(tǒng)一架構(gòu)，只是具體內(nèi)部模塊布局、技術(shù)支持、核心大小不同。好處是可以統(tǒng)一開發(fā)，降低成本，壞處是缺乏針對(duì)性，技術(shù)資源要么浪費(fèi)要么不夠。

這一次，NVIDIA選擇了分而治之。針對(duì)高性能計(jì)算、圖形渲染、人工智能、深度學(xué)習(xí)等專業(yè)應(yīng)用的是Volta伏特架構(gòu)，目前只有一個(gè)超大核心GV100，是迄今為止GPU歷史上最大的核心，臺(tái)積電12nm工藝制造，集成多達(dá)210億個(gè)晶體管，核心面積達(dá)815平方毫米，妥妥的怪物級(jí)核彈。

而針對(duì)游戲顯卡的就是Turing圖靈架構(gòu)，也是臺(tái)積電12nm(有說(shuō)法稱最初計(jì)劃使用三星10nm)，其中最大的核心TU102集成189億個(gè)晶體管，核心面積754平方毫米，是僅次于GV100的史上第二大GPU核心。

相比上代Pascal帕斯卡家族的大核心GP102，它的晶體管數(shù)量增加了55％，面積則增大了60％，甚至是次級(jí)新核心TU104都超越了GF102，擁有136億個(gè)晶體管、545平方毫米面積。

新架構(gòu)核心之所以如此龐大，除了CUDA核心規(guī)模繼續(xù)增大、升級(jí)Shading著色渲染之外，更關(guān)鍵的是RT Core光線追蹤核心、Tensor Core人工智能核心的加入，這也是新架構(gòu)革命性變化的根本支撐。

擁有全新著色性能的SM CUDA核心陣列、支持高達(dá)每秒100億條光線計(jì)算的RT光線追蹤核心、為實(shí)時(shí)游戲畫面導(dǎo)入AI人工智能加速的Tensor核心，三者就構(gòu)成了圖靈架構(gòu)的三大支柱，各自有不同分工又互相協(xié)作，共同實(shí)現(xiàn)新的游戲渲染畫面。

同時(shí)，NVIDIA強(qiáng)調(diào)新架構(gòu)的單個(gè)CUDA核心著色渲染性能是帕斯卡架構(gòu)的1.5倍，第一次可以在4K分辨率、HDR開啟的情況下，提供流暢的游戲體驗(yàn)，真正開啟4K時(shí)代。

按照NVIDIA的說(shuō)法，RTX 2080就能基本實(shí)現(xiàn)4K分辨率下60FPS的游戲幀率，RTX 2080 Ti更是能夠達(dá)到70-80FPS。當(dāng)然具體還要看游戲需求，以及游戲設(shè)置，特別是某些高要求的技術(shù)特性，光線追蹤打開后別說(shuō)4K了，就連1080p就比較吃力。

圖靈架構(gòu)的基本組成單元之一還是CUDA核心與SM流處理器陣列，這也是2006年的G80以來(lái)NVIDIA GPU的基石。

事實(shí)上，圖靈架構(gòu)的SM陣列也融合了伏特架構(gòu)的不少特性，相比帕斯卡架構(gòu)差別還是挺大的，比如每一組TPC里的SM陣列由一個(gè)增至兩個(gè)，同時(shí)SM內(nèi)部的組成方式也截然不同。

帕斯卡架構(gòu)每個(gè)SM陣列集成128個(gè)FP32浮點(diǎn)單元，圖靈架構(gòu)則改成了2個(gè)FP64雙精度浮點(diǎn)單元、64個(gè)FP32單精度浮點(diǎn)單元、64個(gè)INT32整數(shù)單元、8個(gè)Tensor核心、一個(gè)RT核心。支持浮點(diǎn)和整數(shù)并發(fā)操作，并有新的執(zhí)行數(shù)據(jù)路徑，類似伏特架構(gòu)匯總的獨(dú)立線程調(diào)度。

按照NVIDIA的統(tǒng)計(jì)，每執(zhí)行100個(gè)浮點(diǎn)指令，平均會(huì)有36個(gè)整數(shù)指令，兩種指令可以并發(fā)執(zhí)行。

如此一來(lái)，帕斯卡架構(gòu)的整數(shù)和浮點(diǎn)計(jì)算就可以分配得更加均衡，并與新的Tensor、RT核心相配合，更合理、高效地完成各種負(fù)載。

整體而言，圖靈核心的CUDA陣列可以每秒執(zhí)行14萬(wàn)億次FP32浮點(diǎn)操作、14萬(wàn)億次INT32整數(shù)操作。

緩存架構(gòu)也徹底變化，由兩個(gè)載入/存儲(chǔ)單元牽頭，一級(jí)緩存和共享緩存整合在一起，而且容量靈活可變，可以是64KB+32KB，也可以是32KB+64KB，大大降低了延遲，帶寬也翻了一番。

二級(jí)緩存容量則從3MB翻倍到6MB。

NVIDIA宣稱，新架構(gòu)每個(gè)CUDA核心的著色渲染性能比上代平均提升50％，部分游戲可達(dá)70％左右，VRMark虛擬現(xiàn)實(shí)測(cè)試成績(jī)甚至翻了一番還多。

當(dāng)然這只是基礎(chǔ)理論上的數(shù)字，實(shí)際性能還要看其他部分和整體指標(biāo)。

圖靈架構(gòu)還首發(fā)搭配新一代GDDR6顯存，目前業(yè)界最快，等效頻率高達(dá)14GHz，搭配352-bit位寬可以帶來(lái)616GB/s的驚人帶寬，相比于GTX 1080 Ti在位寬不變的情況下提升了27％，也比用了2048-bit HBM2高帶寬顯存的AMD RX Vega 64高了27％。

而且關(guān)鍵是，GDDR6的成本比HBM2低得多。

另外，NVIDIA還對(duì)新顯存進(jìn)行了各種優(yōu)化，信號(hào)竄擾降低了40％，更利于運(yùn)行穩(wěn)定和進(jìn)一步超頻。