Nvidia , Grace CPU ve ilgili Superchip tasarımını ilk kez GTC 2022 ‘de duyurmuştu. Grace CPU, Nvidia’nın sunucu ve HPC segmentini hedeflediği Arm mimarisine dayalı ilk işlemcisi olurken performans anlamında ise AMD EPYC Milan işlemcileri açık ara farkla geride bırakıyor gibi görünüyor.
Nvidia Grace CPU Superchip özellikleri
Nvidia Grace CPU Superchip’in öne çıkan özellikleri arasında 144 Arm v9 Neoverse V2 çekirdeği ve ECC bellekli dünyanın ilk LPDDR5x yapılandırması dikkat çekiyor. Bu yapılandırma 1TB/sn bant genişliği sunarken 900 GB/s arayüzünde PCIe Gen 5’ten 7 kat daha yüksek hızlar vadediyor.
Nvidia’nın ilk sunucu CPU’su olan Grace, SVE2 ve Nested Virtualization ve S-EL2 gibi çeşitli sanallaştırma uzantıları için destek sunan 72 Arm v9.0 çekirdeğine sahip durumda. CPU, TSMC ‘nin Nvidia için özel olarak yapılmış 5nm sürecinin optimize edilmiş bir versiyonu olan 4N sürecinde üretiliyor.
Grace eşlenecek şekilde tasarlanmış bir altyapı sunuyor. Dolayısıyla tasarımın en önemli yönü C2C yani çipten çipte ara bağlantı sunuyor olmasıdır. Bu sayede çift Grace CPU ya da Grace CPU + Hopper H100 GPU gibi kombinasyonların yapılması mümkün. Grace bu esnekliği Superchip’leri yapmak için kullanılan ve tipik bir çapraz soket yapılandırmasıyla ilişkili tüm darboğazları ortadan kaldıran NVLINK köprüsü sayesinde yapıyor. C2C NVLINK ara bağlantısı çok düşük bir güç tüketimine sahipken 900 GB/sn ham çift yönlü bant genişliği sağlayabiliyor. Ayrıca devre üzerine konumlandırılan Grace+Hopper Superchip’i NVSwitch aracılığıyla birbirine bağlanabiliyor. Bu sayede Superchip üzerindeki Grace CPU, diğer yongadaki GPU ile doğrudan iletişim kurabiliyor ve hatta yerel NVLINK hızlarında VRAM’ine erişebiliyor.
Nvidia Grace CPU, dağıtılmış bir önbellek tasarımına sahip ölçeklenebilir bir yapıyı mümkün kılıyor. Bu sayede çipin 3,225 TB/sn’ye kadar ikiye bölünmüş bant genişliği sunması mümkün oluyor. Ayrıca çekirdek başına 117 MB L3 önbellek sunuluyor olması da verimliliği artırıyor. Bellek tarafındaysa Nvidia, 32 kanalda 960 GB’a kadar LPDDR5X (ECC) ve 1 TB/s’ye kadar bellek bant genişliği verebiliyor. Öte yandan çift CPU’lu kurulumda talep edilen TDP ise 500W.
Grace CPU performansı hayli iddialı
Nvidia tarafından sergilenen performans rakamları, OpenFOAM, WRF, NEMO ve BWA gibi çeşitli HPC iş yüklerinde Grace CPU Superchip’i çift soketli (2P) AMD EPYC 7763 “Milan” işlemcileri ile karşılaştırıyor. EPYC Milan’ın AMD’nin bir önceki nesli olduğunu bilmemiz burada önemli olacaktır. Buna göre, OpenFOAM’da Grace CPU Superchip, 3,5 kata kadar verimlilikle 2,5 kata kadar bir performans artışı elde ettiği görülüyor. Ortalama olarak , ise yeni Grace CPU Superchip’i, AMD’nin EPYC Milan CPU’larına kıyasla vat başına 1,9 kat performans artışı ve 2,57 kat verimlilik artışı sunabiliyor. Dolayısıyla bu değerlerle Nvidia’nın AMD ve Intel’in en yeni sunucu yongalarına karşı da rekabetçi olduğunu söyleyebiliriz.
Nvidia, Grace’in 1 trilyondan fazla parametreye sahip yeni nesil NLP modellerinin eğitimi gibi iş yüklerini hedefleyen oldukça özel bir işlemci olduğunu belirtiyor. Grace CPU’ların x86 yongalarına karşı nasıl bir performans sergileyeceğini gerçek hayatta görmek ilginç olacaktır. AMD’nin Genoa ve Intel’in Sapphire Rapids CPU’ları ile rekabet edecek olan Grace işlemcileri ilk olarak ATOS süper bilgisayarında kullanılacak.