Oracle dan NVIDIA Berkolaborasi untuk Membuat Superkomputer Zettaflops: Mampu mendukung hingga 131072 Blackwell B200 GPU
Sep 14,2024
Oracle telah meluncurkan cluster baru yang akan digunakan untuk pelatihan AI melalui Oracle Cloud Infrastructure (OCI).Cluster yang paling kuat ini akan didasarkan pada GPU Blackwell NVIDIA yang akan datang, dengan kinerja AI total hingga 2.4Zettaflops, yang bahkan lebih kuat daripada kluster AI Elon Musk yang baru -baru ini diumumkan.
Cluster superkomputer baru Oracle dapat dikonfigurasi dengan NVIDIA Hopper atau Blackwell GPU untuk AI dan HPC (komputasi berkinerja tinggi), serta perangkat jaringan yang berbeda, termasuk rocev2 latensi ultra-rendah dengan ConnectX-7 NIC dan ConnectX-8 Supernic atau Networks berbasis jaringan-NETWORK-LOW-LOW dengan dengan ConnectX-7 NIC dan ConnectX-8 Supernic atau Networks Networks berbasis jaringan rendah dengan ConnectX-7 NIC dan ConnectX-8 Supernic atau Networks berbasis jaringan-NETWORK-LOW-LOWICpada nvidia quantum-2 infiniband.Penyimpanan HPC juga dapat dipilih sesuai dengan persyaratan kinerja:
OCI Super Cluster yang dilengkapi dengan GPU H100 dapat mendukung hingga 16384 GPU, memberikan kinerja puncak 65 fp8/int8 exaflops dan throughput jaringan komprehensif 13pb/s;
OCI Super Cluster yang dilengkapi dengan GPU H200 akan diluncurkan akhir tahun ini, yang dapat meningkatkan hingga 65536 GPU dan menyediakan hingga 260 fp8/int8 exaflops dan throughput jaringan 52pB/s;
OCI Super Cluster yang dilengkapi dengan Blackwell B200 GPU akan berkembang ke 131072 GPU, memberikan kinerja puncak hingga 2,4 fp8/int8 zettaflops.
Cluster supercomputing OCI mendatang jauh melebihi kemampuan sistem terkemuka saat ini.Menurut Oracle, jumlah GPU di cluster super OCI teratas berdasarkan B200 lebih dari tiga kali lipat dari superkomputer Frontier (menggunakan 37888 AMD GPU MI250X) dan lebih dari enam kali lipat dari kelompok super lainnya.
OCI Super Cluster yang akan datang akan menggunakan kabinet pendingin cair GB200 NVIDIA NVIDIA, dengan 72 GPU berkomunikasi satu sama lain dalam domain NVLink tunggal dengan total bandwidth 129,6 TB/s.Oracle telah menyatakan bahwa GPU Blackwell NVIDIA akan tersedia pada paruh pertama tahun 2025 (karena terbatasnya ketersediaan Blackwell tahun ini), tetapi saat ini tidak jelas kapan OCI akan menawarkan cluster Blackwell yang terisi penuh.
Cluster superkomputer baru Oracle dapat dikonfigurasi dengan NVIDIA Hopper atau Blackwell GPU untuk AI dan HPC (komputasi berkinerja tinggi), serta perangkat jaringan yang berbeda, termasuk rocev2 latensi ultra-rendah dengan ConnectX-7 NIC dan ConnectX-8 Supernic atau Networks berbasis jaringan-NETWORK-LOW-LOW dengan dengan ConnectX-7 NIC dan ConnectX-8 Supernic atau Networks Networks berbasis jaringan rendah dengan ConnectX-7 NIC dan ConnectX-8 Supernic atau Networks berbasis jaringan-NETWORK-LOW-LOWICpada nvidia quantum-2 infiniband.Penyimpanan HPC juga dapat dipilih sesuai dengan persyaratan kinerja:
OCI Super Cluster yang dilengkapi dengan GPU H100 dapat mendukung hingga 16384 GPU, memberikan kinerja puncak 65 fp8/int8 exaflops dan throughput jaringan komprehensif 13pb/s;
OCI Super Cluster yang dilengkapi dengan GPU H200 akan diluncurkan akhir tahun ini, yang dapat meningkatkan hingga 65536 GPU dan menyediakan hingga 260 fp8/int8 exaflops dan throughput jaringan 52pB/s;
OCI Super Cluster yang dilengkapi dengan Blackwell B200 GPU akan berkembang ke 131072 GPU, memberikan kinerja puncak hingga 2,4 fp8/int8 zettaflops.
Cluster supercomputing OCI mendatang jauh melebihi kemampuan sistem terkemuka saat ini.Menurut Oracle, jumlah GPU di cluster super OCI teratas berdasarkan B200 lebih dari tiga kali lipat dari superkomputer Frontier (menggunakan 37888 AMD GPU MI250X) dan lebih dari enam kali lipat dari kelompok super lainnya.
OCI Super Cluster yang akan datang akan menggunakan kabinet pendingin cair GB200 NVIDIA NVIDIA, dengan 72 GPU berkomunikasi satu sama lain dalam domain NVLink tunggal dengan total bandwidth 129,6 TB/s.Oracle telah menyatakan bahwa GPU Blackwell NVIDIA akan tersedia pada paruh pertama tahun 2025 (karena terbatasnya ketersediaan Blackwell tahun ini), tetapi saat ini tidak jelas kapan OCI akan menawarkan cluster Blackwell yang terisi penuh.