이 문서에서는 Compute Engine에서 사용할 수 있는 NVIDIA GPU 모델을 간략하게 설명합니다. 이러한 모델을 사용하여 가상 머신 (VM) 인스턴스에서 머신러닝(ML), 데이터 처리, 그래픽 집약적 워크로드를 가속화할 수 있습니다. 이 문서에서는 A4X, A4, A3, A2, G2와 같은 가속기 최적화 머신 시리즈에 사전 연결된 GPU와 N1 범용 인스턴스에 연결할 수 있는 GPU도 자세히 설명합니다.
이 문서를 사용하여 다양한 GPU 모델의 성능, 메모리, 기능을 비교하세요. CPU 플랫폼, 스토리지 옵션, 네트워킹 기능을 비롯한 가속기 최적화 머신 계열에 대한 자세한 개요를 확인하고 워크로드에 맞는 특정 머신 유형을 찾으려면 가속기 최적화 머신 계열을 참조하세요.
Compute Engine의 GPU에 대한 상세 설명은 GPU 정보를 참조하세요.
Compute Engine에서 GPU의 사용 가능한 리전 및 영역을 보려면 GPU 리전 및 영역 가용성을 참조하세요.
사용 가능한 GPU 모델
다음 GPU 모델은 AI, ML, HPC 워크로드를 지원하기 위해 지정된 머신 유형과 함께 사용할 수 있습니다. 3D 시각화와 같이 그래픽 집약적인 워크로드가 있는 경우 NVIDIA RTX 가상 워크스테이션(vWS)을 사용하는 가상 워크스테이션을 만들 수도 있습니다. 일부 GPU 모델에서는 NVIDIA RTX 가상 워크스테이션을 사용할 수 있습니다. NVIDIA RTX 가상 워크스테이션을 사용하는 인스턴스를 만들면 Compute Engine이 자동으로 vWS 라이선스를 추가합니다. 가상 워크스테이션 가격 책정에 대한 자세한 내용은 GPU 가격 책정 페이지를 참조하세요.
A 및 G 시리즈 가속기 최적화 머신 유형의 경우 지정된 GPU 모델이 인스턴스에 자동으로 연결됩니다. N1 범용 머신 유형의 경우 지정된 GPU 모델을 연결할 수 있습니다.
머신 유형 | GPU 모델 | NVIDIA RTX 가상 워크스테이션(vWS) 모델 |
---|---|---|
A4X | NVIDIA GB200 Grace Blackwell Superchips(nvidia-gb200 )
각 Superchip에는 NVIDIA B200 Blackwell GPU가 4개 포함되어 있습니다. |
|
A4 | NVIDIA B200 Blackwell GPU(nvidia-b200 ) |
|
A3 Ultra | NVIDIA H200 SXM GPU(nvidia-h200-141gb ) |
|
A3 Mega |
NVIDIA H100 SXM GPU(nvidia-h100-mega-80gb ) |
|
A3 High 및 A3 Edge |
NVIDIA H100 SXM GPU(nvidia-h100-80gb ) |
|
A2 Ultra | NVIDIA A100 80GB GPU(nvidia-a100-80gb ) |
|
A2 Standard | NVIDIA A100 40GB GPU(nvidia-a100-40gb ) |
|
G4(프리뷰) | NVIDIA RTX PRO 6000 Blackwell 서버 버전(nvidia-rtx-pro-6000 ) |
|
G2 | NVIDIA L4(nvidia-l4 ) |
NVIDIA L4 가상 워크스테이션(vWS)(nvidia-l4-vws ) |
N1 | NVIDIA T4 GPU(nvidia-tesla-t4 ) |
NVIDIA T4 가상 워크스테이션(vWS)(nvidia-tesla-t4-vws ) |
NVIDIA P4 GPU(nvidia-tesla-p4 ) |
NVIDIA P4 가상 워크스테이션(vWS)(nvidia-tesla-p4-vws ) |
|
NVIDIA V100 GPU(nvidia-tesla-v100 ) |
||
NVIDIA P100 GPU(nvidia-tesla-p100 ) |
NVIDIA P100 가상 워크스테이션(vWS)(nvidia-tesla-p100-vws ) |
AI 하이퍼컴퓨터에서 일부 GPU 머신 유형을 사용할 수도 있습니다. AI 하이퍼컴퓨터는 인공지능(AI) 및 머신러닝(ML) 워크로드를 지원하도록 최적화된 슈퍼컴퓨팅 시스템입니다. 이 옵션은 Google Kubernetes Engine(GKE) 및 Slurm 스케줄러와 통합된 밀집적으로 할당된 성능 최적화 인프라를 생성하는 데 적합합니다.
A4X 머신 시리즈
A4X 가속기 최적화 머신 유형은 NVIDIA GB200 Grace Blackwell Superchips(nvidia-gb200
)을 사용하며 파운데이션 모델 학습과 서빙에 적합합니다.
A4X는 NVIDIA GB200 NVL72를 기반으로 하는 엑사스케일 플랫폼입니다. 각 머신에는 Arm Neoverse V2 코어가 있는 NVIDIA Grace CPU가 있는 소켓이 2개 있습니다. 이러한 CPU는 고속 칩 간(NVLink-C2C) 통신을 통해 NVIDIA B200 Blackwell GPU 4개에 연결됩니다.
연결된 NVIDIA GB200 Grace Blackwell Superchips | |||||||
---|---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 720 |
1vCPU는 사용 가능한 CPU 플랫폼 중 하나에서 단일 하드웨어 하이퍼 스레드로 구현됩니다.
2 최대 이그레스 대역폭은 지정된 수를 초과할 수 없습니다. 실제 이그레스 대역폭은 대상 IP 주소와 기타 요인에 따라 다릅니다.
네트워크 대역폭에 대한 자세한 내용은 네트워크 대역폭을 참조하세요.
3GPU 메모리는 임시 데이터 스토리지에 사용할 수 있는 GPU 기기의 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
A4 머신 시리즈
A4 가속기 최적화 머신 유형에는 NVIDIA B200 Blackwell GPU(nvidia-b200
)가 연결되어 있으며 파운데이션 모델 학습과 서빙에 적합합니다.
연결된 NVIDIA B200 Blackwell GPU | |||||||
---|---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
1vCPU는 사용 가능한 CPU 플랫폼 중 하나에서 단일 하드웨어 하이퍼 스레드로 구현됩니다.
2 최대 이그레스 대역폭은 지정된 수를 초과할 수 없습니다. 실제 이그레스 대역폭은 대상 IP 주소와 기타 요인에 따라 다릅니다.
네트워크 대역폭에 대한 자세한 내용은 네트워크 대역폭을 참조하세요.
3GPU 메모리는 임시 데이터 스토리지에 사용할 수 있는 GPU 기기의 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
A3 머신 시리즈
A3 가속기 최적화 머신 유형에는 NVIDIA H100 SXM 또는 NVIDIA H200 SXM GPU가 연결되어 있습니다.
A3 Ultra 머신 유형
A3 Ultra 머신 유형에는 NVIDIA H200 SXM GPU(nvidia-h200-141gb
)가 연결되어 있으며 A3 시리즈에서 가장 높은 네트워크 성능을 제공합니다. A3 Ultra 머신 유형은 파운데이션 모델 학습과 서빙에 적합합니다.
연결된 NVIDIA H200 GPU | |||||||
---|---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
1vCPU는 사용 가능한 CPU 플랫폼 중 하나에서 단일 하드웨어 하이퍼 스레드로 구현됩니다.
2 최대 이그레스 대역폭은 지정된 수를 초과할 수 없습니다. 실제 이그레스 대역폭은 대상 IP 주소와 기타 요인에 따라 다릅니다.
네트워크 대역폭에 대한 자세한 내용은 네트워크 대역폭을 참조하세요.
3GPU 메모리는 임시 데이터 스토리지에 사용할 수 있는 GPU 기기의 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
A3 Mega, High, Edge 머신 유형
NVIDIA H100 SXM GPU를 사용하려면 다음 옵션이 있습니다.
- A3 Mega: 이 머신 유형에는 H100 SXM GPU(
nvidia-h100-mega-80gb
)가 포함되며 대규모 학습 및 서빙 워크로드에 적합합니다. - A3 High: 이 머신 유형에는 H100 SXM GPU(
nvidia-h100-80gb
)가 포함되며 학습 및 서빙 작업 모두에 적합합니다. - A3 Edge: 이 머신 유형에는 H100 SXM GPU(
nvidia-h100-80gb
)가 포함되며 서빙 전용으로 설계되었고 제한된 리전에서만 사용할 수 있습니다.
A3 Mega
연결된 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
연결된 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
연결된 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 연결된 로컬 SSD(GiB) | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
1vCPU는 사용 가능한 CPU 플랫폼 중 하나에서 단일 하드웨어 하이퍼 스레드로 구현됩니다.
2 최대 이그레스 대역폭은 지정된 수를 초과할 수 없습니다. 실제 이그레스 대역폭은 대상 IP 주소와 기타 요인에 따라 다릅니다.
네트워크 대역폭에 대한 자세한 내용은 네트워크 대역폭을 참조하세요.
3GPU 메모리는 임시 데이터 스토리지에 사용할 수 있는 GPU 기기의 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
A2 머신 시리즈
A2 가속기 최적화 머신 유형에는 NVIDIA A100 GPU가 연결되어 있으며 모델 미세 조정, 대규모 모델, 비용 최적화 추론에 적합합니다.
A2 머신 시리즈는 두 가지 유형으로 사용할 수 있습니다.
- A2 Ultra: 이 머신 유형에는 A100 80GB GPU(
nvidia-a100-80gb
) 및 로컬 SSD 디스크가 연결됩니다. - A2 Standard: 이 머신 유형에는 A100 40GB GPU(
nvidia-tesla-a100
)가 연결됩니다. A2 Standard 인스턴스를 만들 때 로컬 SSD 디스크를 추가할 수도 있습니다. 연결할 수 있는 디스크 수는 로컬 SSD 디스크 수를 선택해야 하는 머신 유형을 참조하세요.
A2 Ultra
연결된 NVIDIA A100 80GB GPU | ||||||
---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 연결된 로컬 SSD(GiB) | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Standard
연결된 NVIDIA A100 40GB GPU | ||||||
---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 지원되는 로컬 SSD | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | 예 | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | 예 | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | 예 | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | 예 | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | 예 | 100 | 16 | 640 |
1vCPU는 사용 가능한 CPU 플랫폼 중 하나에서 단일 하드웨어 하이퍼 스레드로 구현됩니다.
2 최대 이그레스 대역폭은 지정된 수를 초과할 수 없습니다. 실제 이그레스 대역폭은 대상 IP 주소와 기타 요인에 따라 다릅니다.
네트워크 대역폭에 대한 자세한 내용은 네트워크 대역폭을 참조하세요.
3GPU 메모리는 임시 데이터 스토리지에 사용할 수 있는 GPU 기기의 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
G4 머신 시리즈
G4 가속기 최적화 머신 유형은 NVIDIA RTX PRO 6000 Blackwell 서버 에디션 GPU (nvidia-rtx-pro-6000
)를 사용하며 NVIDIA Omniverse 시뮬레이션 워크로드, 그래픽 집약적 애플리케이션, 동영상 트랜스코딩, 가상 데스크톱에 적합합니다. 또한 G4 머신 유형은 A 시리즈 머신 유형에 비해 단일 호스트 추론 및 모델 조정을 수행할 수 있는 저비용 솔루션을 제공합니다.
G4 시리즈의 주요 기능은 다중 GPU 머신 유형(g4-standard-96
, g4-standard-192
, g4-standard-384
)에서 직접 GPU 피어 투 피어(P2P) 통신을 지원한다는 것입니다. 이를 통해 동일한 인스턴스 내의 GPU가 CPU 호스트를 사용하지 않고 PCIe 버스를 통해 직접 데이터를 교환할 수 있습니다. G4 GPU P2P 통신에 대한 자세한 내용은 G4 GPU P2P 통신을 참조하세요.
연결된 NVIDIA RTX PRO 6000 GPU | |||||||
---|---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 인스턴스 메모리(GB) | 지원되는 최대 티타늄 SSD(GiB)2 | 물리적 NIC 수 | 최대 네트워크 대역폭(Gbps)3 | GPU 수 | GPU 메모리4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3,000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6,000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
1vCPU는 사용 가능한 CPU 플랫폼 중 하나에서 단일 하드웨어 하이퍼 스레드로 구현됩니다.
2G4 인스턴스를 만들 때 티타늄 SSD 디스크를 추가할 수 있습니다. 연결할 수 있는 디스크 수는 로컬 SSD 디스크 수를 선택해야 하는 머신 유형을 참조하세요.
3최대 이그레스 대역폭은 지정된 수를 초과할 수 없습니다. 실제 이그레스 대역폭은 대상 IP 주소와 기타 요인에 따라 다릅니다.
네트워크 대역폭을 참조하세요.
4GPU 메모리는 임시 데이터 스토리지에 사용할 수 있는 GPU 기기의 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
G2 머신 시리즈
G2 가속기 최적화 머신 유형에는 NVIDIA L4 GPU가 연결되어 있으며 비용 최적화 추론, 그래픽 집약적 워크로드, 고성능 컴퓨팅 워크로드에 적합합니다.
각 G2 머신 유형에는 기본 메모리와 커스텀 메모리 범위도 있습니다. 커스텀 메모리 범위는 각 머신 유형의 인스턴스에 할당할 수 있는 메모리 양을 정의합니다. G2 인스턴스를 만들 때 로컬 SSD 디스크를 추가할 수도 있습니다. 연결할 수 있는 디스크 수는 로컬 SSD 디스크 수를 선택해야 하는 머신 유형을 참조하세요.
연결된 NVIDIA L4 GPU | |||||||
---|---|---|---|---|---|---|---|
머신 유형 | vCPU 수1 | 기본 인스턴스 메모리(GB) | 커스텀 인스턴스 메모리 범위(GB) | 지원되는 최대 로컬 SSD(GiB) | 최대 네트워크 대역폭(Gbps)2 | GPU 수 | GPU 메모리3(GB GDDR6) |
g2-standard-4 |
4 | 16 | 16~32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32~54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48~54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54~64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96~108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96~128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192~216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384~432 | 3,000 | 100 | 8 | 192 |
1vCPU는 사용 가능한 CPU 플랫폼 중 하나에서 단일 하드웨어 하이퍼 스레드로 구현됩니다.
2 최대 이그레스 대역폭은 지정된 수를 초과할 수 없습니다. 실제 이그레스 대역폭은 대상 IP 주소와 기타 요인에 따라 다릅니다.
네트워크 대역폭에 대한 자세한 내용은 네트워크 대역폭을 참조하세요.
3GPU 메모리는 임시 데이터 스토리지에 사용할 수 있는 GPU 기기의 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
N1 머신 시리즈
N1 공유 코어 머신 유형을 제외한 다음 GPU 모델을 N1 머신 유형에 연결할 수 있습니다.
가속기 최적화 머신 시리즈의 머신 유형과 달리 N1 머신 유형에는 연결된 GPU 수가 정해져 있지 않습니다. 대신 인스턴스를 만들 때 연결할 GPU 수를 지정합니다.
GPU 수가 적은 N1 인스턴스는 최대 vCPU 수를 제한합니다. 일반적으로 GPU 수가 많을수록 더 많은 vCPU와 높은 메모리 용량으로 인스턴스를 만들 수 있습니다.
N1+T4 GPU
다음 인스턴스 구성을 사용하여 N1 범용 인스턴스에 NVIDIA T4 GPU를 연결할 수 있습니다.
가속기 유형 | GPU 수 | GPU 메모리1(GB GDDR6) | vCPU 수 | 인스턴스 메모리(GB) | 지원되는 로컬 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 또는 nvidia-tesla-t4-vws |
1 | 16 | 1~48 | 1~312 | 예 |
2 | 32 | 1~48 | 1~312 | 예 | |
4 | 64 | 1~96 | 1~624 | 예 |
1GPU 메모리는 임시 데이터 저장에 사용할 수 있는 GPU 기기에서 사용 가능한 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
N1+P4 GPU
다음 인스턴스 구성을 사용하여 N1 범용 인스턴스에 NVIDIA P4 GPU를 연결할 수 있습니다.
가속기 유형 | GPU 수 | GPU 메모리1(GB GDDR5) | vCPU 수 | 인스턴스 메모리(GB) | 지원되는 로컬 SSD2 |
---|---|---|---|---|---|
nvidia-tesla-p4 또는 nvidia-tesla-p4-vws |
1 | 8 | 1~24 | 1~156 | 예 |
2 | 16 | 1~48 | 1~312 | 예 | |
4 | 32 | 1~96 | 1~624 | 예 |
1GPU 메모리는 임시 데이터 저장에 사용할 수 있는 GPU 기기에서 사용 가능한 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
2인스턴스에 NVIDIA P4 GPU가 연결된 경우 로컬 SSD 디스크는 us-central1-c
및 northamerica-northeast1-b
영역에서만 지원됩니다.
N1+V100 GPU
다음 인스턴스 구성을 사용하여 N1 범용 인스턴스에 NVIDIA V100 GPU를 연결할 수 있습니다.
가속기 유형 | GPU 수 | GPU 메모리1(GB HBM2) | vCPU 수 | 인스턴스 메모리(GB) | 지원되는 로컬 SSD2 |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1~12 | 1~78 | 예 |
2 | 32 | 1~24 | 1~156 | 예 | |
4 | 64 | 1~48 | 1~312 | 예 | |
8 | 128 | 1~96 | 1~624 | 예 |
1GPU 메모리는 임시 데이터 저장에 사용할 수 있는 GPU 기기에서 사용 가능한 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
2NVIDIA V100 GPU가 인스턴스에 연결된 경우 로컬 SSD 디스크는 us-east1-c
에서 지원되지 않습니다.
N1+P100 GPU
다음 인스턴스 구성을 사용하여 N1 범용 인스턴스에 NVIDIA P100 GPU를 연결할 수 있습니다.
일부 NVIDIA P100 GPU의 경우 일부 구성에 사용할 수 있는 최대 CPU와 메모리는 GPU 리소스가 실행되는 영역에 따라 다릅니다.
가속기 유형 | GPU 수 | GPU 메모리1(GB HBM2) | 영역 | vCPU 수 | 인스턴스 메모리(GB) | 지원되는 로컬 SSD |
---|---|---|---|---|---|---|
nvidia-tesla-p100 또는 nvidia-tesla-p100-vws |
1 | 16 | 모든 P100 영역 | 1~16 | 1~104 | 예 |
2 | 32 | 모든 P100 영역 | 1~32 | 1~208 | 예 | |
4 | 64 | us-east1-c , europe-west1-d , europe-west1-b |
1~64 | 1~208 | 예 | |
기타 모든 P100 영역 | 1~96 | 1~624 | 예 |
1GPU 메모리는 임시 데이터 저장에 사용할 수 있는 GPU 기기에서 사용 가능한 메모리입니다. 인스턴스의 메모리와는 별개이며 특히 그래픽 집약적인 워크로드의 더 높은 대역폭 수요를 처리하도록 설계되었습니다.
일반 비교 차트
다음 표에서는 GPU 메모리 크기, 기능 가용성, Compute Engine에서 사용할 수 있는 다양한 GPU 모델의 이상적인 워크로드 유형을 설명합니다.
GPU 모델 | GPU 메모리 | Interconnect | NVIDIA RTX 가상 워크스테이션(vWS) 지원 | 최적의 용도 |
---|---|---|---|---|
GB200 | 180GB HBM3e @ 8TBps | NVLink 풀 메시 @ 1,800GBps | LLM, 추천자, HPC의 대규모 분산 학습 및 추론 | |
B200 | 180GB HBM3e @ 8TBps | NVLink 풀 메시 @ 1,800GBps | LLM, 추천자, HPC의 대규모 분산 학습 및 추론 | |
H200 | 141GB HBM3e @ 4.8TBps | NVLink 풀 메시 @ 900GBps | ML 학습, 추론, HPC, BERT, DLRM의 대규모 데이터 테이블이 있는 대규모 모델 | |
H100 | 80GB HBM3 @ 3.35TBps | NVLink 풀 메시 @ 900GBps | ML 학습, 추론, HPC, BERT, DLRM의 대규모 데이터 테이블이 있는 대규모 모델 | |
A100 80GB | 80GB HBM2e @ 1.9TBps | NVLink 풀 메시 @ 600GBps | ML 학습, 추론, HPC, BERT, DLRM의 대규모 데이터 테이블이 있는 대규모 모델 | |
A100 40GB | 40GB HBM2 @ 1.6TBps | NVLink 풀 메시 @ 600GBps | ML 학습, 추론, HPC | |
RTX PRO 6000(프리뷰) | 96GB GDDR7(ECC 포함) @ 1597GBps | 해당 사항 없음 | ML 추론, 학습, 원격 시각화 워크스테이션, 동영상 트랜스코딩, HPC | |
L4 | 24GB GDDR6 @ 300GBps | 해당 사항 없음 | ML 추론, 학습, 원격 시각화 워크스테이션, 동영상 트랜스코딩, HPC | |
T4 | 16GB GDDR6 @ 320GBps | 해당 사항 없음 | ML 추론, 학습, 원격 시각화 워크스테이션, 동영상 트랜스코딩 | |
V100 | 16GB HBM2 @ 900GBps | NVLink Ring @ 300GBps | ML 학습, 추론, HPC | |
P4 | 8GB GDDR5 @ 192GBps | 해당 사항 없음 | 원격 시각화 워크스테이션, ML 추론, 동영상 트랜스코딩 | |
P100 | 16GB HBM2 @ 732GBps | 해당 사항 없음 | ML 학습, 추론, HPC, 원격 시각화 워크스테이션 |
Compute Engine에서 사용할 수 있는 여러 가지 GPU 모델과 리전의 GPU 가격을 비교하려면 GPU 가격 책정을 참조하세요.
성능 비교 차트
다음 표에서는 Compute Engine에서 사용할 수 있는 다양한 GPU 모델의 성능 사양을 설명합니다.
컴퓨팅 성능
GPU 모델 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90TFLOPS | 180TFLOPS | ||
B200 | 40TFLOPS | 80TFLOPS | ||
H200 | 34TFLOPS | 67TFLOPS | ||
H100 | 34TFLOPS | 67TFLOPS | ||
A100 80GB | 9.7TFLOPS | 19.5TFLOPS | ||
A100 40GB | 9.7TFLOPS | 19.5TFLOPS | ||
L4 | 0.5TFLOPS1 | 30.3TFLOPS | ||
T4 | 0.25TFLOPS1 | 8.1TFLOPS | ||
V100 | 7.8TFLOPS | 15.7TFLOPS | ||
P4 | 0.2TFLOPS1 | 5.5TFLOPS | 22TOPS2 | |
P100 | 4.7TFLOPS | 9.3TFLOPS | 18.7TFLOPS |
1FP64 코드가 올바르게 작동하도록 T4, L4, P4 GPU 아키텍처에 소수의 FP64 하드웨어 장치가 포함되어 있습니다.
2TeraOperations per Second.
텐서 코어 성능
GPU 모델 | FP64 | TF32 | 혼합 정밀도 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90TFLOPS | 2,500TFLOPS2 | 5,000TFLOPS1, 2 | 10,000TFLOPS2 | 20,000TFLOPS2 | 10,000TFLOPS2 |
B200 | 40TFLOPS | 1,100TFLOPS2 | 4,500TFLOPS1, 2 | 9,000TFLOPS2 | 9,000TFLOPS2 | |
H200 | 67TFLOPS | 989TFLOPS2 | 1,979TFLOPS1, 2 | 3,958TOPS2 | 3,958TFLOPS2 | |
H100 | 67TFLOPS | 989TFLOPS2 | 1,979TFLOPS1, 2 | 3,958TOPS2 | 3,958TFLOPS2 | |
A100 80GB | 19.5TFLOPS | 156TFLOPS | 312TFLOPS1 | 624TOPS | 1248TOPS | |
A100 40GB | 19.5TFLOPS | 156TFLOPS | 312TFLOPS1 | 624TOPS | 1248TOPS | |
L4 | 120TFLOPS2 | 242TFLOPS1, 2 | 485TOPS2 | 485TFLOPS2 | ||
T4 | 65TFLOPS | 130TOPS | 260TOPS | |||
V100 | 125TFLOPS | |||||
P4 | ||||||
P100 |
1혼합 정밀도 학습의 경우 NVIDIA GB200, B200, H200, H100, A100, L4 GPU도 bfloat16
데이터 유형을 지원합니다.
2NVIDIA GB200, B200, H200, H100, L4 GPU는 구조적 희소성을 지원합니다. 구조적 희소성을 사용하여 모델의 성능을 두 배로 높일 수 있습니다. 문서화된 값은 구조화된 희소성을 사용할 때 적용됩니다.
구조화된 희소성을 사용하지 않으면 값이 절반으로 줄어듭니다.
다음 단계
- Compute Engine GPU 자세히 알아보기
- GPU 리전 및 영역 가용성 확인하기
- 네트워크 대역폭 및 GPU 검토하기
- GPU 가격 책정 세부정보 보기