Questo documento descrive i modelli di GPU NVIDIA disponibili su Compute Engine, che puoi utilizzare per accelerare il machine learning (ML), l'elaborazione dei dati e i workload a uso intensivo di grafica sulle tue istanze di macchine virtuali (VM). Questo documento descrive anche quali GPU sono precollegate alle serie di macchine ottimizzate per l'acceleratore, come A4X, A4, A3, A2 e G2, e quali GPU puoi collegare alle istanze N1 per uso generico.
Utilizza questo documento per confrontare le prestazioni, la memoria e le funzionalità di diversi modelli di GPU. Per una panoramica più dettagliata della famiglia di macchine ottimizzate per l'acceleratore, incluse informazioni su piattaforme CPU, opzioni di archiviazione e funzionalità di networking, e per trovare il tipo di macchina specifico adatto al tuo workload, consulta la pagina Famiglia di macchine ottimizzate per l'acceleratore.
Per saperne di più sulle GPU su Compute Engine, consulta Informazioni sulle GPU.
Per visualizzare le regioni e le zone disponibili per le GPU su Compute Engine, consulta Disponibilità delle GPU per regioni e zone.
Modelli di GPU disponibili
I seguenti modelli di GPU sono disponibili con il tipo di macchina specificato per supportare i tuoi carichi di lavoro di AI, ML e HPC. Se hai workload ad alta intensità grafica, come la visualizzazione 3D, puoi anche creare workstation virtuali che utilizzano le workstation virtuali (vWS) NVIDIA RTX. La workstation virtuale NVIDIA RTX è disponibile per alcuni modelli di GPU. Quando crei un'istanza che utilizza la workstation virtuale NVIDIA RTX, Compute Engine aggiunge automaticamente una licenza vWS. Per informazioni sui prezzi delle workstation virtuali, consulta la pagina dei prezzi delle GPU.
Per i tipi di macchine ottimizzate per l'acceleratore delle serie A e G, il modello di GPU specificato viene collegato automaticamente all'istanza. Per i tipi di macchine per uso generico N1, puoi collegare i modelli di GPU specificati.
Tipo di macchina | Modello di GPU | Modello di workstation virtuale (vWS) NVIDIA RTX |
---|---|---|
A4X | NVIDIA GB200 Grace Blackwell Superchips (nvidia-gb200 ).
Ogni superchip contiene quattro GPU NVIDIA B200 Blackwell. |
|
A4 | GPU NVIDIA B200 Blackwell (nvidia-b200 ) |
|
A3 Ultra | GPU NVIDIA H200 SXM (nvidia-h200-141gb ) |
|
A3 Mega |
GPU NVIDIA H100 SXM (nvidia-h100-mega-80gb ) |
|
A3 High e A3 Edge |
GPU NVIDIA H100 SXM (nvidia-h100-80gb ) |
|
A2 Ultra | GPU NVIDIA A100 da 80 GB (nvidia-a100-80gb ) |
|
A2 Standard | GPU NVIDIA A100 da 40 GB (nvidia-a100-40gb ) |
|
G4 (anteprima) | NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000 ) |
|
G2 | NVIDIA L4 (nvidia-l4 ) |
Workstation virtuali (vWS) NVIDIA L4 (nvidia-l4-vws ) |
N1 | GPU NVIDIA T4 (nvidia-tesla-t4 ) |
Workstation virtuali (vWS) NVIDIA T4 (nvidia-tesla-t4-vws ) |
GPU NVIDIA P4 (nvidia-tesla-p4 ) |
Workstation virtuali (vWS) NVIDIA P4 (nvidia-tesla-p4-vws ) |
|
GPU NVIDIA V100 (nvidia-tesla-v100 ) |
||
GPU NVIDIA P100 (nvidia-tesla-p100 ) |
Workstation virtuali (vWS) NVIDIA P100 (nvidia-tesla-p100-vws ) |
Puoi anche utilizzare alcuni tipi di macchine GPU su AI Hypercomputer. AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i workload di intelligenza artificiale (AI) e machine learning (ML). Questa opzione è consigliata per creare un'infrastruttura densamente allocata e ottimizzata per le prestazioni che dispone di integrazioni per Google Kubernetes Engine (GKE) e gli scheduler Slurm.
Serie di macchine A4X
I tipi di macchine A4X ottimizzate per l'acceleratore
utilizzano i superchip NVIDIA GB200 Grace Blackwell (nvidia-gb200
) e
sono ideali per l'addestramento e la pubblicazione di modelli di base.
A4X è una piattaforma exascale basata su NVIDIA GB200 NVL72. Ogni macchina ha due socket con CPU NVIDIA Grace con core Arm Neoverse V2. Queste CPU sono collegate a quattro GPU NVIDIA B200 Blackwell con comunicazione chip-to-chip (NVLink-C2C) veloce.
Superchip NVIDIA GB200 Grace Blackwell collegati | |||||||
---|---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD locale collegato (GiB) | Numero di NIC fisiche | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12.000 | 6 | 2000 | 4 | 720 |
1 Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
2 La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori.
Per saperne di più sulla larghezza di banda di rete,
consulta Larghezza di banda di rete.
3 La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
Serie di macchine A4
I tipi di macchine A4 ottimizzate per l'acceleratore
sono collegate a
GPU NVIDIA B200 Blackwell
(nvidia-b200
) e sono ideali per l'addestramento e la pubblicazione di modelli di base.
GPU NVIDIA B200 Blackwell collegate | |||||||
---|---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD locale collegato (GiB) | Numero di NIC fisiche | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3968 | 12.000 | 10 | 3600 | 8 | 1440 |
1 Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
2 La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori.
Per saperne di più sulla larghezza di banda di rete, consulta
Larghezza di banda di rete.
3 La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
Serie di macchine A3
I tipi di macchine A3 ottimizzate per l'acceleratore sono collegate a GPU NVIDIA H100 SXM o NVIDIA H200 SXM.
Tipo di macchina A3 Ultra
I tipi di macchina A3 Ultra sono collegati a GPU NVIDIA H200 SXM (nvidia-h200-141gb
) e offrono le massime prestazioni di rete nella serie A3. I tipi di macchine A3 Ultra sono ideali per l'addestramento e la pubblicazione di foundation model.
GPU NVIDIA H200 collegate | |||||||
---|---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD locale collegato (GiB) | Numero di NIC fisiche | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2952 | 12.000 | 10 | 3600 | 8 | 1128 |
1 Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
2 La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori.
Per saperne di più sulla larghezza di banda di rete,
consulta Larghezza di banda di rete.
3 La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
Tipi di macchine A3 Mega, High ed Edge
Per utilizzare le GPU NVIDIA H100 SXM, hai le seguenti opzioni:
- A3 Mega: questi tipi di macchine dispongono di GPU H100 SXM (
nvidia-h100-mega-80gb
) e sono ideali per workload di addestramento e pubblicazione su larga scala. - A3 High: questi tipi di macchine dispongono di GPU H100 SXM (
nvidia-h100-80gb
) e sono adatti sia per le attività di addestramento sia per quelle di pubblicazione. - A3 Edge: questi tipi di macchine sono dotati di GPU H100 SXM (
nvidia-h100-80gb
), sono progettati specificamente per la pubblicazione e sono disponibili in un insieme limitato di regioni.
A3 Mega
GPU NVIDIA H100 collegate | |||||||
---|---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD locale collegato (GiB) | Numero di NIC fisiche | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB HBM3) |
a3-megagpu-8g |
208 | 1872 | 6000 | 9 | 1800 | 8 | 640 |
A3 High
GPU NVIDIA H100 collegate | |||||||
---|---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD locale collegato (GiB) | Numero di NIC fisiche | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1872 | 6000 | 5 | 1000 | 8 | 640 |
A3 Edge
GPU NVIDIA H100 collegate | |||||||
---|---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD locale collegato (GiB) | Numero di NIC fisiche | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1872 | 6000 | 5 |
|
8 | 640 |
1 Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
2 La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori.
Per saperne di più sulla larghezza di banda di rete,
consulta Larghezza di banda di rete.
3 La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
Serie di macchine A2
I tipi di macchine A2 ottimizzate per l'acceleratore sono collegate a GPU NVIDIA A100 e sono ideali per il perfezionamento dei modelli, l'inferenza di modelli di grandi dimensioni e l'inferenza ottimizzata per i costi.
Le serie di macchine A2 sono disponibili in due tipi:
- A2 Ultra: a questi tipi di macchine sono collegate GPU A100 da 80 GB (
nvidia-a100-80gb
) e dischi SSD locali. - A2 Standard: a questi tipi di macchine sono collegate GPU A100 da 40 GB
(
nvidia-tesla-a100
). Puoi anche aggiungere dischi SSD locali quando crei un'istanza A2 Standard. Per il numero di dischi che puoi collegare, vedi Tipi di macchine per cui devi scegliere un numero di dischi SSD locali.
A2 Ultra
GPU NVIDIA A100 da 80 GB collegate | ||||||
---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD locale collegato (GiB) | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1360 | 3000 | 100 | 8 | 640 |
A2 Standard
GPU NVIDIA A100 da 40 GB collegate | ||||||
---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD locale supportato | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | Sì | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | Sì | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | Sì | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | Sì | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1360 | Sì | 100 | 16 | 640 |
1 Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
2 La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori.
Per saperne di più sulla larghezza di banda di rete,
consulta Larghezza di banda di rete.
3 La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
Serie di macchine G4
I tipi di macchina G4 ottimizzati per l'acceleratore
utilizzano
GPU
NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000
)
e sono
adatti per i workload di simulazione NVIDIA Omniverse, le applicazioni ad alta intensità di grafica, la transcodifica video e i desktop virtuali. I tipi di macchine G4 forniscono anche una soluzione a basso costo per
l'esecuzione dell'inferenza su un singolo host e l'ottimizzazione del modello rispetto ai tipi di macchine della serie A.
Una funzionalità chiave della serie G4 è il supporto della comunicazione peer-to-peer (P2P) diretta tra GPU
sui tipi di macchine multi-GPU (g4-standard-96
, g4-standard-192
,
g4-standard-384
). Ciò consente alle GPU all'interno della stessa istanza di
scambiare dati direttamente sul bus PCIe, senza coinvolgere l'host CPU. Per saperne di più sulla comunicazione peer-to-peer
delle GPU G4, consulta
Comunicazione peer-to-peer delle GPU G4.
GPU NVIDIA RTX PRO 6000 collegate | |||||||
---|---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza (GB) | SSD Titanium massimo supportato (GiB)2 | Numero di NIC fisiche | Larghezza di banda massima della rete (Gbps)3 | Conteggio GPU | Memoria GPU4 (GB GDDR7) |
g4-standard-48 |
48 | 180 | 1500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1440 | 12.000 | 2 | 400 | 8 | 768 |
1 Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
2Puoi aggiungere dischi Titanium SSD quando crei un'istanza G4. Per il numero di dischi che puoi collegare, vedi Tipi di macchine per cui devi scegliere un numero di dischi SSD locali.
3 La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori.
Vedi Larghezza di banda della rete.
4 La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
Serie di macchine G2
I tipi di macchina G2 ottimizzati per l'acceleratore sono collegati a GPU NVIDIA L4 e sono ideali per inferenza ottimizzata per i costi, carichi di lavoro ad alta intensità di grafica e di computing ad alte prestazioni.
Ogni tipo di macchina G2 ha anche una memoria predefinita e un intervallo di memoria personalizzato. L'intervallo di memoria personalizzato definisce la quantità di memoria che puoi allocare all'istanza per ogni tipo di macchina. Puoi anche aggiungere dischi SSD locali quando crei un'istanza G2. Per il numero di dischi che puoi collegare, vedi Tipi di macchine per cui devi scegliere un numero di dischi SSD locali.
GPU NVIDIA L4 collegate | |||||||
---|---|---|---|---|---|---|---|
Tipo di macchina | Numero di vCPU1 | Memoria istanza predefinita (GB) | Intervallo di memoria istanza personalizzato (GB) | SSD locale massimo supportato (GiB) | Larghezza di banda massima della rete (Gbps)2 | Conteggio GPU | Memoria GPU3 (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16-32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32-54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48-54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54-64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96-108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96-128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192-216 | 1500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384-432 | 3000 | 100 | 8 | 192 |
1 Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
2 La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori.
Per saperne di più sulla larghezza di banda di rete,
consulta Larghezza di banda di rete.
3 La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
Serie di macchine N1
Puoi collegare i seguenti modelli di GPU a un tipo di macchina N1, ad eccezione dei tipi di macchine N1 con core condivisi.
A differenza dei tipi di macchina della serie di macchine ottimizzate per l'acceleratore, i tipi di macchina N1 non sono dotati di un numero fisso di GPU collegate. Specifichi invece il numero di GPU da collegare durante la creazione dell'istanza.
Le istanze N1 con meno GPU limitano il numero massimo di vCPU. Di norma, un numero maggiore di GPU ti consente di creare istanze con più memoria e un numero maggiore di vCPU.
N1+GPU T4
Puoi collegare GPU NVIDIA T4 alle istanze N1 per uso generico con le seguenti configurazioni di istanza.
Tipo di acceleratore | Conteggio GPU | Memoria GPU1 (GB GDDR6) | Numero di vCPU | Memoria istanza (GB) | SSD locale supportato |
---|---|---|---|---|---|
nvidia-tesla-t4 o nvidia-tesla-t4-vws
|
1 | 16 | 1-48 | 1-312 | Sì |
2 | 32 | 1-48 | 1-312 | Sì | |
4 | 64 | 1-96 | 1-624 | Sì |
1 La memoria GPU è la memoria disponibile su un dispositivo GPU che puoi utilizzare per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
N1+GPU P4
Puoi collegare GPU NVIDIA P4 alle istanze N1 per uso generico con le seguenti configurazioni di istanza.
Tipo di acceleratore | Conteggio GPU | Memoria GPU1 (GB GDDR5) | Numero di vCPU | Memoria istanza (GB) | SSD locale supportato2 |
---|---|---|---|---|---|
nvidia-tesla-p4 o nvidia-tesla-p4-vws
|
1 | 8 | 1-24 | 1-156 | Sì |
2 | 16 | 1-48 | 1-312 | Sì | |
4 | 32 | 1-96 | 1-624 | Sì |
1 La memoria GPU è la memoria disponibile su una GPU che puoi utilizzare per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
2Per le istanze con GPU NVIDIA P4 collegate, i dischi SSD locali sono supportati solo nelle zone us-central1-c
e northamerica-northeast1-b
.
N1+GPU V100
Puoi collegare GPU NVIDIA V100 alle istanze N1 per uso generico con le seguenti configurazioni di istanza.
Tipo di acceleratore | Conteggio GPU | Memoria GPU1 (GB HBM2) | Numero di vCPU | Memoria istanza (GB) | SSD locale supportato2 |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1-12 | 1-78 | Sì |
2 | 32 | 1-24 | 1-156 | Sì | |
4 | 64 | 1-48 | 1-312 | Sì | |
8 | 128 | 1-96 | 1-624 | Sì |
1 La memoria GPU è la memoria disponibile su un dispositivo GPU che puoi utilizzare per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
2Per le istanze con GPU NVIDIA V100 collegate, i dischi SSD locali non sono supportati in us-east1-c
.
N1+GPU P100
Puoi collegare GPU NVIDIA P100 alle istanze N1 per uso generico con le seguenti configurazioni di istanza.
Per alcune GPU NVIDIA P100, la CPU e la memoria massime disponibili per alcune configurazioni dipendono dalla zona in cui è in esecuzione la risorsa GPU.
Tipo di acceleratore | Conteggio GPU | Memoria GPU1 (GB HBM2) | Zona | Numero di vCPU | Memoria istanza (GB) | SSD locale supportato |
---|---|---|---|---|---|---|
nvidia-tesla-p100 o nvidia-tesla-p100-vws
|
1 | 16 | Tutte le zone P100 | 1-16 | 1-104 | Sì |
2 | 32 | Tutte le zone P100 | Da 1 a 32 | 1-208 | Sì | |
4 | 64 | us-east1-c , europe-west1-d , europe-west1-b |
1-64 | 1-208 | Sì | |
Tutte le altre zone P100 | 1-96 | 1-624 | Sì |
1 La memoria GPU è la memoria disponibile su un dispositivo GPU che puoi utilizzare per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
Grafico di confronto generale
La seguente tabella descrive le dimensioni della memoria GPU, la disponibilità delle funzionalità e i tipi di workload ideali dei diversi modelli di GPU disponibili su Compute Engine.
Modello di GPU | Memoria GPU | Interconnessione | Supporto della workstation virtuale (vWS) NVIDIA RTX | Ideale per |
---|---|---|---|---|
GB200 | 180 GB HBM3e a 8 TBps | NVLink Full Mesh a 1800 GBps | Addestramento e inferenza distribuiti su larga scala di LLM, motori per suggerimenti e HPC | |
B200 | 180 GB HBM3e a 8 TBps | NVLink Full Mesh a 1800 GBps | Addestramento e inferenza distribuiti su larga scala di LLM, motori per suggerimenti e HPC | |
H200 | 141 GB HBM3e a 4,8 TBps | NVLink Full Mesh a 900 GBps | Modelli di grandi dimensioni con tabelle di dati estremamente grandi per addestramento ML, inferenza, HPC, BERT, DLRM | |
H100 | HBM3 da 80 GB a 3,35 TBps | NVLink Full Mesh a 900 GBps | Modelli di grandi dimensioni con tabelle di dati estremamente grandi per addestramento ML, inferenza, HPC, BERT, DLRM | |
A100 da 80 GB | HBM2e da 80 GB a 1,9 TBps | NVLink Full Mesh a 600 GBps | Modelli di grandi dimensioni con tabelle di dati estremamente grandi per addestramento ML, inferenza, HPC, BERT, DLRM | |
A100 da 40 GB | HBM2 da 40 GB a 1,6 TBps | NVLink Full Mesh a 600 GBps | Addestramento ML, inferenza, HPC | |
RTX PRO 6000 (anteprima) | GDDR7 da 96 GB con ECC a 1597 GBps | N/D | Inferenza ML, addestramento, workstation di visualizzazione remota, transcodifica video, HPC | |
L4 | GDDR6 da 24 GB a 300 GBps | N/A | Inferenza ML, addestramento, workstation di visualizzazione remota, transcodifica video, HPC | |
T4 | GDDR6 da 16 GB a 320 GBps | N/A | Inferenza ML, addestramento, workstation di visualizzazione remota, transcodifica video | |
V100 | HBM2 da 16 GB a 900 GBps | NVLink Ring a 300 GBps | Addestramento ML, inferenza, HPC | |
P4 | GDDR5 da 8 GB a 192 GBps | N/A | Workstation di visualizzazione remota, inferenza ML e transcodifica video | |
P100 | HBM2 da 16 GB a 732 GBps | N/A | Addestramento ML, inferenza, HPC, workstation di visualizzazione remota |
Per confrontare i prezzi delle GPU per i diversi modelli e le regioni disponibili su Compute Engine, consulta Prezzi delle GPU.
Grafico di confronto delle prestazioni
La tabella seguente descrive le specifiche di prestazioni dei diversi modelli di GPU disponibili su Compute Engine.
Prestazioni di computing
Modello di GPU | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 da 80 GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
A100 da 40 GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
L4 | 0,5 TFLOPS1 | 30,3 TFLOPS | ||
T4 | 0,25 TFLOPS1 | 8,1 TFLOPS | ||
V100 | 7,8 TFLOPS | 15,7 TFLOPS | ||
P4 | 0,2 TFLOPS1 | 5,5 TFLOPS | 22 TOPS2 | |
P100 | 4,7 TFLOPS | 9,3 TFLOPS | 18,7 TFLOPS |
1 Per consentire il corretto funzionamento del codice FP64, l'architettura delle GPU T4, L4 e P4 include un numero ridotto di unità hardware FP64.
2 Teraoperazioni al secondo.
Prestazioni Tensor Core
Modello di GPU | FP64 | TF32 | FP16/FP32 a precisione mista | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2500 TFLOPS2 | 5000 TFLOPS1, 2 | 10.000 TFLOPS2 | 20.000 TFLOPS2 | 10.000 TFLOPS2 |
B200 | 40 TFLOPS | 1100 TFLOPS2 | 4500 TFLOPS1, 2 | 9000 TFLOPS2 | 9000 TFLOPS2 | |
H200 | 67 TFLOPS | 989 TFLOPS2 | 1979 TFLOPS1, 2 | 3958 TOPS2 | 3958 TFLOPS2 | |
H100 | 67 TFLOPS | 989 TFLOPS2 | 1979 TFLOPS1, 2 | 3958 TOPS2 | 3958 TFLOPS2 | |
A100 da 80 GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
A100 da 40 GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS1 | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS2 | 242 TFLOPS1, 2 | 485 TOPS2 | 485 TFLOPS2 | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
1 Per l'addestramento con precisione mista, le GPU NVIDIA GB200, B200, H200, H100, A100 e L4 supportano anche il tipo di dati bfloat16
.
2Le GPU NVIDIA GB200, B200, H200, H100 e L4
supportano la sparsità strutturale. Puoi utilizzare la sparsità strutturale per raddoppiare le prestazioni
dei tuoi modelli. I valori documentati si applicano quando si utilizza la sparsità strutturata.
Se non utilizzi la sparsità strutturata, i valori vengono dimezzati.
Passaggi successivi
- Scopri di più sulle GPU di Compute Engine.
- Controlla la disponibilità delle GPU per regioni e zone.
- Esamina le larghezze di banda della rete e le GPU.
- Visualizza i dettagli dei prezzi delle GPU.