TPU-Ressourcen verwalten
Auf dieser Seite wird beschrieben, wie Sie Cloud TPUs mit der Create Node API erstellen, auflisten, stoppen, starten, löschen und eine Verbindung zu ihnen herstellen. Die Create Node API wird aufgerufen, wenn Sie den Befehl gcloud compute tpus tpu-vm create
mit der Google Cloud CLI ausführen und wenn Sie eine TPU über die Google Cloud Console erstellen. Wenn Sie die Create Node API verwenden, wird Ihre Anfrage sofort verarbeitet. Wenn nicht genügend Kapazität verfügbar ist, um Ihre Anfrage zu erfüllen, schlägt die Anfrage fehl.
Als Best Practice wird empfohlen, TPUs mit Ressourcen in der Warteschlange anstelle der Create Node API zu erstellen. Wenn Sie in die Warteschlange gestellte Ressourcen anfordern, wird die Anfrage einer vom Cloud TPU-Dienst verwalteten Warteschlange hinzugefügt. Wenn die angeforderte Ressource verfügbar wird, wird sie Ihrem Projekt in Google Cloud zugewiesen und steht Ihnen sofort zur exklusiven Nutzung zur Verfügung. Weitere Informationen finden Sie unter In die Warteschlange gestellte Ressourcen verwalten.
Wenn Sie Multislice verwenden, müssen Sie Ressourcen in der Warteschlange verwenden. Weitere Informationen finden Sie unter Einführung in Multislice.
Wenn Sie die Google Kubernetes Engine (GKE) zum Verwalten von TPU-Ressourcen verwenden möchten, müssen Sie zuerst einen GKE-Cluster erstellen. Anschließend fügen Sie Ihrem Cluster Knotenpools mit TPU-Slices hinzu. Weitere Informationen finden Sie unter TPUs in der GKE.
Vorbereitung
Bevor Sie diese Schritte ausführen, müssen Sie Folgendes tun:
Installieren Sie die Google Cloud CLI, erstellen Sie ein Projekt in Google Cloud und aktivieren Sie die Cloud TPU API. Eine Anleitung dazu finden Sie unter Cloud TPU-Umgebung einrichten.
Wenn Sie eine der Cloud-Clientbibliotheken verwenden, folgen Sie der Einrichtungsanleitung für die verwendete Sprache:
Damit Sie das Flag
--project
nicht in jedem gcloud CLI-Befehl festlegen müssen, verwenden Sie den Befehlgcloud config set
, um die Projekt-ID in Ihrer aktiven Konfiguration festzulegen:gcloud config set project project-id
Ersetzen Sie project-id durch den Namen Ihres Projekts in Google Cloud .
Cloud TPU mit der Create Node API erstellen
Sie können eine Cloud TPU mit gcloud
, der Google Cloud Console oder der Cloud TPU API erstellen.
Beim Erstellen einer Cloud TPU müssen Sie die TPU-Softwareversion (auch als Laufzeitversion bezeichnet) angeben. Informationen dazu, welche Softwareversion Sie verwenden sollten, finden Sie unter TPU-Softwareversionen.
Außerdem müssen Sie die TPU-Konfiguration in Bezug auf TensorCores oder TPU-Chips angeben. Weitere Informationen finden Sie im Abschnitt für die von Ihnen verwendete TPU-Version unter Systemarchitektur.
gcloud
.Verwenden Sie zum Erstellen einer TPU mit der Create Node API den Befehl gcloud compute tpus tpu-vm create
.
Wenn Sie bestimmte interne oder externe IP-Adressen konfigurieren möchten, folgen Sie der Anleitung unter Externe und interne IP-Adressen.
Im folgenden Befehl wird eine v5litepod-8-TPU (v5e) verwendet:
$ gcloud compute tpus tpu-vm create tpu-name \ --zone=us-central2-b \ --accelerator-type=v5litepod-8 \ --version=tpu-software-version
Beschreibungen der Befehls-Flags
zone
- Die Zone, in der Sie Ihre Cloud TPU erstellen möchten.
accelerator-type
- Der Beschleunigertyp gibt die Version und Größe der Cloud TPU an, die Sie erstellen möchten. Weitere Informationen zu den unterstützten Beschleunigertypen für die einzelnen TPU-Versionen finden Sie unter TPU-Versionen.
version
- Die Version der TPU-Software.
shielded-secure-boot
(optional)- Gibt an, dass die TPU-Instanzen mit aktiviertem Secure Boot erstellt werden. Dadurch werden sie implizit zu Shielded VM-Instanzen. Unter Was ist Shielded VM? finden Sie weitere Informationen.
Console
Rufen Sie in der Google Cloud Console die Seite TPUs auf:
Klicken Sie auf TPU erstellen.
Geben Sie im Feld Name einen Namen für die TPU ein.
Wählen Sie im Feld Zone die Zone aus, in der die TPU erstellt werden soll.
Wählen Sie im Feld TPU-Typ einen Beschleunigertyp aus. Der Beschleunigertyp gibt die Version und Größe der Cloud TPU an, die Sie erstellen möchten. Weitere Informationen zu den unterstützten Beschleunigertypen für die einzelnen TPU-Versionen finden Sie unter TPU-Versionen.
Wählen Sie im Feld Version der TPU-Software eine Softwareversion aus. Beim Erstellen einer Cloud TPU-VM gibt das Feld „Version der TPU-Software“ die Version der zu installierenden TPU-Laufzeit an. Weitere Informationen finden Sie unter TPU-Softwareversionen.
Klicken Sie auf Erstellen, um Ihre Ressourcen zu erstellen.
curl
Im folgenden Befehl wird curl
verwendet, um eine TPU zu erstellen.
$ curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" -d "{accelerator_type: 'v5litepod-8', \ runtime_version:'tpu-vm-tf-2.17.1-pjrt', \ network_config: {enable_external_ips: true}, \ shielded_instance_config: { enable_secure_boot: true }}" \ https://tpu.googleapis.com/v2/projects/project-id/locations/us-central2-b/nodes?node_id=node_name
Pflichtfelder
runtime_version
- Die Version der Cloud TPU-Laufzeit, die Sie verwenden möchten.
project-id
- Der Name Ihres registrierten Projekts in Google Cloud .
zone
- Die Zone, in der Sie die Cloud TPU erstellen.
node_name
- Der Name der TPU-VM, die Sie erstellen.
Java
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Startskript ausführen
gcloud
Sie können ein Startskript auf jeder TPU-VM ausführen, indem Sie beim Erstellen der TPU-VM das Flag --metadata startup-script
angeben. Mit dem folgenden Befehl wird eine TPU-VM mit einem Startskript erstellt.
$ gcloud compute tpus tpu-vm create tpu-name \ --zone=us-central2-b \ --accelerator-type=v5litepod-8 \ --version=tpu-software-version \ --metadata startup-script='#! /bin/bash pip3 install numpy EOF'
Java
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Verbindung zu einer Cloud TPU herstellen
Sie können über SSH eine Verbindung zu einer Cloud TPU herstellen.
Wenn Sie keine Verbindung zu einer TPU-VM über SSH herstellen können, liegt das möglicherweise daran, dass die TPU-VM keine externe IP-Adresse hat. Wenn Sie auf eine TPU-VM ohne externe IP-Adresse zugreifen möchten, folgen Sie der Anleitung unter Verbindung zu einer TPU-VM ohne öffentliche IP-Adresse herstellen.
gcloud
Stellen Sie über SSH eine Verbindung zu Ihrer Cloud TPU her:
$ gcloud compute tpus tpu-vm ssh tpu-name --zone=zone
Wenn Sie ein Slice anfordern, das größer als ein einzelner Host ist, erstellt Cloud TPU für jeden Host eine TPU-VM. Die Anzahl der TPU-Chips pro Host hängt von der TPU-Version ab.
Wenn Sie Binärprogramme installieren oder Code ausführen möchten, stellen Sie mit tpu-vm ssh command
eine Verbindung zu den einzelnen TPU-VMs her.
$ gcloud compute tpus tpu-vm ssh tpu-name --zone=zone
Wenn Sie über SSH eine Verbindung zu einer bestimmten TPU-VM herstellen möchten, verwenden Sie das Flag --worker
, dem ein 0-basierter Index folgt:
$ gcloud compute tpus tpu-vm ssh tpu-name --zone=zone --worker=1
Wenn Sie einen Befehl auf allen TPU-VMs mit einem einzigen Befehl ausführen möchten, verwenden Sie die Flags --worker=all
und --command
:
$ gcloud compute tpus tpu-vm ssh tpu-name \ --zone=zone \ --worker=all \ --command='pip install "jax[tpu]==0.4.20" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Bei Multislice können Sie einen Befehl auf einer einzelnen VM ausführen. Verwenden Sie dazu den aufgezählten TPU-Namen mit dem jeweiligen Slice-Präfix und der angehängten Nummer. Wenn Sie einen Befehl auf allen TPU-VMs in allen Slices ausführen möchten, verwenden Sie die Flags --node=all
, --worker=all
und --command
mit dem optionalen Flag --batch-size
.
$ gcloud compute tpus queued-resources ssh ${QUEUED_RESOURCE_ID} \ --zone=zone \ --node=all \ --worker=all \ --command='pip install jax[tpu] -f https://storage.googleapis.com/jax-releases/libtpu_releases.html' \ --batch-size=4
Console
So stellen Sie über SSH im Browser eine Verbindung zu Ihren TPUs in der Google Cloud Console her:
Rufen Sie in der Google Cloud Console die Seite TPUs auf:
Klicken Sie in der Liste der TPU-VMs in der Zeile der TPU-VM, zu der Sie eine Verbindung herstellen möchten, auf SSH.
Cloud TPU-Ressourcen auflisten
Sie können alle Ihre Cloud TPUs in einer bestimmten Zone auflisten.
gcloud
$ gcloud compute tpus tpu-vm list --zone=zone
Console
Rufen Sie in der Google Cloud Console die Seite TPUs auf:
Java
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Informationen zu Ihrer Cloud TPU abrufen
Sie können Informationen zu einer angegebenen Cloud TPU abrufen.
gcloud
$ gcloud compute tpus tpu-vm describe tpu-name \ --zone=zone
Console
Rufen Sie in der Google Cloud Console die Seite TPUs auf:
Klicken Sie auf den Namen Ihrer Cloud TPU. In der Console wird die Cloud TPU-Detailseite angezeigt.
Java
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Cloud TPU-Ressourcen anhalten
Sie können eine Cloud TPU anhalten, um weitere Gebühren zu vermeiden, ohne die Konfiguration und Software Ihrer VM zu verlieren.
gcloud
$ gcloud compute tpus tpu-vm stop tpu-name \ --zone=zone
Console
Rufen Sie in der Google Cloud Console die Seite TPUs auf:
Klicken Sie auf das Kästchen neben Ihrer Cloud TPU.
Klicken Sie auf
Beenden.
Java
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Cloud TPU-Ressourcen starten
Sie können eine Cloud TPU starten, wenn sie angehalten wurde.
gcloud
$ gcloud compute tpus tpu-vm start tpu-name \ --zone=zone
Console
Rufen Sie in der Google Cloud Console die Seite TPUs auf:
Klicken Sie auf das Kästchen neben Ihrer Cloud TPU.
Klicken Sie auf
Starten.
Java
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Cloud TPU löschen
Löschen Sie Ihre TPU-VM-Slices am Ende der Sitzung.
gcloud
$ gcloud compute tpus tpu-vm delete tpu-name \ --zone=zone \ --quiet
Beschreibungen der Befehls-Flags
zone
- Die Zone, in der Sie die Cloud TPU löschen möchten.
quiet
- Deaktiviert alle interaktiven Eingabeaufforderungen beim Ausführen von gcloud CLI-Befehlen.
Console
Rufen Sie in der Google Cloud Console die Seite TPUs auf:
Klicken Sie auf das Kästchen neben Ihrer Cloud TPU.
Klicken Sie auf
Löschen.
Java
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei Cloud TPU zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.