Cloud TPU-Umgebung einrichten

Bevor Sie mit den Cloud TPU-Ressourcen Modelle trainieren oder Inferenzen ausführen können, sind folgende Schritte notwendig:

Projekt in Google Cloud einrichten

Für die Nutzung von Cloud TPU benötigen Sie ein Konto und ein Projekt in Google Cloud .

  1. Melden Sie sich in der Google Cloud Console bei Ihrem Google-Konto an oder registrieren Sie sich für ein neues Konto.

  2. Erstellen Sie ein Projekt in Google Cloud . Weitere Informationen finden Sie unter Projekt erstellen.

  3. Aktivieren Sie die Abrechnung für Ihr Projekt in Google Cloud .

    Die Abrechnung muss für jede Nutzung von Google Cloud eingerichtet werden. Die Kosten werden Ihnen erst in Rechnung gestellt, wenn Sie Ressourcen von Google Cloud nutzen. Weitere Informationen finden Sie in der Dokumentation zu Cloud Billing.

    Die Abrechnung für die Nutzung aller Cloud TPU-Versionen erfolgt gemäß den regionalen Standardpreisen, die auf der Preisseite für Cloud TPU aufgeführt sind.

  4. Installieren Sie die Google Cloud CLI. Die Google Cloud CLI umfasst eine Reihe von Bibliotheken und Tools, mit denen Sie die Ressourcen und Dienste von Google Cloud nutzen und verwalten können.

  5. Konfigurieren Sie den Befehl gcloud, den Sie als Teil der Google Cloud CLI installiert haben.

    Führen Sie die folgenden Befehle aus, um gcloud für Ihr Projekt in Google Cloudzu konfigurieren.

    $ gcloud config set project PROJECT_ID
  6. Achten Sie darauf, dass die Abrechnung für Ihr Projekt in Google Cloud aktiviert ist.

    Die Abrechnung muss für jede Nutzung von Google Cloud eingerichtet werden. Die Kosten werden Ihnen erst in Rechnung gestellt, wenn Sie Ressourcen von Google Cloud nutzen. Weitere Informationen finden Sie in der Dokumentation zu Cloud Billing.

    Die Abrechnung für die Nutzung aller Cloud TPU-Versionen erfolgt gemäß den regionalen Standardpreisen, die auf der Preisseite für Cloud TPU aufgeführt sind.

Umgebung für Cloud TPU einrichten

Bevor Sie eine Cloud TPU anfordern, müssen Sie die Cloud TPU API aktivieren. Prüfen Sie, ob Sie die erforderlichen Berechtigungen zur Zugriffsverwaltung in Ihrem Projekt und zum Erstellen einer Cloud TPU haben. Außerdem wird empfohlen, ein vom Nutzer verwaltetes Dienstkonto zu erstellen, das Sie Ihrer TPU zuweisen können.

  1. Aktivieren Sie die Cloud TPU API über die Google Cloud Console oder die gcloud CLI in Cloud Shell:

    gcloud

    $ gcloud services enable tpu.googleapis.com

    Console

    1. Rufen Sie in der Google Cloud Console die Seite „Cloud TPU API“ auf.

    Seite „Cloud TPU API“ aufrufen

    1. Klicken Sie auf Aktivieren.
  2. Sie benötigen die folgenden Rollen für Ihr Projekt:

    Folgen Sie der Anleitung unter Aktuellen Zugriff ansehen, um zu sehen, welche Hauptkonten Zugriff auf Ihr Projekt, Ihren Ordner oder Ihre Organisation haben. Wenn Sie Ihren eigenen Zugriff sehen möchten, suchen Sie in der Spalte Hauptkonto nach der Zeile mit Ihrer E-Mail-Adresse. Ist Ihre E-Mail-Adresse nicht in dieser Spalte enthalten, sind Ihnen keine Rollen zugewiesen. Prüfen Sie in der Zeile mit Ihrer E-Mail-Adresse in der Spalte Rolle, ob die erforderlichen Rollen in der Liste aufgeführt sind.

    Wenn Ihne keine der erforderlichen Rollen zugewiesen wurde, weisen Sie die Rolle zu oder bitten Sie einen Administrator darum.

  3. Erstellen Sie einen Cloud TPU-Dienst-Agenten:

    Dienst-Agenten sind von Google verwaltete Dienstidentitäten, die vom Cloud TPU-Dienst genutzt werden, um in Ihrem Projekt in Google Cloud Vorgänge auszuführen. Der Dienst-Agent wird beispielsweise zum Erstellen und Verwalten von Cloud TPU-Ressourcen verwendet.

      $ gcloud beta services identity create --service tpu.googleapis.com --project PROJECT_ID
  4. Erstellen Sie ein TPU-Dienstkonto:

    Dienstkonten dienen als Anmeldedaten für Ihre TPU-VMs. Mit einem Dienstkonto verknüpfte Rollen gewähren Zugriff auf Ressourcen von Google Cloud . Wir empfehlen, ein vom Nutzer verwaltetes Dienstkonto zu erstellen und nur die für Ihre TPU-VM erforderlichen Berechtigungen zu erteilen. Vom Nutzer verwaltete Dienstkonten werden bei Erstellung einer TPU-VM mit dem Flag --service-account angegeben.

    1. Folgen Sie der Anleitung unter Dienstkonten erstellen, um ein vom Nutzer verwaltetes Dienstkonto zu erstellen.

    2. Folgen Sie der Anleitung unter Zugriff auf Projekte, Ordner und Organisationen verwalten, um Ihrem Dienstkonto Zugriff auf die Dienste von Google Cloud zu erteilen, auf die Ihre TPU zugreifen wird. Die folgenden Rollen werden empfohlen, damit Ihre TPU auf häufig verwendete Dienste vonGoogle Cloud zugreifen kann.

Erstellen einer Cloud TPU vorbereiten

Bevor Sie eine Cloud TPU erstellen, müssen Sie ein Kontingent beantragen. Überlegen Sie auch, ob Sie Ressourcen aus der Warteschlange verwenden möchten und welche Parameter Sie zur Konfiguration Ihrer TPU verwenden möchten.

  1. Wählen Sie eine Option für die Nutzung aus.

    Nutzungsoptionen sind die Methoden, mit denen Sie Cloud TPU-Kapazität anfordern können. Berücksichtigen Sie bei der Auswahl einer Nutzungsoption die folgenden Faktoren:

    • Wie schnell benötigen Sie die Kapazität?
    • Wie lange benötigen Sie die Kapazität?
    • Benötigen Sie die Kapazität für einen festen oder flexiblen Zeitraum?
    • Benötigen Sie Ihre Kapazität auf Abruf?
    • Preise

    Weitere Informationen finden Sie unter Cloud TPU-Nutzungsoptionen.

  2. Fordern Sie ein Kontingent an:

    TPU-Kontingente begrenzen die Anzahl der Cloud TPU-Kerne, die Sie für ein Projekt inGoogle Cloud verwenden können. Jede TPU-Version hat ihr eigenes Kontingent. Damit Sie eine Cloud TPU erstellen können, benötigt Ihr Projekt in Google Cloud ein Kontingent, das der Version und Größe der TPU entspricht, sowie auch der Zone, in der die TPU erstellt wird. Weitere Informationen zu Kontingentzuweisung, Kontingenttypen und Anfordern von Kontingenten finden Sie unter Kontingente.

    Wenn Sie TPUs mit der Google Kubernetes Engine oder Vertex AI erstellen, benötigen Sie stattdessen ein Kontingent für diese Dienste. Weitere Informationen zu GKE-Kontingenten finden Sie unter TPU-Konfiguration mit GKE planen. Weitere Informationen zu Vertex AI-Kontingenten finden Sie unter Vertex AI-Kontingente und ‑Limits.

  3. Entscheiden Sie, ob Sie Ressourcen in der Warteschlange verwenden möchten.

    Es hat sich bewährt, eine Cloud TPU als Ressource in der Warteschlange zu erstellen. Auf diese Weise erhalten Sie Kapazität, sobald diese verfügbar ist. Optional können Sie eine Start- und Endzeit für die Bearbeitung der Anfrage angeben.

    Für die Arbeit mit Ressourcen in der Warteschlange gibt es verschiedene gcloud CLI-Befehle. Weitere Informationen finden Sie in den Anleitungen zu In die Warteschlange gestellten Ressourcen.

  4. Legen Sie die Parameter für die Erstellung der Cloud TPU fest:

    • Zone: Setzen Sie das Flag --zone auf die Zone, in der Sie eine TPU erstellen möchten. In dieser Zone muss Ihnen ein Kontingent zugewiesen sein. Weitere Informationen finden Sie unter TPU-Regionen und -Zonen.

    • TPU-Konfiguration: Wenn Sie keine benutzerdefinierte Topologie angeben müssen oder TPU v2 oder v3 verwenden, setzen Sie das Flag --accelerator-type auf vVERSION-TENSORCORES. Ersetzen Sie VERSION durch die TPU-Versionsnummer, die Sie verwenden möchten. Ersetzen Sie TENSORCORES durch die Anzahl der TensorCores, die Sie verwenden möchten.

      Wenn Sie die physische Topologie Ihrer TPU anpassen möchten, verwenden Sie die Flags --version und --topology. Setzen Sie das Flag --version auf die TPU-Version, die Sie verwenden möchten. Setzen Sie das Flag --topology auf die gewünschte Topologie.

      Weitere Informationen zu TPU-Konfigurationen, einschließlich unterstützter Konfigurationen und Topologievarianten, finden Sie unter TPU-Versionen.

    • Softwareversion: Wenn Sie eine Ressource aus der Warteschlange anfordern, setzen Sie das Flag --runtime-version auf den Namen der Softwareversion, die Sie verwenden möchten. Verwenden Sie andernfalls das Flag --version. TPU-Softwareversionen sind für die Frameworks TensorFlow, PyTorch und JAX verfügbar. Weitere Informationen zu unterstützten Softwareversionen finden Sie unter TPU-VM-Softwareversionen.

    • Dienstkonto: Setzen Sie --service-account auf die E-Mail-Adresse eines Dienstkontos, falls Sie eines erstellt haben, um das Dienstkonto an Ihre TPU anzuhängen. Wenn das Feld leer ist, wird das Standarddienstkonto von Compute Engine verwendet.

    • Kontingenttyp: Fügen Sie das Flag hinzu, das dem gewünschten Kontingenttyp entspricht:

      Kontingenttyp Flag
      Reserviert --reserved
      Spot-VMs --spot
      Auf Abruf (nicht verfügbar für Ressourcen in der Warteschlange; verwenden Sie stattdessen --spot) --preemptible
      On demand Kein zusätzliches Flag erforderlich
    • Erweiterte Konfiguration: Sie können Ihrer Anfrage zusätzliche Flags hinzufügen, um Ihre TPU zu konfigurieren. Weitere Informationen finden Sie in der Dokumentation zu gcloud compute tpus tpu-vm create und in den folgenden Abschnitten:

Beispiele für das Erstellen einer Cloud TPU finden Sie unter Erste Schritte.

Nächste Schritte

  1. VM- und TPU-Ressourcen erstellen und verwalten
  2. Cloud TPU-Kurzanleitung ausführen