Les grands modèles de langage
-
Inférence JetStream MaxText sur v6e
Guide de configuration et d'utilisation de JetStream avec MaxText pour l'inférence sur v6e.
-
Inférence JetStream PyTorch sur v6e
Guide de configuration et d'utilisation de JetStream avec PyTorch pour l'inférence sur v6e.
-
Inférence vLLM sur v6e
Guide de configuration et d'utilisation de vLLM pour l'inférence sur v6e.
-
Mettre en service un LLM à l'aide de TPU sur GKE avec vLLM
Guide d'utilisation de vLLM pour mettre en service des grands modèles de langage (LLM) à l'aide de Tensor Processing Units (TPU) sur Google Kubernetes Engine (GKE).