Résoudre les problèmes liés à PyTorch – TPU

Ce guide fournit des informations de dépannage pour vous aider à identifier et à résoudre les problèmes que vous pouvez rencontrer lors de l'entraînement de modèles PyTorch sur Cloud TPU. Pour obtenir des conseils plus généraux pour faire vos premiers pas avec Cloud TPU, consultez le guide de démarrage rapide de PyTorch.

Résoudre les problèmes de lenteur d'entraînement

Si l'entraînement de votre modèle est lent, générez et examinez un rapport de métriques.

Pour analyser automatiquement le rapport des métriques et fournir un résumé, exécutez votre charge de travail avec PT_XLA_DEBUG=1.

Pour en savoir plus sur les problèmes susceptibles de ralentir l'entraînement de votre modèle, consultez Mises en garde connues concernant les performances.

Profilage des performances

Pour profiler votre charge de travail en profondeur afin d'identifier les goulots d'étranglement, consultez les ressources suivantes :

Autres outils de débogage

Vous pouvez spécifier des variables d'environnement pour contrôler le comportement de la pile logicielle PyTorch/XLA.

Si vous rencontrez un bug inattendu et avez besoin d'aide, Ouvrez une demande sur GitHub.

Gérer les tenseurs XLA

XLA Tensor Quirks décrit ce que vous devez et ne devez pas faire lorsque vous utilisez des tenseurs XLA et des pondérations partagées.