Configurer l'accès au réseau pour Dataproc Metastore

Cette page fournit des conseils détaillés sur la configuration de l'accès réseau pour vos instances Dataproc Metastore. Une configuration réseau correcte est essentielle pour que les clusters Dataproc et les charges de travail Google Cloud Serverless pour Apache Spark communiquent de manière sécurisée et privée avec votre service Dataproc Metastore géré.

Pour une présentation plus générale des concepts de mise en réseau, consultez Présentation de la mise en réseau.

Concepts clés de mise en réseau

Les instances Dataproc Metastore résident généralement dans un réseau de producteurs de services géré par Google et communiquent avec votre réseau de cloud privé virtuel (VPC) à l'aide d'une connectivité privée. Il est essentiel de comprendre les concepts suivants pour réussir la configuration :

  • Cloud privé virtuel partagé : si vos clusters Dataproc ou vos charges de travail Serverless pour Apache Spark se trouvent dans un projet de service qui utilise un réseau VPC partagé d'un projet hôte, vérifiez que les configurations réseau appropriées sont effectuées dans le projet hôte. Pour en savoir plus, consultez la section Présentation du VPC partagé.
  • Accès privé à Google : les instances Dataproc Metastore s'appuient souvent sur l'accès privé à Google pour communiquer de manière privée avec votre réseau VPC. Cela permet aux instances de machine virtuelle (VM) de votre VPC de se connecter aux API et services Google à l'aide d'adresses IP internes. Pour en savoir plus, consultez Accès privé à Google.
  • Appairage de réseaux VPC : ce mécanisme permet la connectivité IP privée entre deux réseaux VPC, ce qui permet aux ressources d'un réseau de communiquer avec les ressources de l'autre à l'aide d'adresses IP internes. Lors de sa configuration, Dataproc Metastore établit une connexion d'appairage de réseaux VPC gérée à votre réseau VPC. Pour en savoir plus, consultez la section Appairage de réseaux VPC.
  • Règles de pare-feu : des règles de pare-feu appropriées sont nécessaires pour autoriser le trafic entre vos charges de travail Dataproc et l'instance Dataproc Metastore.
  • Résolution Cloud DNS : vérifiez que la résolution DNS est correctement configurée dans votre réseau VPC pour résoudre l'URI du point de terminaison Dataproc Metastore en son adresse IP privée.

Étapes de configuration

Pour vérifier que votre instance Dataproc Metastore dispose d'un accès réseau approprié, procédez comme suit :

1. Configurer l'accès aux services privés

Dataproc Metastore utilise l'accès privé aux services pour établir une connexion privée entre votre réseau VPC et le réseau de producteur de services géré par Google dans lequel réside votre instance Dataproc Metastore.

  • Valider une connexion d'accès aux services privés :
    1. Dans la console Google Cloud , accédez à Réseau de cloud privé virtuel > Appairage de réseaux VPC.
    2. Vérifiez qu'une connexion d'appairage nommée servicenetworking-googleapis-com existe et que son état est ACTIVE.
    3. Si cette connexion est manquante ou inactive, suivez les instructions de la section Configurer l'accès aux services privés. Cela inclut l'allocation d'une plage d'adresses IP pour le réseau du producteur de services.

2. Configurer les règles de pare-feu

Vérifiez que les règles de pare-feu de votre réseau VPC (ou du projet hôte de VPC partagé, le cas échéant) autorisent le trafic nécessaire.

  • Règle de sortie de la charge de travail vers le metastore :
    • Vérifiez qu'une règle de pare-feu de sortie autorise le trafic TCP sortant de votre cluster Dataproc ou de vos charges de travail Serverless pour Apache Spark vers la plage d'adresses IP de votre instance Dataproc Metastore sur le port 9083. Il s'agit du port par défaut pour Hive Metastore.
    • Si vous utilisez l'accès aux services privés, ce trafic sera acheminé de manière privée.
  • Règles d'entrée (moins courantes pour les clients vers le metastore) :
    • En règle générale, vous n'avez pas besoin de configurer de règles d'entrée sur votre VPC pour le trafic depuis l'instance Dataproc Metastore vers votre charge de travail, car la communication provient généralement de la charge de travail. Toutefois, vérifiez qu'aucune règle d'entrée trop restrictive ne bloque par inadvertance les réponses nécessaires.

3. Vérifier la résolution DNS

Vos charges de travail Dataproc doivent résoudre l'URI du point de terminaison Dataproc Metastore en son adresse IP privée.

  • Appairage DNS ou zones privées : si vous utilisez des serveurs DNS personnalisés ou des zones Cloud DNS privées, vérifiez que les requêtes DNS pour le point de terminaison Dataproc Metastore (par exemple, your-metastore-endpoint.us-central1.dataproc.cloud.google.com) sont correctement transférées ou résolues vers la plage d'adresses IP privées utilisée par l'accès privé aux services.
  • Tester la résolution DNS : à partir d'une VM du même sous-réseau que votre charge de travail Dataproc, utilisez nslookup ou dig pour vérifier que le point de terminaison Dataproc Metastore est résolu en adresse IP privée.

Résoudre les problèmes de connectivité réseau

Si vous rencontrez des problèmes de connectivité après avoir configuré l'accès au réseau, suivez les étapes de dépannage ci-dessous :

Étapes suivantes