Questa pagina fornisce indicazioni dettagliate sulla configurazione dell'accesso alla rete per le istanze Dataproc Metastore. La configurazione corretta della rete è essenziale per i cluster Dataproc e i workload Serverless per Apache Spark per comunicare in modo sicuro e privato con il servizio Dataproc Metastore gestito. Google Cloud
Per una panoramica più generale dei concetti di networking, consulta Panoramica del networking.
Concetti di networking chiave
Le istanze Dataproc Metastore in genere si trovano all'interno di una rete del producer di servizi gestita da Google e comunicano con la tua rete Virtual Private Cloud (VPC) utilizzando la connettività privata. Comprendere i seguenti concetti è fondamentale per una configurazione riuscita:
- Virtual Private Cloud condiviso:se i cluster Dataproc o i carichi di lavoro Serverless per Apache Spark si trovano in un progetto di servizio che utilizza una rete VPC condiviso di un progetto host, verifica che nel progetto host siano state apportate le configurazioni di rete appropriate. Per maggiori informazioni, consulta la panoramica del VPC condiviso.
- Accesso privato Google:le istanze Dataproc Metastore spesso si basano sull'accesso privato Google per la comunicazione privata con la tua rete VPC. In questo modo, le istanze di macchine virtuali (VM) nel tuo VPC possono connettersi alle API e ai servizi Google utilizzando indirizzi IP interni. Per saperne di più, consulta Accesso privato Google.
- Peering di rete VPC:questo meccanismo consente la connettività IP privata tra due reti VPC, consentendo alle risorse di una rete di comunicare con le risorse dell'altra utilizzando indirizzi IP interni. Dataproc Metastore stabilisce una connessione di peering di rete VPC gestita alla tua rete VPC nell'ambito della configurazione. Per ulteriori informazioni, consulta peering di rete VPC.
- Regole firewall:sono necessarie regole firewall appropriate per consentire il traffico tra i tuoi workload Dataproc e l'istanza Dataproc Metastore.
- Risoluzione DNS di Cloud DNS: verifica che la risoluzione DNS sia configurata correttamente all'interno della rete VPC per risolvere l'URI dell'endpoint Dataproc Metastore nel suo indirizzo IP privato.
Passaggi di configurazione
Per verificare l'accesso di rete corretto per l'istanza Dataproc Metastore, segui questi passaggi:
1. Configura l'accesso privato ai servizi
Dataproc Metastore utilizza l'accesso privato ai servizi per stabilire una connessione privata tra la tua rete VPC e la rete del producer di servizi gestito da Google in cui si trova l'istanza Dataproc Metastore.
- Verifica la connessione Private Service Access:
- Nella console Google Cloud , vai a Rete Virtual Private Cloud > Peering di reti VPC.
- Verifica che esista una connessione di peering denominata
servicenetworking-googleapis-com
e che il suo stato siaACTIVE
. - Se questa connessione non è presente o non è attiva, segui le istruzioni riportate in Configurazione dell'accesso privato ai servizi. Ciò include l'allocazione di un intervallo di indirizzi IP per la rete del producer di servizi.
2. Configurare le regole firewall
Verifica che le regole firewall nella tua rete VPC (o nel progetto host VPC condiviso, se applicabile) consentano il traffico necessario.
- Regola in uscita dal workload a Metastore:
- Verifica che una regola firewall in uscita consenta il traffico TCP in uscita dal cluster Dataproc o dai workload Serverless per Apache Spark all'intervallo di indirizzi IP dell'istanza Dataproc Metastore sulla porta
9083
. Questa è la porta predefinita per Hive Metastore. - Se utilizzi l'accesso privato ai servizi, questo traffico verrà instradato in modo privato.
- Verifica che una regola firewall in uscita consenta il traffico TCP in uscita dal cluster Dataproc o dai workload Serverless per Apache Spark all'intervallo di indirizzi IP dell'istanza Dataproc Metastore sulla porta
- Regole in entrata (meno comuni per client-to-Metastore):
- In genere, non è necessario configurare regole di ingresso sul VPC per il traffico da un'istanza Dataproc Metastore al tuo workload, poiché la comunicazione in genere ha origine dal workload. Tuttavia, verifica che regole in entrata eccessivamente restrittive non blocchino inavvertitamente le risposte necessarie.
3. Verifica la risoluzione DNS
I carichi di lavoro Dataproc devono risolvere l'URI dell'endpoint Dataproc Metastore nel suo indirizzo IP privato.
- Peering DNS o zone private:se utilizzi server DNS personalizzati o zone Cloud DNS private, verifica che le query DNS per l'endpoint Dataproc Metastore (ad esempio,
your-metastore-endpoint.us-central1.dataproc.cloud.google.com
) vengano inoltrate o risolte correttamente nell'intervallo IP privato utilizzato da Private Service Access. - Test della risoluzione DNS: da una VM all'interno della stessa subnet del tuo
carico di lavoro Dataproc, utilizza
nslookup
odig
per verificare che l'endpoint Dataproc Metastore venga risolto in un indirizzo IP privato.
Risoluzione dei problemi di connettività di rete
Se riscontri problemi di connettività dopo aver configurato l'accesso alla rete, prova a risolverli seguendo questi passaggi:
- Controlla lo stato di Dataproc Metastore:verifica che l'istanza Dataproc Metastore sia nello stato
HEALTHY
nella consoleGoogle Cloud . - Controlla Cloud Logging:esamina Cloud Logging per la tua istanza Dataproc Metastore e i carichi di lavoro Dataproc correlati per messaggi di errore relativi alla rete o timeout di connessione.
- Utilizza i test di connettività di Network Intelligence Center:utilizza i test di connettività di Google Cloud per diagnosticare il percorso di rete dalle VM del tuo workload Dataproc all'endpoint Dataproc Metastore.
- Consulta la sezione Risoluzione dei problemi generali:per una diagnostica di rete più dettagliata, consulta:
Passaggi successivi
- Scopri di più su Dataproc Metastore.
- Esamina le opzioni di networking di Dataproc.
- Comprendi il peering di rete VPC.