Cloud Data Fusion fornisce un plug-in di origine del Catalogo universale Dataplex per leggere i dati delle entità (tabelle) del Catalogo universale Dataplex che risiedono in asset Cloud Storage o BigQuery. Il plug-in Origine Catalogo universale Dataplex consente di trattare i dati negli asset Cloud Storage come tabelle e filtrare i dati con query SQL.
Prima di iniziare
Crea un'istanza Cloud Data Fusion, se non ne hai una. Questo plug-in è disponibile nelle istanze che vengono eseguite in Cloud Data Fusion versione 6.6 o successive.
I dati di origine devono già far parte di una zona e di un asset (un bucket Cloud Storage o un set di dati BigQuery) del Catalogo universale Dataplex.
Per utilizzare le tabelle di Cloud Storage, devi configurare un metastore per il tuo lake.
Affinché i dati vengano letti dalle entità Cloud Storage, Dataproc Metastore deve essere collegato al lake.
I dati CSV nelle entità Cloud Storage non sono supportati.
Nel progetto Dataplex Universal Catalog, attiva l'accesso privato Google sulla subnet, che di solito è impostata su
default
, o impostainternal_ip_only
sufalse
.
Limitazioni
Per gli asset Cloud Storage: questo plug-in non supporta la lettura da file CSV. Supporta la lettura dai formati JSON, Avro, Parquet e ORC.
Per gli asset Cloud Storage: Data di inizio partizione e Data di fine partizione non sono applicabili.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per gestire i ruoli, chiedi all'amministratore di concederti i seguenti ruoli IAM per l'agente di servizio Dataproc e l'agente di servizio Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Sviluppatore Dataplex (
roles/dataplex.developer
) -
Dataplex Data Reader (
roles/dataplex.dataReader
) -
Dataproc Metastore Metadata User (
roles/metastore.metadataUser
) -
Cloud Dataplex Service Agent (
roles/dataplex.serviceAgent
) -
Dataplex Metadata Reader (
roles/dataplex.metadataReader
)
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Aggiungi il plug-in alla pipeline
Nella console Google Cloud , vai alla pagina Istanze di Cloud Data Fusion.
Questa pagina ti consente di gestire le tue istanze.
Fai clic su Visualizza istanza per aprire l'istanza nell'interfaccia utente di Cloud Data Fusion.
Vai alla pagina Studio, espandi il menu Origine e fai clic su Dataplex.
Configurare il plug-in
Dopo aver aggiunto questo plug-in alla pipeline nella pagina Studio, fai clic sull'origine Dataplex Universal Catalog per configurarne le proprietà.
Per ulteriori informazioni sulle configurazioni, consulta la guida di riferimento Origine Dataplex.
(Facoltativo) Inizia a utilizzare una pipeline di esempio
Sono disponibili pipeline di esempio, tra cui una pipeline di origine SAP a una pipeline sink di Dataplex Universal Catalog e una pipeline di origine Dataplex Universal Catalog a una pipeline sink di BigQuery.
Per utilizzare una pipeline di esempio, apri l'istanza nella UI di Cloud Data Fusion, fai clic su Hub > Pipeline e seleziona una delle pipeline di Dataplex Universal Catalog. Si apre una finestra di dialogo che ti aiuta a creare la pipeline.
Passaggi successivi
- Importa dati con Cloud Data Fusion utilizzando il plug-in Sink del Catalogo universale Dataplex.