Dataflow 시작하기

Dataflow 서비스는 Apache Beam SDK로 정의한 파이프라인을 실행합니다. 하지만 많은 사용 사례에서는 SDK로 코드를 작성할 필요가 없습니다. Dataflow에서는 노 코드 및 로우 코드 옵션을 제공하기 때문입니다.

  • 템플릿. Dataflow는 서로 다른 제품 간에 데이터를 이동하기 위한 사전 빌드된 템플릿을 제공합니다. 예를 들어 템플릿을 사용하여 Pub/Sub에서 BigQuery로 데이터를 옮길 수 있습니다.

  • 작업 빌더. 작업 빌더는Google Cloud 콘솔 내에서 Dataflow 파이프라인을 시각적으로 빌드할 수 있는 UI 도구입니다. Apache Beam 소스 및 싱크의 하위 집합은 물론 조인, Python 함수, SQL 쿼리와 같은 변환을 지원합니다. 데이터 이동과 같은 간단한 사용 사례에는 작업 빌더를 사용하는 것이 좋습니다.

  • ML용 턴키 변환 머신러닝(ML) 파이프라인의 경우 Dataflow는 최소한의 코드만으로 구성할 수 있는 턴키 변환 기능을 제공합니다. 시작하려면 Google Colab에서 제공하는 ML 노트북 예시를 실행해 보세요. 자세한 내용은 Dataflow ML 개요를 참고하세요.

  • Apache Beam SDK Apache Beam의 모든 기능을 활용하려면 SDK를 사용해 Python, Java, Go로 커스텀 파이프라인을 작성하세요.

결정에 도움이 되도록 아래 표에 몇 가지 일반적인 예시를 정리해 두었습니다.

원하는 작업 권장 방법
커스텀 로직 없이 소스에서 싱크로 데이터를 이동합니다.

작업 빌더 또는 템플릿

작업 빌더로 시작하는 것이 좋습니다. 작업 빌더가 사용 사례를 지원하지 않는 경우 사용 사례에 맞는 템플릿이 있는지 확인하세요.

소스에서 싱크로 데이터를 이동하고 Python 함수 또는 SQL을 사용하여 커스텀 로직을 적용합니다. 작업 빌더
파이프라인에서 ML 모델을 사용하거나 학습 또는 추론을 위한 데이터를 준비합니다. Dataflow ML 턴키 변환
고급 Apache Beam 기능이 필요한 경우, 직접 파이프라인을 작성합니다. Java, Python 또는 Go용 Apache Beam SDK

다음 단계