airflow

A collection of 8 posts
[airflow] 6. Multi cluster에서 airflow 실행하기
dev

[airflow] 6. Multi cluster에서 airflow 실행하기

Table of Contents * 요약 * airflow configuration * 두개의 인스턴스에서 각각 worker 실행하기 * task가 실행될 worker를 명시적으로 지정하기 * 1번 인스턴스에서 * 2번 인스턴스에서 * 참조 요약 * 다루는 내용 * 분산 인스턴스에서 각각 airflow worker를 실행하고 task를 분산해서 실행하는법 * task가 실행될 worker를 명시적으로 지정하는법 * 테스트 환경 * 두 개의 Amazon EC2 Instance 사용 * 1번 Instance에 아래와 같이
4 min read
[airflow] 5. Pyspark sample code on airflow
dev

[airflow] 5. Pyspark sample code on airflow

Airflow에서 Pyspark task 실행하기 Table of Contents * data_download, spark_job, sleep 총 3개의 task가 있다. * data_download가 완료된 후, 동시에 나머지 두개의 task가 실행되는 DAG이다. * 병렬로 task가 수행된다는걸 보여주기위해 sleep task를 만들었다. * gantt를 보면 data_download가 완료된 후, 동시에 나머지 두개의 task가 실행되는걸 확인할 수 있다. from airflow import
2 min read
[airflow] 4. CeleryExecutor 사용하기
dev

[airflow] 4. CeleryExecutor 사용하기

Airflow CeleryExecutor 사용하기 Table of Contents * Rabbitmq, Celery 설치 * Rabbitmq 설정 * airflow.cfg 수정 * localhost?? * meta db 설정 * 실행 * 참조 Airflow는 기본값으로 sqlite를 사용한다. sqlite에서는 SequentialExecutor만 설정가능하기에 DAG내에서 task의 병렬실행이 불가능하다. 병렬실행을 가능하게 하려면 LocalExecutor나 CeleryExecutor를 사용해야하는데 그러기위해선 Database를 Sqlite가 아닌 다른 Database를 사용해야 한다. Database설치&설정은 이전 글을
3 min read
[airflow] 3. LocalExecutor 사용하기
dev

[airflow] 3. LocalExecutor 사용하기

Airflow LocalExecutor 사용하기 Table of Contents * Postgres 설치 * Database 설정 * airflow.cfg 수정 * meta db 설정 * airflow initdb * 참조 Airflow는 기본값으로 sqlite를 사용한다. sqlite에서는 SequentialExecutor만 설정가능하기에 DAG내에서 task의 병렬실행이 불가능하다. 병렬실행을 가능하게 하려면 LocalExecutor나 CeleryExecutor를 사용해야하는데 그러기위해선 Database를 Sqlite가 아닌 다른 Database를 사용해야 한다. 이 글에선 postgres를 예로 들어 설명하겠다.
2 min read