一般社団法人 全国個人事業主支援協会

COLUMN コラム

石原です。

12月は中旬くらいまで、お客様に提供するAWSの運用項目の見直しをやったり、お客様の要望でAmazon MWAA触ったり取引先へのデータ転送方式を考えたり等セカセカやってましたが、以降はまったりな感じです。

今年も終わりですねー。

Amazon MWAA (Managed Workflows for Apache Airflow) に関してはお客様側で実行するための権限や環境設定がメインなのですが、そもそもどういう仕組みで何をするものなのか?を理解していなかったのでざっくり調べました。

・Apache Airflow
ワークフローを作成、実行、監視するためのプラットフォーム。
ざっくりデータ処理や定期ジョブをいい感じでやってくれる仕組み。
DAGという形式で管理し、Pythonで記述する。

・アーキテクチャー
スケジューラー:ワークフローとタスク状態を監視
ワーカー:スケジューラーから指示されたタスクの実行
ウェブサーバー:ワークフローとタスクの管理、実行、デバッグ用のUI
メタデータ・データべース:スケジューラー、ワーカー、ウェブサーバーの状態を保存する

・DAG
タスクフロー
「タスクA → B → C → D」のような流れを依存関係含めてまとめて管理できる

・Task
DAGを構成する個々の処理

・Operator
定義済みのタスクのテンプレート、例としてこんなんがあるみたい
PythonOperator(Python関数を実行)
BashOperator(bashコマンドを実行)
EmailOperator(メール送信)
SimpleHttpOperator(HTTPリクエストを実行)

・Amazon MWAA
マネージドサービス: Apache Airflow環境の自動セットアップ・管理
ワークフロー定義: S3バケットにDAGを配置するだけで実行可能
自動スケーリング: ワークロードに応じてワーカー数を自動で増減
セキュリティ: プライベートVPC・エンドポイント利用可、IAM制御、KMSによるデータ暗号化
豊富なAWS統合: AWS Glue, Lambda, S3, Redshift, SageMaker等多数オペレーターが内蔵
モニタリング: CloudWatchと連携し、ログやメトリクスを監視・分析
最新バージョン: Python 3.12やApache Airflow 3のサポートあり

とのことです。
総括として、色々(VPCエンドポイントや権限回り)ドキュメントと睨めっこが必要で環境立ち上げるまでしんどかったです。。

データ転送についてはCloud to Cloudストレージとなるので、何か良い方法ないかなーと探しているとRcloneという鉄板ツールがあるみたいですね。
https://rclone.org/

まだ確認しきれてないので、年明けからぼちぼち確認して対応していく形になりそうです。

ではでは

The following two tabs change content below.

石原 真裕

2021年からフリーランスとしてインフラ系のSEをやっております。よろしくお願いいたします。

最新記事 by 石原 真裕 (全て見る)

この記事をシェアする

  • Twitterでシェア
  • Facebookでシェア
  • LINEでシェア