データサービス

一般

データサービスにより、データシチズンは BI 目的で使用できるデータエステート全体のデータを効率的に使用できるようになります。これは、データを取得、変換し、最終的に提供するための統合されたツールセットを提供することによって行われます。

このリリースでは、IFS データサービスは以下の主要なサービスの組み合わせです。

データレイクサービス
データパイプラインサービス

これらはマルチテナントサービスです。このリリースで開始された主なIFS Cloud Web 機能は、特定のユースケースに合わせて、データパイプラインを介してデータレイクにデータをロードし、強化、クレンジング、変換する機能を提供します。データサービス関連の機能は、IFS.ai プラットフォームに依存します。

背景情報

1) データレイク

データサービスの主なデータストアは、データレイク (ADLS Gen 2) になります。このデータレイクは、さまざまな要件 (分析ベースのソリューション、インデックス作成用のドキュメント) に基づいてデータを保持します。生データはデータレイクに取り込まれ、ESG / Copilot の特定のユースケースに合わせてデータパイプラインを介して強化および変換されます。

2) データポンプ

データポンプは実際のデータの移動と Parquet ファイルの生成を実行します。Oracle データベースからデータを読み取ります。作成された Parquet ファイルは、データレイクサービスに送信され、その後、特定のデータレイクに送信されます。

3) データレイクサービス

Data Lake サービスを使用すると、指定したファイルを Cloud Storage からアップロードまたはダウンロード、Cloud Storage でメタデータ関連の詳細を追加、更新、取得したり、Cloud Storage 内の指定したコンテナーとパスに従ってストレージ階層を一覧表示したりできます (現在は Azure Data Lake Storage のみをサポートしています)。テナント情報はサービスによって決定されます。

4) データパイプラインサービス

データパイプラインサービスは、複数のスクリプトをオーケストレーションできるデータパイプライン (ワークフロー) を開始するために使用されます。テナント情報はデータパイプラインサービスによって決定され、データレイクと接続情報がワークフローに渡されます。

5) ワークフロー

データサービスは、ワークフローを使用してスクリプトの実行フローを調整します。

6) ワークロードジョブ定義

IFS Cloud Web のワークロードジョブ定義ページを使用して、データレイクにデータをロードし、データパイプラインサービスを介してデータパイプラインを開始できます。ワークロードジョブ定義は、データソースとワークフロー (アクション) で構成されます。さらに、カスタムワークロードジョブ定義を作成して、データソースのセットのみをターゲットデータレイクにロードすることもできます。

IFS Cloud Web で利用できるその他の機能は次のとおりです。

ワークロードジョブ定義の作成
ワークロードジョブ定義の管理
ワークロードジョブ定義の実行
ワークロードの実行とログの表示