Delta Lakeのdocumentを読んだメモ

Delta Lake

S3, Azure data lake storage, HDFSなどのデータレイクファイルストレージに構築されるOSSのストレージレイヤー。1つのテーブルに対して、ストリーミング・バッチ処理の両方に対応できる。

構造化・非構造化データを単一システムに集約してデータサイロ(他からアクセスできないデータ)を解消する。コスト効率・スケーラビリティの高いレイクハウスを構築する。

Delta Lakeのデータは、オープンなParquet形式で保存される。AuditログやコミットログなどのメタデータJSONで保持する。

ACID transactionが担保されている。

データスワンプ

どこに何があるかわからないようなデータベース。

データスワンプからの脱却

全てのデータの信頼できる単一情報源(Single Source Of Truth)を提供し、信頼性の高い最新のデータを組織で扱えるようにする。

オープンでセキュアなデータ共有

Delta sharingを使うことで、データの場所を問わず、組織内外でのデータ共有を容易にする。

 

データウェアハウス

構造化されたデータが格納されたストレージ。

データレイク

rawデータ、構造化データ、非構造化データをそのまま保存する。AI/MLなどで使用する。

データレイクハウス

データウェアハウスとデータレイクの良いとこどり。データウェアハウスのように構造的にデータを扱えるし、データレイクのように色々なデータを格納でき、スケールする。

 

テーブルの作りかた

Spark SQLDDLを定義する。

テーブルの更新

データの更新も可能(gender="F"をgender="Female"にする、など)。

テーブルのSchemaを変更した場合

テーブルのSchemaを変更した場合、Delta lake上のテーブルを上書きすればOK。

 

疑問

delta lakeの競合となるツールはあるのか?