Delta Lake
S3, Azure data lake storage, HDFSなどのデータレイクファイルストレージに構築されるOSSのストレージレイヤー。1つのテーブルに対して、ストリーミング・バッチ処理の両方に対応できる。
構造化・非構造化データを単一システムに集約してデータサイロ(他からアクセスできないデータ)を解消する。コスト効率・スケーラビリティの高いレイクハウスを構築する。
Delta Lakeのデータは、オープンなParquet形式で保存される。AuditログやコミットログなどのメタデータはJSONで保持する。
ACID transactionが担保されている。
データスワンプ
どこに何があるかわからないようなデータベース。
データスワンプからの脱却
全てのデータの信頼できる単一情報源(Single Source Of Truth)を提供し、信頼性の高い最新のデータを組織で扱えるようにする。
オープンでセキュアなデータ共有
Delta sharingを使うことで、データの場所を問わず、組織内外でのデータ共有を容易にする。
データウェアハウス
構造化されたデータが格納されたストレージ。
データレイク
rawデータ、構造化データ、非構造化データをそのまま保存する。AI/MLなどで使用する。
データレイクハウス
データウェアハウスとデータレイクの良いとこどり。データウェアハウスのように構造的にデータを扱えるし、データレイクのように色々なデータを格納でき、スケールする。
テーブルの作りかた
テーブルの更新
データの更新も可能(gender="F"をgender="Female"にする、など)。
テーブルのSchemaを変更した場合
テーブルのSchemaを変更した場合、Delta lake上のテーブルを上書きすればOK。
疑問
delta lakeの競合となるツールはあるのか?