Data Engineering Glossary
Glossary:
- Serialize and Deserialize
- Partitioning, Sharding, Replication
- ETL
- Batch and Real-Time processing
- Database transaction
- ACID
Serialize and Deserialize
Serialize
データ(オブジェクト)を特定の形式(バイト列)に変換し、ファイル(データベース)に格納する、または変換されたデータをネットワークに転送するプロセス。
Deserialize
Serializeの逆で、変換されたデータをデータに復元するプロセス。
References
Partitioning, Sharding, Replication
Partitioning
データ要素を複数のエンティティに分割すること。
Sharding(horizontal partitioning)
スキーマが共通で、データの範囲を決めて、データを分割すること。
Vertical partitioning
スキーマを切り分けて、あるエンティティに格納されたデータを複数のエンティティに分割すること。
Replication
複数のノードでデータを複製する方法
References
ETL
ETL(extract, transform and load) とは、データウェアハウスにデータを入れること。
References
Batch and Real-Time processing
Batch Process
すべての入力を受け取り、指定された時間および出力を完了した後にデータ処理すること。
Real-Time process
入力が受信されるとすぐにデータ処理すること。
Database transaction
トランザクションは、最小処理単位とみなされるタスクの集合である。
データベーストランザクションとは、トランザクションアクションに対して、全てのタスクを処理されるか、まったく処理されないかのどちらかです。
ACID
ACID(Atomicity, Consistency, Isolation, Durability)とは、データベーストランザクションを実現させるための特性である。
Atomicity(原子性)
トランザクションが中断されると、連携されているデータに何も変更が起きないということ。
Consistency(一貫性)
トランザクションの前と後のデータの状態(適合性)が変わらないこと。
Isolation(独立性)
トランザクション中に行われる操作は他のトランザクションに影響を与えない事を保証します。
Durability(永続性)
ランザクション処理結果は永続的であること。
Atomicityではトランザクションが中断されると結果はデータに反映されないが、Durabilityではトランザクションが完了すると結果がデータに永続的に反映された状態になる。