Glossary:

Serialize and Deserialize

Serialize

データ(オブジェクト)を特定の形式(バイト列)に変換し、ファイル(データベース)に格納する、または変換されたデータをネットワークに転送するプロセス。

Deserialize

Serializeの逆で、変換されたデータをデータに復元するプロセス。

serialize-deserialize

References

Partitioning, Sharding, Replication

Partitioning

データ要素を複数のエンティティに分割すること。

Sharding(horizontal partitioning)

スキーマが共通で、データの範囲を決めて、データを分割すること。

Vertical partitioning

スキーマを切り分けて、あるエンティティに格納されたデータを複数のエンティティに分割すること。

Replication

複数のノードでデータを複製する方法

replica-partition.jpg

References

ETL

ETL(extract, transform and load) とは、データウェアハウスにデータを入れること。

etl.png

References

Batch and Real-Time processing

Batch Process

すべての入力を受け取り、指定された時間および出力を完了した後にデータ処理すること。

Real-Time process

入力が受信されるとすぐにデータ処理すること。

Database transaction

トランザクションは、最小処理単位とみなされるタスクの集合である。

データベーストランザクションとは、トランザクションアクションに対して、全てのタスクを処理されるか、まったく処理されないかのどちらかです。

ACID

ACID(Atomicity, Consistency, Isolation, Durability)とは、データベーストランザクションを実現させるための特性である。

Atomicity(原子性)

トランザクションが中断されると、連携されているデータに何も変更が起きないということ。

Consistency(一貫性)

トランザクションの前と後のデータの状態(適合性)が変わらないこと。

Isolation(独立性)

トランザクション中に行われる操作は他のトランザクションに影響を与えない事を保証します。

Durability(永続性)

ランザクション処理結果は永続的であること。

Atomicityではトランザクションが中断されると結果はデータに反映されないが、Durabilityではトランザクションが完了すると結果がデータに永続的に反映された状態になる。

References

CAP

BASE

RDBMS

NoSQL

Data Warehouse

Managed, Enterprise, On-Premise

Data Driven

Job Scheduling

Thread Safe

Indexing