๐ง Apache Iceberg: The Definitive Guide ์ฑ ์ ๋ฐํ์ผ๋ก ์์ฑ๋์์ต๋๋ค.
๐ก ๋ค์ด๊ฐ๋ฉฐ
Apache Iceberg๋ ์ต๊ทผ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ๊ด๋ฆฌํ ๋ ๋๋ฆฌ ํ์ฉ๋๊ณ ์๋ ์คํ ํ
์ด๋ธ ํฌ๋งท์
๋๋ค.
์คํ ํ
์ด๋ธ ํฌ๋งท์ด๋ ์ด๋ค ๊ฐ๋
์ผ๊น์? ๊ทธ๋ฆฌ๊ณ Apache Iceberg๋ฅผ ๋ง์ ๊ณณ์์ ์ฌ์ฉํ๋ ์ด์ ๋ ๋ฌด์์ผ๊น์?
์ด๋ฅผ ์๊ธฐ ์ํด์๋ Apache Iceberg๊ฐ ํ์ํ๊ฒ ๋ ๋ฐฐ๊ฒฝ์ ์ดํดํ๊ณ ์์ด์ผ ํฉ๋๋ค.
์ด๋ฒ ๊ธ์์๋ ๊ทธ ์ฒซ ๋ฒ์งธ๋ก OLAP์ Data Warehouse์ ๋ํด ์ดํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
๐ Chapter 1. Introduction to Apache Iceberg ๊ธ ๋ชจ์๋ณด๊ธฐ :
โบ 2ํธ : [Apache Iceberg] ๋ฑ์ฅ ๋ฐฐ๊ฒฝ (2) : Data Lake์ Data Lakehouse
โบ 3ํธ : [Apache Iceberg] Iceberg ์ด์ ์ Table Format, Hive
โบ 4ํธ : [Apache Iceberg] Iceberg ์ค๊ณ ์ํคํ ์ฒ ๋ฐ ์ฃผ์ ํน์ง
1๏ธโฃ ๋ถ์์ ์ํ ๋์ฉ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐฉ์, OLAP
์ผ๋ฐ์ ์ผ๋ก ์ฐ๋ฆฌ๊ฐ ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ์ฌ์ฉํ๊ธฐ ์ํด์ ๊ฐ์ฅ ๋จผ์ ๋ ์ฌ๋ฆด ์ ์๋ ๋ฐฉ๋ฒ์
MySQL ๊ฐ์ด ํ๊ณผ ์ด๋ก ์ด๋ฃจ์ด์ง ํ ์ด๋ธ ํํ๋ก ์ ์ฅํ๋ RDBMS(Relational DataBase Management System)์ผ ๊ฒ์ ๋๋ค.
์ด๋ฌํ RDBMS๋ OLTP(OnLine Transaction Processing) ์ข ๋ฅ์ ์ฒ๋ฆฌ์ ํนํ๋์ด ์์ต๋๋ค.
OLTP๋ ์ ์ ์์ ํ์ ๋น ๋ฅด๊ฒ ๋ณ๊ฒฝ(insert, update, delete)ํ๋ ์ฒ๋ฆฌ ๋ฐฉ์์ ์๋ฏธํฉ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ํ ๊ฑฐ๋, ์ผํ๋ชฐ ์ฃผ๋ฌธ๊ณผ ๊ฐ์ ์๋น์ค๋ฅผ ๋ค๋ฃฐ ๋ OLTP๊ฐ ํ์ํ๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ฌ๋ ์๊ฐ์ด ์ง๋๋ฉด์ ๋ถ์์ด๋ ๋จธ์ ๋ฌ๋(ML)๊ณผ ๊ฐ์ ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋์์ผ๋ก ํ๋ ์์ ์ด ๋ฑ์ฅํ์ต๋๋ค.
์ด๋ฌํ ์ข ๋ฅ์ ์์ ์์๋ ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ ํ์ ๋ํด์ ํน์ ์ด์ ์ง๊ณํ์ฌ ์กฐํ(sum, avg, count)ํฉ๋๋ค.
์ด๋ ๊ฒ ๋์ฉ๋์ ๋ฐ์ดํฐ์ ๋ํด ๋ถ์ ๋ฐ ์ง๊ณํ๋ ์ฒ๋ฆฌ ๋ฐฉ์์ OLAP(OnLine Analytical Processing)๋ผ ํฉ๋๋ค.
๋ถ์๊ณผ ๋จธ์ ๋ฌ๋๊ณผ ๊ฐ์ OLAP ์์ ์, OLTP์ ์ต์ ํ๋ RDMBS๋ฅผ ์ฌ์ฉํ๊ฒ ๋๋ฉด ๋ฐ์ดํฐ๊ฐ ์ปค์ง์๋ก ์ฒ๋ฆฌ ์ฑ๋ฅ์ด ์ข์ง ์์๊ณ
๋ฐ๋ผ์ OLAP์ ์ต์ ํ๋ ์๋ก์ด ์ ์ฅ ๋ฐฉ๋ฒ์ด ํ์ํด์ก์ต๋๋ค.
(1) OLAP ๊ตฌ์ฑ ์์
'OLAP์ ์ต์ ํ๋ ์๋ก์ด ์ ์ฅ ๋ฐฉ๋ฒ'์ 'OTLP์ ์ต์ ํ๋ RDMBS'์ ์ด๋ค ๋ถ๋ถ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์
๋์ฉ๋ ๋ฐ์ดํฐ์ ๋ํด ์ด์ ๊ธฐ์ค์ผ๋ก ์กฐํ ๋ฐ ์ง๊ณํ๋ ์์
์ ๋ ์ ์ํํ ์ ์๋ ๊ฑธ๊น์?
๊ทธ ์ฐจ์ด๋ฅผ ์ดํดํ๊ธฐ ์ํด์๋ ๋ ์์คํ ์ ๊ตฌ์ฑํ๋ ์์๋ค์ด ์ด๋ค ์ญํ ์ ๋ด๋นํ๋์ง ์๊ณ ์์ด์ผ ํฉ๋๋ค.
๋น์ทํ ์ข ๋ฅ์ ๊ตฌ์ฑ ์์๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ๊ฐ ์์์ ๊ตฌ์กฐ์ ์ธ๋ถ ๊ตฌํ ๋ฐฉ์์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ฌ์ฉ์๊ฐ ๋ฐ์ดํฐ์ ์ ๊ทผํ๊ณ ์ฒ๋ฆฌํ๋ ๋ฐ ์์ด์
์ถ์ํ ์์ค์ด ๋ฎ์ ๊ฐ๋
๋ถํฐ ๋์ ์์๋ก(= ๋ฌผ๋ฆฌ์ → ๋
ผ๋ฆฌ์ ) ์ดํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.

โบ Storage
- ๋ฐ์ดํฐ๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ์ฅํ๋ ๊ณต๊ฐ
- e.g - ๋ก์ปฌ ํ์ผ ์์คํ (DAS), ๋ถ์ฐ ํ์ผ ์์คํ (HDFS), ๊ฐ์ฒด ์คํ ๋ฆฌ์ง(S3)
โบ File Format
- ๋ฐ์ดํฐ๋ฅผ ํ์ผ๋ก ์ด๋ป๊ฒ ์ ์ฅํ ์ง์ ๋ํ ์ ์(๊ตฌ์กฐ, ์ธ์ฝ๋ฉ, ์์ถ ๋ฐฉ์ ๋ฑ)
- e.g - ์ ํ(CSV), ๋ฐ์ ํ(JSON), ๋น์ ํ(Text file)
- e.g - ํ ์งํฅ(CSV, Apache Avro), ์ด์งํฅ(Apache Parquet, Apache ORC)
โบ Table Format
- ํ์ผ์ด Storage์ ์ด๋ป๊ฒ ๋ฐฐ์น๋์ด์ผ ํ๋์ง์ ๋ํ ์ ์
- ์ฆ, ํ์ผ(physical)์ ํ ์ด๋ธ(logical)๋ก ์ด๋ป๊ฒ ๊ตฌ์ฑํ ์ง(์ถ์ํ)
- e.g - Apache Iceberg, Delta lake, Apache Hudi
โบ Storage Engine
- File Format๊ณผ Table Format์ด ์ ์ํ ๋ฐฉ์์ ๋ฐ๋ผ Storage์ ๋ฐ์ดํฐ๋ฅผ ์ฝ๊ณ ์ฐ๋ ์์ ์ํ
- ๋ฐ์ดํฐ ํ์ผ๊ณผ ๋ด๋ถ ๊ตฌ์กฐ(์ธ๋ฑ์ค, ์์ถ)๋ฅผ ๊ด๋ฆฌํ๋ฉด์ ์ต์ ํ๋ ์ฑ๋ฅ์ผ๋ก CRUD๋ฅผ ์ ๊ณต
โบ Compute Engine
- ์ฟผ๋ฆฌ๋ฅผ ํด์ํ์ฌ ์ต์ ํ๋ ์คํ ๊ณํ์ ์ธ์ฐ๊ณ , ์ฝ์ด์จ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ์์ ์ํ
- e.g - Apache Spark, Presto/Trino, Snowflake
โบ Catalog
- ํ์ํ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์๋ณํ ์ ์๋๋ก ๋ฉํ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ์ ๊ณต
- ๋ฉํ๋ฐ์ดํฐ : ํ ์ด๋ธ ์ด๋ฆ, ์คํค๋ง, ๋ฌผ๋ฆฌ์ ์์น, ํต๊ณ ์ ๋ณด(๋ ์ฝ๋ ์, ํ ์ด๋ธ ํฌ๊ธฐ, ์ปฌ๋ผ๋ณ ์ต์/์ต๋ ๊ฐโฏ)
- e.g - Apache Hive Metastore, AWS Glue Data Catalog
[๐ Storage Engine vs. Compute Engine ]
๊ฐ์ธ์ ์ผ๋ก ๊ฐ์ฅ ํท๊ฐ๋ ธ๋ ๋ ๊ฐ๋ ์ ๋ํด ๋ค์ ํ ๋ฒ ์ดํดํ๊ธฐ ์ฝ๊ฒ ๋น๊ต๋ฅผ ํด๋ณด๊ฒ ์ต๋๋ค.
๋ ๊ฐ ๋ชจ๋ Engine์ผ๋ก์ ๋ฐ์ดํฐ์ ๊ด๋ จ๋ ์ํธ์์ฉ์ ํ๋ค๋ ๊ณตํต์ ์ด ์์ง๋ง, ๊ทธ ์ํํ๋ ๋์์ ์์ด์ ์ฐจ์ด๊ฐ ์์ต๋๋ค :
| Storage Engine - ์ด๋ป๊ฒ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ๊ด๋ฆฌํ ์ง - Storage์ ์ํธ์์ฉํ๋ฉฐ ๋ฐ์ดํฐ๋ฅผ ์ฝ๊ณ ์ด๋ค. |
Compute Engine - ์ด๋ป๊ฒ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ๊ณ์ฐํ ์ง - ์ฌ์ฉ์๋ก๋ถํฐ ์ฟผ๋ฆฌ๋ฅผ ๋ฐ์ ํด์ํ๊ณ , ์ฝ์ด์จ ๋ฐ์ดํฐ์ ๋ํด ๊ณ์ฐ์ ์ํํ๋ค. |
๊ทธ๋ผ "๋์๊ด"์ ์์๋ก ๊ฐ ๊ตฌ์ฑ ์์๋ฅผ ์ดํดํ๊ธฐ ์ฝ๊ฒ ์ ๋ฆฌํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
Storage๋ถํฐ Compute Engine๊น์ง ๊ฐ ๊ฐ๋ ์ด ์ด๋ป๊ฒ ์ด์ด์ง๋์ง ์ฐ๊ฒฐ ์ง์ด ์๊ฐํด ๋ณด๋ฉด OLAP ์์คํ ์ ํ๋ฆ์ ์ดํดํ ์ ์์ต๋๋ค.
| OLAP ๊ตฌ์ฑ ์์ | ๋์๊ด์ ๋น์ ํ๋ฉด | ์ค๋ช |
| Storage | ๋์๊ด ๊ฑด๋ฌผ, ์ ๋ฐ | ์ฑ ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ์ฅํ๋ ๋ชจ๋ ๊ณต๊ฐ |
| File Format | ํ๊ตญ์ด ์ฑ
/ ์์ด ์์, ์ข ์ด์ฑ / ์ ์์ฑ , ๊ธ์์ฑ / ๊ทธ๋ฆผ์ฑ |
์ฑ ํ ๊ถ์ด ์ด๋ค ๋ชจ์ต์ผ๋ก ๋ง๋ค์ด์ก๋์ง์ ๋ํ '์ค๊ณ๋' ์ด ์ค๊ณ๋๋ฅผ ์์์ผ ์ฑ ์ ์ ๋๋ก ์ฝ์ ์ ์๋ค ๋ชจ๋ ์ฑ ์ด ํ๋์ ๊ฐ์ ์ค๊ณ๋๋ฅผ ๋ฐ๋ฅผ ํ์๋ ์๋ค. - ํ์ผ : csv๋ ์ผํ๋ก ๊ตฌ๋ถ๋ ํ ์คํธ, json์ ์ค๊ดํธ์ ์ผํ์ ํค-๊ฐ ์, Parquet๋ ์ด ๋จ์ ์์ถ - ์ฑ : ์ธ์ด(ํ๊ตญ์ด/์์ด), ํํ(์ข ์ด/์ ์), ๊ตฌ์ฑ(๊ธ/๊ทธ๋ฆผ) |
| Table Format | ์ฑ
์ ๋ถ๋ฅํ๊ณ ์ ๋ฆฌํ๋ ๊ท์น |
๋ชจ๋ ์ฑ ์ด ๋ฐ๋ฅด๋, ์ฑ ์ ๋์๊ด์ ์ด๋ป๊ฒ ๋ฐฐ์นํ ์ง์ ๋ํ ๊ท์น ์ด๊ฒ์ด ์ ๋ง๋ค์ด์ ธ์๋ค๋ฉด ์ ์ฒด ๋์๊ด ์์คํ ์ ํจ์จ์ ์ผ๋ก ์ด์ํ ์ ์๋ค. - ์ : ๋ชจ๋ ์ข ์ด์ฑ ์ 1์ธต์ ์์นํ๊ณ , ์ ์ ์ด๋ฆ ๊ฐ๋๋ค ์์๋๋ก ์ ๋ ฌํ๋ค |
| Storage Engine |
์ฌ์ | ์ด์ฉ์๊ฐ "๊นํด์ง ์๊ฐ์ ํ๊ตญ์ด ์ข ์ด์ฑ ์ข ์ฐพ์์ฃผ์ธ์!" ํ๊ณ ์์ฒญํ๋ฉด, ์ฌ์๋ '์ข ์ด์ฑ ์ 1์ธต์ ์ ์๋ณ ๊ฐ๋๋ค์'์ด๋ผ๋ ๊ท์น(Table Format)์ ์๊ณ , ๊ทธ ์ฑ ์ด 'ํ๊ตญ์ด ์ข ์ด์ฑ '์ด๋ผ๋ ์ค๊ณ๋(File Format)๋ก ๋ง๋ค์ด์ก์ผ๋ ์ฝ์ ์ ์๋ค๋ ๊ฑธ ์๋ค. (ํ๊ตญ์ด๋ฅผ ์๊ณ ์ฑ ์ ์๊ฐ์์ ๊บผ๋ด ์ฝ์ ์ ์์ด์) ๊ทธ๋์ ๊ทธ ์ฑ ์ ์๊ฐ์์ ๋น ๋ฅด๊ณ ์ ํํ ์ฐพ์์ ์ด์ฉ์์๊ฒ ์ ๋ฌํ๋ค(๋ฐ์ดํฐ ์ฝ๊ธฐ). ์๋ก์ด ์ฑ ์ด ๋ค์ด์์ ๋(๋ฐ์ดํฐ ์ฐ๊ธฐ)๋ ์๊ณ ์๋ ๊ท์น์ ๋ฐํ์ผ๋ก ์ฑ ์ ๊บผ๋ด๊ฑฐ๋ ๊ฝ๋ ์์ ์ ์ํํ๋ค. |
| Catalog | ๋์ ๋ชฉ๋ก or ๋์ ๊ฒ์ ์์คํ |
"์ด๋ค ์ฑ (ํ ์ด๋ธ)์ด ๋ช ๋ฒ ์๊ฐ(Storage ๊ฒฝ๋ก)์ ์๊ณ , ๊ทธ ์ฑ ์ ์ด๋ค ์ฅ๋ฅด(์คํค๋ง/์ปฌ๋ผ ํ์ )์ด๋ฉฐ, ๋ช ํ์ด์ง(๋ฐ์ดํฐ ํฌ๊ธฐ)์ธ์ง" ๋ฑ ์ฑ ์์ฒด์ ๋ด์ฉ์ด ์๋ ์ฑ ์ ๋ํ ์ ๋ณด๋ฅผ ๊ธฐ๋กํ๊ณ ๊ด๋ฆฌํ๋ค. ์ฌ์๋ ์ด์ฉ์๊ฐ ์ฑ ์ ์ฐพ์ ๋ ์ด ๋ชฉ๋ก์ ๋จผ์ ํ์ธํ๋ค. |
| Compute Engine |
๋์๊ด ์ด์ฉ์ | ๋์๊ด์์ ์ฑ ์ ์ฝ๋ ์ด์ฉ์. ์ด๋ค์ ์ฌ์(Storage Engine)๋ฅผ ํตํด ์ฑ ์ ๊ฐ์ ธ์์(๋ฐ์ดํฐ ์ฝ๊ธฐ), ์์ ๋ค์ ์ง์๊ณผ ๋๊ตฌ๋ฅผ ํ์ฉํด ์ฑ ์์ ํ์ํ ์ ๋ณด๋ฅผ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์ฐพ์๋ด๊ณ ๊ณ์ฐํ์ฌ ์๋ก์ด ๊ฒฐ๊ณผ๋ฌผ(๋ถ์ ๊ฒฐ๊ณผ)์ ๋ง๋ค์ด๋ ๋๋ค. |
OLAP ๊ตฌ์ฑ ์์์ ๋ํ์ ์ธ ์์๊ฐ ํฌํจ๋ ๊ทธ๋ฆผ์ ๋ง์ง๋ง์ผ๋ก Data Warehouse ๋ฑ์ฅ ์ด์ ์ ์ด์ผ๊ธฐ๋ฅผ ๋ง๋ฌด๋ฆฌํ๋๋ก ํ๊ฒ ์ต๋๋ค.

2๏ธโฃ Data Warehouse
Data Warehouse(=OLAP Database)๋ ํ๋์ ์์คํ ์์ OLAP ๊ตฌ์ฑ ์์๋ค์ ๊ฐ๊ณ ์๋ ์ค์ ์ง์ค์ ์ ์ฅ์์ ๋๋ค.
์๋ ๊ทธ๋ฆผ์์ ๋ณด๋ค์ํผ Data Warehouse๊ฐ ๋ ์ ์ ์ผ๋ก ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ๊ด๋ฆฌํ๊ฒ ๋ฉ๋๋ค.
์ ์ฅ๋ ๋ฐ์ดํฐ์ ์ ๊ทผํ ๋๋ Data Warehouse์ Compute engine์ ํตํด์๋ง ์ ๊ทผํ ์ ์์ต๋๋ค.

(1) Data Warehouse์ ๋ณํ
์ด๋ฌํ ๊ตฌ์กฐ๋ 2015๋ ๊น์ง ๋๋ถ๋ถ on-premise ํ๊ฒฝ์์ Storage์ Compute ๊ตฌ์ฑ ์์๊ฐ ๋์ผํ ๋ ธ๋(์ฅ์น)์์ ๋ฐ์ ํ๊ฒ ๊ฒฐํฉ๋์ด ์์๊ธฐ ๋๋ฌธ์ ์ค๊ณ๋์์ต๋๋ค. ํ์ง๋ง, ์ด๋ ์์ ์ ๋ฐ๋ผ Storage๋ Compute๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ฅํ ์ ์๋ค๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ฆ, Storage๋ฅผ ํ์ฅํ๊ธฐ ์ํด์๋ ๋ถํ์ํ Compute์ ๋ํ ํ์ฅ ๋น์ฉ๋ ์ถ๊ฐ๋ก ํ์ํ์์ต๋๋ค.
์ดํ ํด๋ผ์ฐ๋ ๋ค์ดํฐ๋ธ ์ปดํจํ ์ด ๋ฑ์ฅํ๋ฉด์, Storage์ Compute ๊ตฌ์ฑ ์์๋ฅผ ๋ถ๋ฆฌํ๊ณ ๋ ๋ฆฝ์ ์ผ๋ก ๋ฆฌ์์ค๋ฅผ ํ์ฅํ ์ ์๊ฒ ๋์์ต๋๋ค. Compute ์์์ ํ์ํ ๋๋ง ์ฌ์ฉํ ์ ์๊ฒ ๋๋ฉด์ ๋์์ Storage ์ํ์ ์์ ํ ๋ ๋ฆฝ์ ์ผ๋ก ์ด์ํ ์ ์๊ฒ ๋์์ต๋๋ค.
(2) Data Warehouse์ ์ฅ๋จ์
| ๐ข ์ฅ์ | ๐ด ๋จ์ | |
| 1 | SSOT(Single Source Of Truth) ๋ณด์ฅ | ๋ฐ์ดํฐ๊ฐ ํน์ ์์คํ ์ ์ข ์(Locked in) |
| 2 | ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ฟผ๋ฆฌ | Storage, Compute ๋น์ฉ |
| 3 | ๋ฐ์ดํฐ ๊ฑฐ๋ฒ๋์ค(๊ฐ์ฉ์ฑ, ํ์ฉ์ฑ, ์์ ) ๋ณด์ฅ | ์ ํ(structured) ๋ฐ์ดํฐ ์ง์ |
| 4 | ์ฟผ๋ฆฌํ๋๋ฐ ์ต์ ํ๋ ๋ฐ์ดํฐ ๋ ์ด์์ ๊ตฌ์ฑ | ML ์ข ๋ฅ์ ๋ถ์ ์์ ์คํ ์ด๋ ค์ |
| 5 | ๋ฐ์ดํฐ๊ฐ ์ ์๋ ์คํค๋ง๋ฅผ ๋ฐ๋ฅด๋๋ก ๋ณด์ฅ |
๐ข ์ฅ์
- ๋ค์ํ Source์์ ์ค๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ ๊ณณ์์ ์ฝ๊ณ ๋น ๋ฅด๊ฒ ์ ๊ทผํ ์ ์๋ค.
- OLAP๋ฅผ ์ํด ์ค๊ณ๋์ด ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์กฐํํ ์ ์๋ค.
๐ด ๋จ์
- ๊ฐ ๊ตฌ์ฑ ์์๊ฐ ๊ฐํ๊ฒ ๊ฒฐํฉ(coupled)๋์ด ์๊ธฐ ๋๋ฌธ์, ํด๋น Data Warehouse๋ฅผ ํตํด์๋ง ๋ฐ์ดํฐ์ ์ ๊ทผํ ์ ์๋ค.
(→ Redshift์ ์ ์ฅ๋์ด ์๋ ๋ฐ์ดํฐ๋ฅผ BigQuery ์ปดํจํ ์์ง์ ์ฌ์ฉํด์ ์กฐํํ ์ ์๋ค) - ์ฌ์ ๋น์ฉ + ์ด์ ๋น์ฉ(ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ ๋ฐ ์ ์ง๊ด๋ฆฌ) ์ฆ๊ฐ
- ML ์์ ์ ์ฌ์ฉ๋๋ JSON, ์ด๋ฏธ์ง, ํ ์คํธ ๊ฐ์ ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๊ธฐ ์ด๋ ต๋ค.
- ML ์์ ์ ์ํด ์ค๊ณ๋์ง ์์๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ์ํด์๋ ๋ค๋ฅธ ๊ณณ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฎ๊ฒจ์ผ ํ๋ค.
๋ค์ ๊ธ์์๋ Data Warehouse์ ๋จ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ฑ์ฅํ Data Lake์ Data Lakehouse์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.

'๐ Data Engineering > Iceberg' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [Apache Iceberg] Iceberg ์ค๊ณ ์ํคํ ์ฒ ๋ฐ ์ฃผ์ ํน์ง (0) | 2025.09.22 |
|---|---|
| [Apache Iceberg] Iceberg ์ด์ ์ Table Format, Hive (0) | 2025.08.24 |
| [Apache Iceberg] ๋ฑ์ฅ ๋ฐฐ๊ฒฝ (2) : Data Lake์ Data Lakehouse (3) | 2025.08.10 |