Skip to content

Commit b3b981f

Browse files
committed
delta lake
1 parent e9bb35f commit b3b981f

File tree

1 file changed

+20
-1
lines changed

1 file changed

+20
-1
lines changed

_posts/2025-05-30-paper_review_delta_lake.md

Lines changed: 20 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -237,4 +237,23 @@ delta lake는 트랜잭션을 보장하면서 갱신이 가능하기 때문에
237237
- 새로 쓰이는 데이터는 현재 스키마와의 일치를 보장한다.
238238

239239
## Connectors to Query and ETL Engines
240-
Spark의 data source API를 완전히 사용 가능하며 CDC 도구들도 잘 지원한다고.
240+
Spark의 data source API를 완전히 사용 가능하며 CDC 도구들도 잘 지원한다고.
241+
242+
# Performance Experiments
243+
244+
다수의 객체 또는 파티션
245+
- 파티션 수가 증가할수록 list 연산 비용이 증가한다. delta lake는 체크포인트를 사용하여 list 비용을 줄이기 떄문에 파티션 수가 증가해도 비용이 거의 증가하지 않는다. 반면 hive-style은 선형적으로 증가한다.
246+
247+
Z-Ordering 효과
248+
- partition(또는 정렬기반) 클러스터링보다 여러 컬럼의 필터링 성능이좋다.
249+
- 다만 가장 최초 정렬된 컬럼에 대한 필터링은 전체 정렬 기반 클러스터링보다 성능이 떨어진다.
250+
- 즉, 한 컬럼에 대해서는 정렬 기반 클러스터링이 더 낫지만, 여러 컬럼에 대해서는 Z-Ordering이 더 낫다.
251+
- 또한 z-ordering에서도 클러스터링 컬럼 추가시 기존 클러스터링 컬럼에 대한 성능은 일부 떨어진다.
252+
253+
쓰기 성능
254+
- 단순 parquet파일 쓰기와 유사한 수준이다. 통계값 수집의 오버헤드가 크지 않다.
255+
256+
# Discussion and Limitations
257+
1. 단일 테이블에 대한 serializable 트랜잭션만 지원한다. 향후 다중 테이블 트랜잭션을 지원할 계획. 테이블별로 로그 레코드가 저장되기 때문
258+
2. 스트리밍 처리에서 클라우드 객체 저장소 지연을 넘어설 수 없다. 밀리초 단위의 지연은 어렵다.
259+
3. 보조 인덱스를 지원하지 않는다.

0 commit comments

Comments
 (0)