delta lake

getChan · getChan · commit b3b981ffb112 · 2025-08-26T19:03:20.000+09:00
diff --git a/_posts/2025-05-30-paper_review_delta_lake.md b/_posts/2025-05-30-paper_review_delta_lake.md
@@ -237,4 +237,23 @@ delta lake는 트랜잭션을 보장하면서 갱신이 가능하기 때문에 
 - 새로 쓰이는 데이터는 현재 스키마와의 일치를 보장한다.
 
 ## Connectors to Query and ETL Engines
-Spark의 data source API를 완전히 사용 가능하며 CDC 도구들도 잘 지원한다고.
+Spark의 data source API를 완전히 사용 가능하며 CDC 도구들도 잘 지원한다고.
+
+# Performance Experiments
+
+다수의 객체 또는 파티션
+- 파티션 수가 증가할수록 list 연산 비용이 증가한다. delta lake는 체크포인트를 사용하여 list 비용을 줄이기 떄문에 파티션 수가 증가해도 비용이 거의 증가하지 않는다. 반면 hive-style은 선형적으로 증가한다.
+
+Z-Ordering 효과
+- partition(또는 정렬기반) 클러스터링보다 여러 컬럼의 필터링 성능이좋다.
+- 다만 가장 최초 정렬된 컬럼에 대한 필터링은 전체 정렬 기반 클러스터링보다 성능이 떨어진다.
+- 즉, 한 컬럼에 대해서는 정렬 기반 클러스터링이 더 낫지만, 여러 컬럼에 대해서는 Z-Ordering이 더 낫다.
+- 또한 z-ordering에서도 클러스터링 컬럼 추가시 기존 클러스터링 컬럼에 대한 성능은 일부 떨어진다.
+
+쓰기 성능
+- 단순 parquet파일 쓰기와 유사한 수준이다. 통계값 수집의 오버헤드가 크지 않다.
+
+# Discussion and Limitations
+1. 단일 테이블에 대한 serializable 트랜잭션만 지원한다. 향후 다중 테이블 트랜잭션을 지원할 계획. 테이블별로 로그 레코드가 저장되기 때문
+2. 스트리밍 처리에서 클라우드 객체 저장소 지연을 넘어설 수 없다. 밀리초 단위의 지연은 어렵다.
+3. 보조 인덱스를 지원하지 않는다.