File tree Expand file tree Collapse file tree 1 file changed +20
-1
lines changed
Expand file tree Collapse file tree 1 file changed +20
-1
lines changed Original file line number Diff line number Diff line change @@ -237,4 +237,23 @@ delta lake는 트랜잭션을 보장하면서 갱신이 가능하기 때문에
237237- 새로 쓰이는 데이터는 현재 스키마와의 일치를 보장한다.
238238
239239## Connectors to Query and ETL Engines
240- Spark의 data source API를 완전히 사용 가능하며 CDC 도구들도 잘 지원한다고.
240+ Spark의 data source API를 완전히 사용 가능하며 CDC 도구들도 잘 지원한다고.
241+
242+ # Performance Experiments
243+
244+ 다수의 객체 또는 파티션
245+ - 파티션 수가 증가할수록 list 연산 비용이 증가한다. delta lake는 체크포인트를 사용하여 list 비용을 줄이기 떄문에 파티션 수가 증가해도 비용이 거의 증가하지 않는다. 반면 hive-style은 선형적으로 증가한다.
246+
247+ Z-Ordering 효과
248+ - partition(또는 정렬기반) 클러스터링보다 여러 컬럼의 필터링 성능이좋다.
249+ - 다만 가장 최초 정렬된 컬럼에 대한 필터링은 전체 정렬 기반 클러스터링보다 성능이 떨어진다.
250+ - 즉, 한 컬럼에 대해서는 정렬 기반 클러스터링이 더 낫지만, 여러 컬럼에 대해서는 Z-Ordering이 더 낫다.
251+ - 또한 z-ordering에서도 클러스터링 컬럼 추가시 기존 클러스터링 컬럼에 대한 성능은 일부 떨어진다.
252+
253+ 쓰기 성능
254+ - 단순 parquet파일 쓰기와 유사한 수준이다. 통계값 수집의 오버헤드가 크지 않다.
255+
256+ # Discussion and Limitations
257+ 1 . 단일 테이블에 대한 serializable 트랜잭션만 지원한다. 향후 다중 테이블 트랜잭션을 지원할 계획. 테이블별로 로그 레코드가 저장되기 때문
258+ 2 . 스트리밍 처리에서 클라우드 객체 저장소 지연을 넘어설 수 없다. 밀리초 단위의 지연은 어렵다.
259+ 3 . 보조 인덱스를 지원하지 않는다.
You can’t perform that action at this time.
0 commit comments