add post '[MySQL] LOAD DATA로 대용량 데이터 빠르게 삽입하기'

dev-jonghoonpark · dev-jonghoonpark · commit c765de76aa5b · 2025-07-17T22:44:53.000+09:00
diff --git a/_posts/2025-07-16-mysql-load-data.md b/_posts/2025-07-16-mysql-load-data.md
@@ -0,0 +1,128 @@
+---
+layout: "post"
+title: "[MySQL] LOAD DATA로 대용량 데이터 빠르게 삽입하기"
+description:
+  "MySQL의 `LOAD DATA` 명령어를 활용해 대용량 데이터를 빠르게 삽입하는 방법을 소개합니다.
+  \ 이 명령어는 텍스트 파일에서 데이터를 읽어와 테이블에 신속하게 삽입하며, 일반적인 `INSERT`보다 약 20배 빠른 성능을 제공합니다.
+  \ Container를 사용해 MySQL 환경을 설정하고, CSV 파일을 통해 데이터를 삽입하는 과정을 설명합니다.
+  \ 이를 통해 대량의 데이터를 효율적으로 처리할 수 있음을 확인했습니다."
+categories:
+  - "스터디-데이터베이스"
+  - "개발"
+tags:
+  - "MySQL"
+  - "LOAD DATA"
+  - "대용량"
+  - "INSERT"
+  - "BULK INSERT"
+  - "BULK"
+  - "Podman"
+  - "Docker"
+  - "Container"
+  - "Thread"
+  - "Single Thread"
+date: "2025-07-16 14:00:00 +0000"
+toc: true
+image:
+  path: "/assets/thumbnails/2025-07-16-mysql-load-data.jpg"
+---
+
+# `LOAD DATA` 로 대용량 데이터 빠르게 삽입하기
+
+작년 말에 K-DEVCON 스터디에서 MySQL을 공부하면서 `LOAD DATA` 명령어에 대해서 알게 되었다.
+
+- [INSERT, UPDATE, DELETE 쿼리 작성 및 최적화 - Real MySQL 스터디 7회차](https://jonghoonpark.com/2024/12/21/mysql-insert-update-delete-optimize)
+
+최근 대용량 테스트 데이터를 적재해야 하는 상황이 생기면서, `LOAD DATA` 를 실제로 사용해볼 기회가 생겼다.
+
+## LOAD DATA 란?
+
+[LOAD DATA](https://dev.mysql.com/doc/refman/8.4/en/load-data.html) 명령어는 텍스트 파일로부터 데이터를 읽어와 테이블에 매우 빠르게 삽입할 수 있다. Real MySQL에서는 그냥 insert 하는 것과 비교하면 약 20배의 성능차를 보여준다고 설명이 나와있다.
+
+`LOAD DATA` 는 빠르지만, **단일 스레드** 로 동작한다는 점에 유의하여 사용한다. Real MySQL에서는 여러개의 파일로 분할하여 병렬로 진행하라는 팁을 제공해주었다.
+
+## LOAD DATA 사용해보기
+
+### MySQL 세팅
+
+**Docker Desktop** 을 사용하지 못하는 환경이라, **Podman Desktop** 을 사용하였다. [**Podman**](https://podman.io/) 은 이번에 처음 사용해 보았는데 Docker 와 호환되는(Compatible) 한 인터페이스를 제공하여, Docker 경험이 있다면 큰 어려움 없이 사용할 수 있었다.
+
+실제 운영 환경과 동일하게 맞추기 위해 `MySQL 8.0.32` 버전으로 테스트를 진행하였다.
+
+```sh
+podman run -dit -e MYSQL_ROOT_PASSWORD=testtesttesttest -e MYSQL_DATABASE=test -p 3306:3306  --name local-mysql mysql:8.0.32
+```
+
+### 데이터 세팅
+
+간단한 자바코드를 작성하여 파일로 csv 파일을 생성하도록 하였다. 컬럼 헤더는 csv에 담지 않았다. [faker](https://github.com/DiUS/java-faker) 를 이용하여 어느 정도 랜덤한 있는 데이터가 나올 수 있도록 하였다. 테스트 데이터도 최대한 실제와 유사하기 위해 암호화도 적용하여 데이터를 생성하게 하였다.
+
+```
+USER0000001,7426C09FB3...,Rob,Gerlach,47a7e9bd9...,251FE112...,10,\N,10,\N,\N,N,0,40,...
+...
+```
+
+csv 특성 상 `null` 처리가 까다로운데, `LOAD DATA` 는 `\N` 을 `null`로 인식한다.
+
+그냥 빈 공백으로 처리할 경우 삽입 처리중에 아래와 같은 에러가 발생될 수 있으니 주의하자.
+
+```
+[22001][1292] Data truncation: Incorrect ... value: '' for column 'column_name' at row xxx
+```
+
+### Data 파일을 container 내부로 복사하기
+
+다음과 같이 cp 명령어를 사용하여 데이터 파일을 container 내부로 복사할 수 있다.
+
+```sh
+podman cp /Users/jonghoonpark/project/slow-query-select-member-list/output.csv local-mysql:/var/lib/mysql-files/file.csv
+```
+
+### LOAD DATA 를 이용하여 데이터 삽입
+
+파일을 컨테이너 내부로 옮겼다면, 아래 명령어를 통해 데이터를 삽입할 수 있다. `USER_TABLE` 이라는 이름의 테이블에 데이터를 삽입한다.
+
+```SQL
+LOAD DATA INFILE '/var/lib/mysql-files/file.csv'
+INTO TABLE USER_TABLE
+FIELDS TERMINATED BY ',' -- csv 파일의 구분자 (쉼표인 경우)
+ENCLOSED BY '"' -- 필드가 따옴표로 묶여 있는 경우
+LINES TERMINATED BY '\n' -- 줄 바꿈 문자 (Unix/Linux 기준)
+-- IGNORE 1 LINES; -- 헤더 있는 경우
+```
+
+### 테스트 1 : INSERT 와 LOAD DATA 간의 소요시간 비교 (작성중)
+
+실행 환경은 다음과 같다.
+
+- 데이터는 **400만개** 로 고정
+- `vCPU 16`, `메모리 16GB` 할당으로 고정
+- 실행을 마친 후에는 table 을 truncate 한 후, container를 재실행
+
+| 방식      | 소요시간 |
+| --------- | -------- |
+| INSERT    |          |
+| LOAD DATA |          |
+
+결과 :
+
+### 테스트 2 : vCPU 할당에 따른 소요시간 비교 (작성중)
+
+실행 환경은 다음과 같다.
+
+- 데이터는 **400만개** 로 고정
+- `메모리 16GB` 할당으로 고정
+- 실행을 마친 후에는 table 을 truncate 한 후, container를 재실행
+
+| Podman vCPU 할당 | 소요시간 |
+| ---------------- | -------- |
+| vCPU 2           |          |
+| vCPU 4           |          |
+| vCPU 8           |          |
+| vCPU 16          |          |
+
+결과 :
+
+## 마무리 (작성중)
+
+스터디를 하며 배웠던 `LOAD DATA` 를 실제로 사용해보고, 대용량 데이터를 빠르게 삽입할 때 매우 효과적인 방법임을 확인할 수 있었다.
diff --git a/_sass/_main.scss b/_sass/_main.scss
@@ -366,6 +366,7 @@ section.post .toc a {
 
 section.post .table-wrapper {
   overflow-x: auto;
+  padding-bottom: 1rem;
 }
 
 figcaption {
diff --git a/assets/thumbnails/2025-07-16-mysql-load-data.jpg b/assets/thumbnails/2025-07-16-mysql-load-data.jpg

Original file line number	Diff line number	Diff line change
`@@ -366,6 +366,7 @@ section.post .toc a {`
`366`	`366`
`367`	`367`	`section.post .table-wrapper {`
`368`	`368`	`overflow-x: auto;`
	`369`	`+ padding-bottom: 1rem;`
`369`	`370`	`}`
`370`	`371`
`371`	`372`	`figcaption {`