Korean Guardrail Dataset

AI Agent 서비스에서 가드레일(Guardrail)을 학습·평가·검증할 때 활용할 수 있는 한국어 데이터셋·벤치마크를 정리한 저장소입니다. 본 저장소에 링크된 데이터셋·벤치마크에는 혐오·욕설·성적·폭력·불법행위·프롬프트 인젝션 등 유해 콘텐츠가 포함될 수 있습니다. 연구·보안·안전 목적 외 사용을 금합니다.

Guardrail Types

📄 OpenAI가 공개한 “A practical guide to building agents”(2025-04-17)에서 제시한 구성요소를 기준으로 AI Agent 서비스에서의 Guardrail 기능을 분류하였습니다.

Types Examples

Relevance classifier Off-topic queries

Safety classifier Jailbreaks, Prompt injections

PII filter Personally identifiable information

Moderation Hate speech, Harassment, Violence

Tool safeguards High-risk functions

Rules-based protections Blocklists, Input length limits, Regex filters

Output validation Response validity

1. Processed Datasets

📁 data/processed 폴더에는 평가·검증을 위하여 가공한 검증용 한국어 데이터셋이 있습니다. 가공 과정에서는 (특정 필드 추출, 한국어 변환, 형식 통일 등)을 수행했습니다.

1.1 Example

{ "id": "kdpii-807", "query": "01069702655 이걸로 전화해봐요.", "answer": [ { "form": "01069702655", "label": "QT_MOBILE" } ], "topic": [], "blocked": true, "type": "pii-filter", "license": "cc-by-4.0" }

1.2 Source

Types Link Origin Records

PII filter KDPII.jsonl KDPII DATASET REVISED 53,778

PII filter synthetic_pii_finance_multilingual-kr.jsonl gretelai/synthetic_pii_finance_multilingual 55,940

Moderation APEACH.jsonl jason9693/APEACH 3,770

Moderation KOLD.jsonl boychaboy/KOLD 40,429

Moderation korean_unsmile_dataset.jsonl smilegate-ai/korean_unsmile_dataset 18,742

Moderation KMHaS.jsonl jeanlee/kmhas_korean_hate_speech 109,692

Moderation selectstar.jsonl Selectstar_Tunip_HUMANE Lab_opendata 100,000

Safety classifier raccoonbench-kr.jsonl M0gician/RaccoonBench 59

Safety classifier prompt-injections-benchmark-kr.jsonl qualifire/prompt-injections-benchmark 5,000

Rules-based protections league-of-legends_filtering_list_2020.jsonl league-of-legends_filtering_list_2020 3,272

Rules-based protections slang.jsonl slang 2,002

Mixed llm-red-teaming-dataset-kr.jsonl navirocker/llm-red-teaming-dataset 320

2. Datasets (KR)

⚠️ 각 데이터셋에 적용된 License를 반드시 확인 후 활용해 주세요. data/raw 폴더에 원본 데이터셋이 있습니다. (대용량 파일은 source 링크를 통해 직접 다운로드 받아주세요)

Types Source Detail Records License

PII filter KDPII DATASET REVISED 한국어 PII 비식별화 데이터셋 (대화 기반) 53,778 CC BY 4.0

Moderation kocohub/korean-hate-speech 한국어 혐오표현 데이터셋 (연예 뉴스 댓글 기반) 9,381 CC-BY-SA-4.0

Moderation jason9693/APEACH 한국어 혐오표현 벤치마크 (탐지 평가용 크라우드 생성) 3,770 CC-BY-SA-4.0

Moderation smilegate-ai/korean_unsmile_dataset 한국어 혐오표현 데이터셋 (Smilegate AI) 18,742 CC-BY-NC-ND 4.0

Moderation sgunderscore/hatescore-korean-hate-speech 한국어 혐오표현 데이터셋 (Wikipedia, Smilegate AI) 11,107 Apache-2.0 license

Moderation 2runo/Curse-detection-data 한국어 문장 욕설 여부 분류 데이터셋 5,825 MIT license

Moderation boychaboy/KOLD 한국어 Offensive Language 데이터셋 40,429 Unknown

Moderation tunib-ai/DKTC 한국어 댓글/대화 분류 데이터(악성/비속어 포함 가능) 3,949 CC-BY-NC-SA 4.0

Moderation adlnlp/K-MHaS 한국어 뉴스 댓글 멀티라벨 혐오표현 109,692 CC-BY-SA-4.0

Moderation korean-hate-chat-data 한국어 채팅 욕설 분류 데이터 14,879,941 CC BY-NC-SA 4.0

Moderation korean-extremist-website-womad-hate-speech-data 워마드 웝사이트 한국어 혐오표현 데이터셋 2,081 Unknown

Moderation lgbt-hatespeech-comments-at-naver-news-korean 네이버 뉴스 기사에 달린 LGBT 대상 혐오표현 데이터셋 8,837 CC-BY-SA-4.0

Moderation Selectstar_Tunip_HUMANE Lab_opendata 한국어 혐오표현 분류(탐지) 데이터셋 100,000 CC BY-SA 3.0

Moderation 텍스트 윤리검증 데이터 텍스트 윤리검증 데이터셋 (AI Hub) 453,340 AI-Hub 데이터 이용정책

Rules-based protections league-of-legends_filtering_list_2020 한국어 금칙어 리스트 (리그오브레전드) 3,272 Unknown

Rules-based protections slang 한국어 금칙어 리스트 2,002 Unknown

3. Datasets (non-KR)

🌎 다국어로 데이터셋 모음입니다. 원본 데이터셋에 적용된 License를 반드시 확인 후 활용해 주세요.

Types Source Detail Records License

PII filter gretelai/synthetic_pii_finance_multilingual 금융 도메인 중심의 합성 PII 데이터셋 55,940 Apache-2.0 license

PII filter ai4privacy/pii-masking-400k PII 마스킹/비식별 학습용 대규모 데이터셋 406,896 licensing@ai4privacy.com

Moderation centerforaisafety/HarmBench 안전성 벤치마크/평가 프레임워크 400 MIT license

Safety classifier gabrielchua/system-prompt-leakage 시스템 프롬프트 유출 여부 라벨 데이터셋 354,704 MIT license

Safety classifier M0gician/RaccoonBench Prompt injection 공격 데이터셋 59 GPL-3.0 license

Safety classifier qualifire/prompt-injections-benchmark Prompt injection 분류용 데이터 5,000 CC BY-NC 4.0

Safety classifier navirocker/llm-red-teaming-dataset 레드팀/공격 프롬프트 데이터셋 320 MIT license

4. Benchmarks & Frameworks

🛡️ AI Agent 서비스의 Guardrail 평가 지원 벤치마크 및 프레임워크.

Types Source Detail License

Safety classifier centerforaisafety/HarmBench 안전성 벤치마크/평가 프레임워크 (red-teaming) MIT license

Safety classifier lakeraai/pint-benchmark Prompt injection, Jailbreak 탐지 벤치마크 MIT license

Safety classifier salesforce/prompt-leakage 시스템 프롬프트 유출 공격·평가 리소스 (금융, 법률, 의학, 뉴스) Apache-2.0 license

Name		Name	Last commit message	Last commit date
Latest commit History 70 Commits
data		data
docs		docs
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Korean Guardrail Dataset

Guardrail Types

1. Processed Datasets

1.1 Example

1.2 Source

2. Datasets (KR)

3. Datasets (non-KR)

4. Benchmarks & Frameworks

About

Uh oh!

Releases 1

Packages

Uh oh!

Contributors

Uh oh!

Languages

Types	Examples
Relevance classifier	Off-topic queries
Safety classifier	Jailbreaks, Prompt injections
PII filter	Personally identifiable information
Moderation	Hate speech, Harassment, Violence
Tool safeguards	High-risk functions
Rules-based protections	Blocklists, Input length limits, Regex filters
Output validation	Response validity

Types	Link	Origin	Records
PII filter	KDPII.jsonl	KDPII DATASET REVISED	53,778
PII filter	synthetic_pii_finance_multilingual-kr.jsonl	gretelai/synthetic_pii_finance_multilingual	55,940
Moderation	APEACH.jsonl	jason9693/APEACH	3,770
Moderation	KOLD.jsonl	boychaboy/KOLD	40,429
Moderation	korean_unsmile_dataset.jsonl	smilegate-ai/korean_unsmile_dataset	18,742
Moderation	KMHaS.jsonl	jeanlee/kmhas_korean_hate_speech	109,692
Moderation	selectstar.jsonl	Selectstar_Tunip_HUMANE Lab_opendata	100,000
Safety classifier	raccoonbench-kr.jsonl	M0gician/RaccoonBench	59
Safety classifier	prompt-injections-benchmark-kr.jsonl	qualifire/prompt-injections-benchmark	5,000
Rules-based protections	league-of-legends_filtering_list_2020.jsonl	league-of-legends_filtering_list_2020	3,272
Rules-based protections	slang.jsonl	slang	2,002
Mixed	llm-red-teaming-dataset-kr.jsonl	navirocker/llm-red-teaming-dataset	320

Types	Source	Detail	Records	License
PII filter	KDPII DATASET REVISED	한국어 PII 비식별화 데이터셋 (대화 기반)	53,778	CC BY 4.0
Moderation	kocohub/korean-hate-speech	한국어 혐오표현 데이터셋 (연예 뉴스 댓글 기반)	9,381	CC-BY-SA-4.0
Moderation	jason9693/APEACH	한국어 혐오표현 벤치마크 (탐지 평가용 크라우드 생성)	3,770	CC-BY-SA-4.0
Moderation	smilegate-ai/korean_unsmile_dataset	한국어 혐오표현 데이터셋 (Smilegate AI)	18,742	CC-BY-NC-ND 4.0
Moderation	sgunderscore/hatescore-korean-hate-speech	한국어 혐오표현 데이터셋 (Wikipedia, Smilegate AI)	11,107	Apache-2.0 license
Moderation	2runo/Curse-detection-data	한국어 문장 욕설 여부 분류 데이터셋	5,825	MIT license
Moderation	boychaboy/KOLD	한국어 Offensive Language 데이터셋	40,429	Unknown
Moderation	tunib-ai/DKTC	한국어 댓글/대화 분류 데이터(악성/비속어 포함 가능)	3,949	CC-BY-NC-SA 4.0
Moderation	adlnlp/K-MHaS	한국어 뉴스 댓글 멀티라벨 혐오표현	109,692	CC-BY-SA-4.0
Moderation	korean-hate-chat-data	한국어 채팅 욕설 분류 데이터	14,879,941	CC BY-NC-SA 4.0
Moderation	korean-extremist-website-womad-hate-speech-data	워마드 웝사이트 한국어 혐오표현 데이터셋	2,081	Unknown
Moderation	lgbt-hatespeech-comments-at-naver-news-korean	네이버 뉴스 기사에 달린 LGBT 대상 혐오표현 데이터셋	8,837	CC-BY-SA-4.0
Moderation	Selectstar_Tunip_HUMANE Lab_opendata	한국어 혐오표현 분류(탐지) 데이터셋	100,000	CC BY-SA 3.0
Moderation	텍스트 윤리검증 데이터	텍스트 윤리검증 데이터셋 (AI Hub)	453,340	AI-Hub 데이터 이용정책
Rules-based protections	league-of-legends_filtering_list_2020	한국어 금칙어 리스트 (리그오브레전드)	3,272	Unknown
Rules-based protections	slang	한국어 금칙어 리스트	2,002	Unknown

Types	Source	Detail	Records	License
PII filter	gretelai/synthetic_pii_finance_multilingual	금융 도메인 중심의 합성 PII 데이터셋	55,940	Apache-2.0 license
PII filter	ai4privacy/pii-masking-400k	PII 마스킹/비식별 학습용 대규모 데이터셋	406,896	licensing@ai4privacy.com
Moderation	centerforaisafety/HarmBench	안전성 벤치마크/평가 프레임워크	400	MIT license
Safety classifier	gabrielchua/system-prompt-leakage	시스템 프롬프트 유출 여부 라벨 데이터셋	354,704	MIT license
Safety classifier	M0gician/RaccoonBench	Prompt injection 공격 데이터셋	59	GPL-3.0 license
Safety classifier	qualifire/prompt-injections-benchmark	Prompt injection 분류용 데이터	5,000	CC BY-NC 4.0
Safety classifier	navirocker/llm-red-teaming-dataset	레드팀/공격 프롬프트 데이터셋	320	MIT license

Types	Source	Detail	License
Safety classifier	centerforaisafety/HarmBench	안전성 벤치마크/평가 프레임워크 (red-teaming)	MIT license
Safety classifier	lakeraai/pint-benchmark	Prompt injection, Jailbreak 탐지 벤치마크	MIT license
Safety classifier	salesforce/prompt-leakage	시스템 프롬프트 유출 공격·평가 리소스 (금융, 법률, 의학, 뉴스)	Apache-2.0 license

Folders and files

Latest commit

History

Repository files navigation

Korean Guardrail Dataset

Guardrail Types

1. Processed Datasets

1.1 Example

1.2 Source

2. Datasets (KR)

3. Datasets (non-KR)

4. Benchmarks & Frameworks

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages