请问能否介绍一下如何实现prompt攻击检测？ #1466

chengq2020 · 2024-03-18T08:57:35Z

chengq2020
Mar 18, 2024

有些用户可能会输入涉及歧视、黄暴、侵权等有安全合规风险隐患的对话提示词，常见的手法为目标劫持、角色扮演等，但我测试了几个问题 ChatGLM 都防范的很优秀，想请教一下实现方法和防御技巧，谢谢