Jailbreak

Bypassing an LLM's content safety filters with creative prompting.

Jailbreak attacks craft special prompts to bypass LLM safety filters — using roleplay scenarios, encoding tricks, or hypothetical framing. While similar to prompt injection, jailbreaks specifically target safety guardrails. Defense-in-depth with input/output monitoring is essential.

See if your app is vulnerable