Defending large Language Models against jailbreaking attacks through goal prioritization

AllVideos Images News Maps Shopping Books

Scholarly articles for Defending large Language Models against jailbreaking attacks through goal prioritization

scholar.google.com › citations

Defending large language models against jailbreaking …
Zhang · Cited by 36

Defending Large Language Models Against Jailbreaking Attacks ... - arXiv

Nov 15, 2023 · Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking from 66.4% to 3.6% for ...

Defending Large Language Models Against Jailbreaking Attacks ...

aclanthology.org › 2024.acl-long.481

Aug 15, 2024 · Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking from 66.4% to 3.6% for ...

[ACL 2024] Defending Large Language Models Against ... - GitHub

github.com › thu-coai › JailbreakDefense...

Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking from 66.4% to 3.6% for ChatGPT. And ...

Defending Large Language Models Against Jailbreaking Attacks

openreview.net › forum

Nov 21, 2023 · This paper proposes a defense algorithm to mitigate jailbreaking attacks on LLMs. It works by first randomly perturbing the input prompt (via ...

[PDF] Smoothllm: Defending large language models against jailbreaking attacks

arxiv.org › pdf

Jun 11, 2024 · We propose a desiderata for defenses against jailbreaking attacks. Our desiderata comprises four properties: attack mitigation, non-conservatism ...

Defending Large Language Models Against Jailbreaking Attacks ...

huggingface.co › papers

Nov 15, 2023 · Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking attacks, reducing it ...

People also search for

RAIN: Your Language models can align Themselves without Finetuning

Jailbreak and Guard Aligned Language Models with only few In-Context demonstrations

Defending Large Language Models Against Jailbreaking Attacks

www.semanticscholar.org › paper › Smo...

SmoothLLM is the first algorithm designed to mitigate jailbreaking attacks, based on the finding that adversarially-generated prompts are brittle to character- ...

[PDF] ROBUST PROMPT OPTIMIZATION FOR DEFENDING LAN - OpenReview

openreview.net › pdf

Despite advances in AI alignment, language models (LM) remain vulnerable to adversarial attacks or jailbreaking, in which adversaries modify input prompts ...

Defending Large Language Models Against Jailbreaking Attacks ...

arxiv-sanity-lite.com › ...

Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking from 66.4% to 3.6% for ChatGPT. And ...

similar - arxiv-sanity

arxiv-sanity-lite.com › ...

This paper focuses on jailbreaking attacks against large language models (LLMs), eliciting them to generate objectionable content in response to harmful user ...