Aujourd’hui tout est IA, ce qui ne l’est pas se classe immanquablement dans l’obsolète, le désuet et donc l’invendable. Or, le domaine des grands modèles de langage (Large Language Model ou LLM) semble apporter une véritable révolution dans l’interaction Homme / machine sans aucune contrainte syntaxique. Le système est capable d’interpréter et générer un contenu inédit. Mais avec tant de liberté vient également la tentation de la détourner à bon ou mauvais escient. Bienvenue dans l’IA générative, l’univers fascinant des LLM et le monde cruel de la SSI !
Introduction
Avec la sortie fracassante de ChatGPT en 2022, le grand public a découvert les possibilités presque infinies offertes par l'IA générative. À peine plus d'un an après, de nouveaux modèles émergent de la part des grandes entreprises du numérique, et de nombreux services en proposent une intégration directe.
Pour tous ces systèmes, un élément apparaît comme central à leur bon fonctionnement : le prompt, une entrée transmise directement par l'utilisateur ou créée à la volée par le système appelant, que le modèle va interpréter et à partir duquel il va réagir.
Or, dans l'univers de la sécurité des systèmes d'information, la possibilité d'alimenter un programme à partir d'entrées arbitraires soulève immédiatement des préoccupations sur la possibilité d'une exploitation par injection. Dans ce contexte, des attaques d'un tout nouveau genre, qui ne nécessitent aucune compétence technique, apparaissent. L'intuitivité de ces...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première
[1] https://openai.com/blog/introducing-the-gpt-store
[2] https://atlas.mitre.org/studies/AML.CS0016/
[3] "Universal Adversarial Triggers for Attacking and Analyzing NLP" par Eric Wallace et al., conférence EMNLP en 2019
[4] ALZANTOT, Moustafa, SHARMA, Yash, ELGOHARY, Ahmed, et al. Generating natural language adversarial examples. arXiv preprint arXiv:1804.07998, 2018.
[5] Jin, D., Jin, Z., Zhou, J.T., Szolovits, P., 2020. Is Bert really robust? A strong baseline for natural language attack on text classification and entailment. In: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34. pp. 8018–8025
[7] https://simonwillison.net/2022/Sep/12/prompt-injection/
[8] https://twitter.com/goodside/status/1569128808308957185?s=20
[9] https://twitter.com/leastfavorite_/status/1570475633557348355
[10] https://www.aicrowd.com/challenges/hackaprompt-2023
[11] https://gandalf.lakera.ai/
[12] https://gpa.43z.one/
[13] https://github.com/LouisShark/chatgpt_system_prompt
[14] NASR, Milad, CARLINI, Nicholas, HAYASE, Jonathan, et al. Scalable extraction of training data from (production) language models. arXiv preprint arXiv:2311.17035, 2023 (https://arxiv.org/abs/2311.17035)
[15] https://huggingface.co/blog/red-teaming
[16] https://platform.openai.com/docs/guides/moderation/overview
[17] https://huggingface.co/safetyllm/Llama-2-7b-chat-safety
[18] SCHULHOFF, Sander, PINTO, Jeremy, KHAN, Anaum, et al. Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition. arXiv preprint arXiv:2311.16119, 2023 (https://arxiv.org/abs/2311.16119)
[19] LIU, Yi, DENG, Gelei, XU, Zhengzi, et al. Jailbreaking chatgpt via prompt engineering: An empirical study. arXiv preprint arXiv:2305.13860, 2023 (https://arxiv.org/abs/2305.13860)
[20] https://gist.github.com/coolaj86/6f4f7b30129b0251f61fa7baaa881516
[21] https://www.linkedin.com/pulse/how-use-grandma-exploit-break-chatgpt-asiri-hewage
[22] https://www.reddit.com/r/ChatGPT/comments/12sn0kk/grandma_exploit/
[23] https://www.independent.co.uk/tech/chatgpt-microsoft-windows-11-grandma-exploit-b2360213.html
[24] https://twitter.com/immasiddtweets/status/1669721470006857729
[25] https://learnprompting.org/docs/prompt_hacking/injection
[26] https://learnprompting.org/docs/prompt_hacking/offensive_measures/obfuscation
[27] Kang, D., Li, X., Stoica, I., Guestrin, C., Zaharia, M., & Hashimoto, T. (2023). Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks. u/Nin_kat. (2023). New Jailbreak based on virtual functions – smuggle illegal tockens to the backend (https://arxiv.org/abs/2302.05733)
[28] https://www.reddit.com/r/ChatGPT/comments/10urbdj/new_jailbreak_based_on_virtual_functions_smuggl
[29] https://x.com/literallydenis/status/1708283962399846459?s=20
[30] https://www.reddit.com/r/ChatGPT/comments/10urbdj/new_jailbreak_based_on_virtual_functions_smuggle/
[31] https://www.langchain.com/
[32] https://ollama.com/
[34] https://github.com/openai/openai-python/blob/release-v0.28.0/chatml.md
[36] https://huggingface.co/datasets/deepset/prompt-injections
[37] https://huggingface.co/datasets/hackaprompt/hackaprompt-dataset
[38] https://www.wired.com/story/air-canada-chatbot-refund-policy/