Prompt Injection
Categoria
IA Generativa
Prompt Injection e um ataque onde instrucoes maliciosas sao inseridas no input do usuario para manipular o comportamento do modelo de IA, fazendo-o ignorar suas instrucoes originais ou executar acoes indesejadas.
Categoria
IA Generativa
O que e Prompt Injection?
Prompt Injection e uma vulnerabilidade de seguranca em aplicacoes de IA onde um atacante consegue inserir instrucoes que sobrescrevem ou manipulam o system prompt e as regras definidas pelo desenvolvedor.
Tipos:
- Direta: instrucoes maliciosas no input do usuario
- Indireta: instrucoes escondidas em dados externos (documentos, paginas web)
Exemplos e Defesas
- Ataques: instrucoes de ignorar regras, revelar system prompt
- Defesas: sanitizacao de input, delimitadores claros
- Deteccao: classificadores de intent malicioso
- Isolamento: separar dados de instrucoes
A Trilion desenvolve defesas multicamada contra prompt injection em todas as suas aplicacoes de IA, protegendo tanto o sistema quanto os dados dos clientes.
