Anthropic corrige falhas críticas no Claude após descoberta de cadeia completa de ataque
Pesquisadores da Oasis Security identificaram três vulnerabilidades na plataforma Claude.ai que, quando exploradas em conjunto, formavam uma cadeia de ataque completa, desde a atração da vítima até o roubo silencioso de dados sensíveis. As falhas já foram corrigidas pela Anthropic, mas o caso acende um alerta importante sobre o uso seguro de assistentes de IA, tanto por usuários individuais quanto por empresas.
Segundo a análise técnica, a combinação das vulnerabilidades permitia:
1. Direcionar usuários para URLs maliciosas com aparência legítima.
2. Inserir instruções ocultas (injeção de prompt) no campo de texto do Claude, sem que a vítima percebesse.
3. Extrair dados confidenciais do histórico de conversas e enviá-los, de forma discreta, para a conta controlada pelo atacante.
Essas brechas foram reportadas à Anthropic dentro de um processo de divulgação responsável, o que possibilitou a correção antes de exploração em larga escala.
Como funcionava a cadeia de ataques
O primeiro elemento do ataque explorava uma injeção de prompt invisível por meio de parâmetros na URL. Os pesquisadores descobriram que certos trechos de HTML podiam ser incorporados ao parâmetro `claude.ai/new?q=…`. Na prática, isso permitia embutir instruções ocultas no campo de texto: o usuário via apenas uma pergunta inofensiva, mas o modelo recebia, ao mesmo tempo, comandos adicionais não visíveis na interface.
Essas instruções ocultas eram totalmente processadas pelo Claude assim que o usuário pressionava Enter. Ou seja, bastava o usuário interagir normalmente com a interface para que o ataque fosse disparado, sem necessidade de downloads, instalações ou consentimentos adicionais.
O segundo ponto da exploração envolvia a Anthropic Files API. A mesma injeção de prompt podia ser usada para instruir o sistema a procurar, no histórico de conversas ou em arquivos acessíveis, por informações sensíveis – como dados pessoais, informações corporativas, conversas sobre negociações estratégicas ou detalhes de saúde – e, em seguida, enviá-las a um destino ligado ao atacante. Esse processo de exfiltração acontecia dentro do fluxo normal de uso da ferramenta, tornando difícil a detecção pelo usuário comum.
Fechando a cadeia, os pesquisadores encontraram um redirecionamento aberto em `claude.com/redirect`. Com isso, era possível criar anúncios aparentemente legítimos em buscadores, que levavam o usuário a links com domínio confiável, mas que, na prática, redirecionavam para URLs contendo os parâmetros maliciosos. Desse modo, a vítima tinha a impressão de estar acessando o serviço oficial, enquanto já chegava à página com o ataque preparado.
Impacto sobre dados e privacidade dos usuários
Mesmo em um cenário simples, com uma sessão básica do Claude.ai e sem integrações adicionais ativadas, o modelo tem acesso a informações sensíveis via histórico de conversas e memória. A injeção de prompt poderia instruir o assistente a:
– Resumir todas as conversas anteriores para montar um perfil detalhado da vítima (interesses, cargo, empresa, localização aproximada, hábitos, preocupações pessoais);
– Buscar, no histórico, diálogos sobre temas específicos, como fusões e aquisições, reestruturações internas, processos judiciais, diagnósticos médicos ou questões financeiras;
– Destacar nomes de empresas, pessoas, valores, datas e outros metadados relevantes para fins de espionagem ou fraude.
Em ambientes corporativos, o risco é ainda maior. Quando o Claude é integrado a servidores MCP, bases internas ou serviços de terceiros, ele pode ler arquivos, enviar mensagens, acessar documentos compartilhados e interagir com APIs críticas. Em um contexto desses, uma simples injeção de prompt maliciosa pode se transformar em um canal de acesso indireto a uma ampla gama de sistemas, inclusive aqueles tradicionalmente protegidos por autenticação forte.
O modelo, ao seguir instruções ocultas, poderia:
– Vasculhar diretórios por termos sensíveis (como “confidencial”, “contrato”, “proposta”, “NDA”);
– Resumir e extrair trechos de documentos estratégicos;
– Disparar mensagens em nome do usuário em ferramentas integradas;
– Reunir informações fragmentadas ao longo de múltiplas conversas e sessões, compondo um quadro muito mais completo do que um criminoso conseguiria em um único ataque direto.
Correções implementadas pela Anthropic
Após o reporte da Oasis Security, a Anthropic atuou para eliminar o encadeamento das vulnerabilidades. Embora os detalhes finos das correções não tenham sido amplamente divulgados, é possível inferir algumas medidas típicas em casos como esse:
– Saneamento rigoroso de parâmetros de URL, bloqueando a interpretação de tags HTML ou conteúdos não esperados.
– Endurecimento das regras de redirecionamento, evitando que rotas como `/redirect` possam ser usadas para enviar o usuário a destinos arbitrários sem validação.
– Ajustes na forma como o modelo trata instruções vindas de contextos ocultos, reduzindo a superfície para injeção de prompt via canais não explícitos na interface.
– Revisão de permissões e fluxos da Files API, mitigando a possibilidade de exfiltração automática a partir de comandos não transparentes para o usuário.
O caso ilustra como, em sistemas baseados em IA generativa, nem sempre a vulnerabilidade está em um “bug clássico” de software, mas na forma como entradas, contexto e integrações são orquestrados. Segurança de IA passa, necessariamente, por repensar o desenho de prompts, memórias e conexões com outros serviços.
Recomendações da Oasis Security para empresas
A Oasis Security enfatiza a necessidade de as organizações adotarem medidas proativas para reduzir sua exposição a esse tipo de ameaça. Entre as principais recomendações estão:
– Mapear o uso de assistentes de IA em toda a empresa, identificando quais ferramentas são utilizadas, por quem e com quais dados.
– Manter um inventário detalhado de integrações, conectores, servidores MCP e APIs às quais os agentes de IA têm acesso.
– Auditar permissões e escopos de acesso regularmente, revogando integrações desnecessárias e limitando o assistente apenas ao que é estritamente essencial.
– Definir políticas claras de uso de IA, incluindo o que pode ou não ser compartilhado com esses sistemas, tanto em ambientes web quanto via integrações internas.
– Treinar usuários sobre os riscos de injeção de prompt, explicando que links, textos colados e até arquivos aparentemente inofensivos podem carregar instruções ocultas dirigidas ao modelo.
Injeção de prompt: o novo phishing
A técnica explorada nesse caso reforça um ponto-chave: a injeção de prompt desempenha, no universo da IA, um papel semelhante ao do phishing no e-mail. Em vez de enganar o usuário para que ele clique em um link ou forneça uma senha, o objetivo é convencer o modelo a obedecer instruções que o usuário não vê.
Links compartilhados em chats, documentos corporativos, mensagens internas ou campanhas publicitárias podem ser usados para veicular prompts maliciosos embutidos. Em muitos casos, o usuário sequer consegue identificar que há algo estranho: ele apenas vê uma pergunta ou tarefa normal na interface, enquanto o modelo recebeu um pacote muito maior de comandos.
Essa assimetria – o modelo enxerga mais do que o usuário – abre espaço para ataques discretos e de difícil rastreamento. Por isso, a proteção não pode depender apenas do “bom senso” do usuário, mas precisa ser incorporada ao design da aplicação, com validações robustas de entrada e limites ao que o modelo pode fazer automaticamente sem confirmação.
Riscos ampliados em ambientes Cloud e SaaS
Outro ponto sensível é a falsa sensação de segurança em aplicações Cloud e SaaS. Muitas empresas partem do princípio de que, por estarem usando serviços de grandes provedores, há proteção e backup garantidos para todos os dados. Na prática, isso nem sempre é verdade.
Em cenários de ataque a assistentes de IA:
– Dados podem ser acessados e exfiltrados sem necessariamente serem apagados ou corrompidos, dificultando a detecção pelo controle de versão ou backup tradicional.
– A própria memória da IA pode conter informações que nunca foram formalmente salvas em um repositório interno, tornando complexa a recuperação ou auditoria.
– Logs de interação nem sempre são suficientemente detalhados para reconstruir, depois do fato, quais instruções foram executadas por meio de prompts ocultos.
Por isso, é fundamental que as organizações não dependam apenas dos mecanismos implícitos de proteção do provedor. É preciso complementar com políticas de retenção, classificação de dados, segregação de ambientes (produção, teste, desenvolvimento) e controles de acesso de múltiplos fatores.
Boas práticas para uso seguro de assistentes de IA
Para reduzir o risco de incidentes envolvendo ferramentas como o Claude, empresas e profissionais podem adotar um conjunto de boas práticas:
1. Evitar inserir informações extremamente sensíveis (como segredos comerciais, dados de saúde, detalhes de investigações internas) em assistentes de IA públicos ou semi-públicos.
2. Configurar ambientes dedicados para uso corporativo de IA, com isolamento de dados e políticas próprias de segurança e conformidade.
3. Monitorar atividades incomuns nas integrações da IA, como acessos a grandes volumes de arquivos em sequência ou resumos massivos de conversas antigas.
4. Implementar revisões humanas em fluxos críticos, impedindo que a IA execute automaticamente ações de alto impacto (envio de e-mails externos, acesso a repositórios sensíveis, movimentações financeiras).
5. Educar times de TI e segurança sobre as particularidades de ameaças em IA generativa, incluindo injeção de prompt, jailbreak de modelos e uso malicioso de memórias persistentes.
O papel da segurança desde o design
O episódio envolvendo o Claude deixa claro que segurança em IA não pode ser tratada como um acessório. Ela precisa estar presente desde a concepção do produto, passando por:
– Modelagem de ameaças específica para fluxos de prompt e contexto;
– Testes de penetração voltados não só para a infraestrutura, mas para o comportamento do modelo;
– Limitação de capacidades da IA em ambientes onde o risco de abuso seja maior;
– Mecanismos de explicabilidade e rastreabilidade que permitam entender por que determinado comando foi executado.
À medida que assistentes de IA se tornam parte do dia a dia das empresas – auxiliando em atendimento, análise de documentos, desenvolvimento de software e tomada de decisão -, a fronteira entre “aplicativo comum” e “agente automatizado com múltiplos acessos” se torna tênue. Isso amplia o potencial de ganho de produtividade, mas também o impacto de qualquer falha.
Conclusão: lições do caso Claude
A resposta rápida da Anthropic e a divulgação responsável pela Oasis Security ajudaram a evitar um problema de maior escala. Ainda assim, o incidente funciona como um estudo de caso sobre os riscos singulares trazidos pela IA generativa:
– Vulnerabilidades podem surgir da interação entre interface, modelo e integrações, e não apenas de falhas de código tradicionais;
– Injeção de prompt e manipulação de contexto são hoje vetores tão relevantes quanto phishing e malware no ecossistema clássico;
– Empresas precisam tratar a adoção de assistentes de IA como um projeto de transformação tecnológica com requisitos de segurança, governança e treinamento – não como uma simples “ferramenta a mais”.
Para organizações que já utilizam ou planejam utilizar o Claude ou outros assistentes de IA, este é o momento ideal para revisar políticas internas, mapear integrações, treinar usuários e envolver as equipes de segurança na arquitetura dessas soluções. A inovação em IA só será sustentável se a segurança acompanhar, de perto, cada novo avanço.