20 de março de 2025

Por que agentes de IA falham (e o que aprendi construindo os meus)

AI AgentsLangGraphLangChain

Nos últimos meses, construí agentes de IA para qualificação de leads, atendimento clínico e automação de operações. Alguns funcionaram de primeira. Outros falharam espetacularmente.

O padrão que percebi é que a maioria das falhas não vem do modelo, e sim da arquitetura. Um agente que tenta fazer tudo em um único prompt vai quebrar. A solução é decompor o problema em grafos de estado bem definidos.

O problema do "prompt monolítico"

O primeiro instinto é colocar tudo em um system prompt gigante: regras de negócio, tom de voz, fluxo de decisão, tratamento de erros. Funciona no playground. Falha em produção.

O motivo é simples: LLMs não são máquinas de estado. Quanto mais instruções concorrentes, mais o modelo "esquece" ou mistura contextos. A taxa de erro cresce exponencialmente com a complexidade do prompt.

Grafos de estado como solução

Com LangGraph, cada etapa do fluxo vira um nó com responsabilidade única. O agente de qualificação de leads que construí para o Deal Desk, por exemplo, tem nós separados para: identificar intenção, coletar dados, validar informações, atualizar CRM e escalar para humano.

Cada nó tem seu próprio prompt, suas próprias ferramentas e suas próprias regras de transição. O resultado é previsível, testável e debugável.

Lições práticas

Memória é arquitetura, não feature. Redis para curto prazo, PostgreSQL para longo prazo. Sem isso, o agente perde contexto entre mensagens.
Evals antes de deploy. Se você não consegue medir a qualidade das respostas automaticamente, não está pronto para produção.
Fallback humano não é fracasso. O melhor agente é aquele que sabe quando não sabe.