Agenti AI che agiscono, non solo rispondono.
Costruiamo AI Agent production-ready: con guardrail, audit trail, escalation, monitoring, costi sotto controllo. Non chatbot mascherati — agenti che leggono dati dai vostri sistemi, decidono entro vincoli definiti, eseguono azioni vere con tracciabilità completa. 8-16 settimane.
Il termine 'agent' è abusato. Per noi significa una cosa precisa.
L'industria sta usando "AI Agent" per indicare qualunque cosa abbia un LLM dentro: chatbot Q&A, prompt complessi, demo da conferenza. Il risultato è che il cliente arriva con aspettative confuse e si trova con sistemi che fanno meno del previsto o cose imprevedibili.
Per noi un AI Agent è un sistema che riceve un input (richiesta utente, evento, trigger), accede a contesto rilevante (dati dai vostri sistemi, knowledge base), pianifica una sequenza di azioni, le esegue (chiamate API, scritture su database, comunicazioni), valuta il risultato, e produce un output verificabile. Tutto questo entro vincoli definiti, con tracciabilità completa, con fallback umani dove serve.
Costruire un Agent così non è dare un prompt a un LLM. È architettura software seria, fatta con tecnologie specifiche (LangGraph, AutoGen, CrewAI o framework custom), tooling di guardrail (Guardrails AI, NeMo Guardrails), observability (LangSmith, Langfuse), e una progettazione end-to-end del fail mode.
Sei pattern consolidati, ognuno con varianti settoriali
Customer-facing agents
Risposta su WhatsApp/email/voce con accesso ai vostri sistemi. Status ordine, cambio appuntamento, troubleshooting L1, FAQ contestuali. Escalation umana strutturata. Triage automatico delle priorità.
Backoffice agents
Smistamento documenti in arrivo, classificazione, estrazione dati, instradamento al sistema giusto, validazione. Per fatture, contratti, istanze, ticket interni.
Sales agents
Qualifica lead inbound, ricerca account intel, drafting di outreach personalizzato, riassunto di call. NON sostituiscono SDR — moltiplicano la loro capacità.
HR & employee agents
Risposte FAQ HR, gestione richieste ferie/permessi, supporto onboarding nuovo personale, ricerca interna su procedure aziendali.
IT support agents
L1 IT con accesso a sistemi reali: reset password, check status servizi, apertura ticket strutturati, suggerimenti troubleshooting basati su KB interna.
Analytics agents
Risposte a domande di business sui dati: 'Qual è stato il fatturato della divisione X nel Q2?', 'Mostrami i 10 clienti con churn più alto'. SQL generato e validato, grafici on-demand.
Cinque fasi, ogni fase con criterio di chiusura esplicito
- 1
Fase 1 — Use case definition (1-2 settimane)
Workshop con business owner: cosa fa l'Agent, cosa NON fa, come si misura il successo. Definizione 'happy path' e 'failure mode' attesi. Criteri di successo quantitativi (accuracy target, latency, costo per interazione). Decisione su livello di autonomia (suggerisce, esegue con conferma, esegue autonomamente).
- 2
Fase 2 — Tool & integration design (1-2 settimane)
Mappatura sistemi da cui l'Agent legge (ERP, CRM, KB, ecc.). Mappatura azioni che l'Agent esegue (chiamate API, scritture, invii). Design del context retrieval (RAG, query strutturate, cache). Permission model: cosa l'Agent può fare, cosa richiede approvazione umana.
- 3
Fase 3 — Prompt engineering & guardrails (2-3 settimane)
System prompt iterato su casi reali. Guardrail di input (sanitizzazione, prevenzione prompt injection). Guardrail di output (validazione struttura, fact-checking, ground truth). Strategia di fallback (umano, modello più potente, rifiuto esplicito).
- 4
Fase 4 — Testing & validation (2-3 settimane)
Test set di 100-500 casi reali con ground truth. Misurazione accuracy, false positive, false negative, latency, costo. Adversarial testing (jailbreak, edge case, dati anomali). Sign-off del business owner sui KPI.
- 5
Fase 5 — Production & monitoring (1-2 settimane + continuativo)
Deploy graduale (5% → 25% → 50% → 100% del traffico). Observability completa (LangSmith/Langfuse): ogni interazione tracciata. Alert su drift accuracy, costi anomali, errori non gestiti. Hypercare 30 giorni post-go-live. Iterazione continua basata su dati reali.
Otto criteri che separano un Agent vero da un POC
- Guardrail di input e output — sanitizzazione, validazione struttura, anti-jailbreak
- Human-in-the-loop esplicito — quando l'Agent passa la palla a una persona è chiaro a tutti
- Audit trail completo — ogni decisione tracciata e ricostruibile a posteriori
- Monitoring continuativo — accuracy, latency, costo, drift, eccezioni
- Cost control — budget per utente/sessione, alert su anomalie, modelli graduati per complessità
- Integrazione SSO e permessi — l'Agent rispetta gli accessi del singolo utente
- Spiegabilità — l'utente può chiedere 'perché?' e ricevere una risposta sensata
- Fallback degradato — se il sistema AI è down, c'è un comportamento di backup definito
Tecnologie che usiamo per gli Agent
Non siamo dogmatici sulla scelta. Le tecnologie variano per caso d'uso, vincoli di compliance, costi attesi a regime, esigenze di latenza.
Framework agent: LangGraph (orchestrazione complessa), AutoGen, CrewAI (multi-agent), o implementazione custom per casi specifici.
Modelli LLM: modelli frontier commerciali (ragionamento, scrittura), Llama/Mistral/Qwen (deployment privato), Modello Italia (italiano + sovranità).
Vector DB: Pinecone (managed), Weaviate, Qdrant (self-hosted), pgvector (Postgres integrato).
Observability: LangSmith, Langfuse, Helicone — uno è obbligatorio, mai zero.
Guardrails: Guardrails AI, NeMo Guardrails, custom per logiche di settore.
Orchestration: nativa dei framework, oppure Calybron quando l'Agent è parte di workflow più ampi.
