Lab session // live

[ AI LAB · 02 · AGENT ENGINEERING ]

Agenti AI che agiscono, non solo rispondono.

Costruiamo AI Agent production-ready: con guardrail, audit trail, escalation, monitoring, costi sotto controllo. Non chatbot mascherati — agenti che leggono dati dai vostri sistemi, decidono entro vincoli definiti, eseguono azioni vere con tracciabilità completa. 8-16 settimane.

servizi attivi

EU AI Act

compliant by design

prod-ready

not POC theater

/ DEFINIZIONE

Il termine 'agent' è abusato. Per noi significa una cosa precisa.

L'industria sta usando "AI Agent" per indicare qualunque cosa abbia un LLM dentro: chatbot Q&A, prompt complessi, demo da conferenza. Il risultato è che il cliente arriva con aspettative confuse e si trova con sistemi che fanno meno del previsto o cose imprevedibili.

Per noi un AI Agent è un sistema che riceve un input (richiesta utente, evento, trigger), accede a contesto rilevante (dati dai vostri sistemi, knowledge base), pianifica una sequenza di azioni, le esegue (chiamate API, scritture su database, comunicazioni), valuta il risultato, e produce un output verificabile. Tutto questo entro vincoli definiti, con tracciabilità completa, con fallback umani dove serve.

Costruire un Agent così non è dare un prompt a un LLM. È architettura software seria, fatta con tecnologie specifiche (LangGraph, AutoGen, CrewAI o framework custom), tooling di guardrail (Guardrails AI, NeMo Guardrails), observability (LangSmith, Langfuse), e una progettazione end-to-end del fail mode.

/ CASI D'USO

Sei pattern consolidati, ognuno con varianti settoriali

06 aree

01 / 06

Customer-facing agents

Risposta su WhatsApp/email/voce con accesso ai vostri sistemi. Status ordine, cambio appuntamento, troubleshooting L1, FAQ contestuali. Escalation umana strutturata. Triage automatico delle priorità.

02 / 06

Backoffice agents

Smistamento documenti in arrivo, classificazione, estrazione dati, instradamento al sistema giusto, validazione. Per fatture, contratti, istanze, ticket interni.

03 / 06

Sales agents

Qualifica lead inbound, ricerca account intel, drafting di outreach personalizzato, riassunto di call. NON sostituiscono SDR — moltiplicano la loro capacità.

04 / 06

HR & employee agents

Risposte FAQ HR, gestione richieste ferie/permessi, supporto onboarding nuovo personale, ricerca interna su procedure aziendali.

05 / 06

IT support agents

L1 IT con accesso a sistemi reali: reset password, check status servizi, apertura ticket strutturati, suggerimenti troubleshooting basati su KB interna.

06 / 06

Analytics agents

Risposte a domande di business sui dati: 'Qual è stato il fatturato della divisione X nel Q2?', 'Mostrami i 10 clienti con churn più alto'. SQL generato e validato, grafici on-demand.

/ METODOLOGIA

Cinque fasi, ogni fase con criterio di chiusura esplicito

1
Fase 1 — Use case definition (1-2 settimane)
Workshop con business owner: cosa fa l'Agent, cosa NON fa, come si misura il successo. Definizione 'happy path' e 'failure mode' attesi. Criteri di successo quantitativi (accuracy target, latency, costo per interazione). Decisione su livello di autonomia (suggerisce, esegue con conferma, esegue autonomamente).
2
Fase 2 — Tool & integration design (1-2 settimane)
Mappatura sistemi da cui l'Agent legge (ERP, CRM, KB, ecc.). Mappatura azioni che l'Agent esegue (chiamate API, scritture, invii). Design del context retrieval (RAG, query strutturate, cache). Permission model: cosa l'Agent può fare, cosa richiede approvazione umana.
3
Fase 3 — Prompt engineering & guardrails (2-3 settimane)
System prompt iterato su casi reali. Guardrail di input (sanitizzazione, prevenzione prompt injection). Guardrail di output (validazione struttura, fact-checking, ground truth). Strategia di fallback (umano, modello più potente, rifiuto esplicito).
4
Fase 4 — Testing & validation (2-3 settimane)
Test set di 100-500 casi reali con ground truth. Misurazione accuracy, false positive, false negative, latency, costo. Adversarial testing (jailbreak, edge case, dati anomali). Sign-off del business owner sui KPI.
5
Fase 5 — Production & monitoring (1-2 settimane + continuativo)
Deploy graduale (5% → 25% → 50% → 100% del traffico). Observability completa (LangSmith/Langfuse): ogni interazione tracciata. Alert su drift accuracy, costi anomali, errori non gestiti. Hypercare 30 giorni post-go-live. Iterazione continua basata su dati reali.

/ PRODUCTION-READY

Otto criteri che separano un Agent vero da un POC

Guardrail di input e output — sanitizzazione, validazione struttura, anti-jailbreak
Human-in-the-loop esplicito — quando l'Agent passa la palla a una persona è chiaro a tutti
Audit trail completo — ogni decisione tracciata e ricostruibile a posteriori
Monitoring continuativo — accuracy, latency, costo, drift, eccezioni
Cost control — budget per utente/sessione, alert su anomalie, modelli graduati per complessità
Integrazione SSO e permessi — l'Agent rispetta gli accessi del singolo utente
Spiegabilità — l'utente può chiedere 'perché?' e ricevere una risposta sensata
Fallback degradato — se il sistema AI è down, c'è un comportamento di backup definito

/ STACK

Tecnologie che usiamo per gli Agent

Non siamo dogmatici sulla scelta. Le tecnologie variano per caso d'uso, vincoli di compliance, costi attesi a regime, esigenze di latenza.

Framework agent: LangGraph (orchestrazione complessa), AutoGen, CrewAI (multi-agent), o implementazione custom per casi specifici.

Modelli LLM: modelli frontier commerciali (ragionamento, scrittura), Llama/Mistral/Qwen (deployment privato), Modello Italia (italiano + sovranità).

Vector DB: Pinecone (managed), Weaviate, Qdrant (self-hosted), pgvector (Postgres integrato).

Observability: LangSmith, Langfuse, Helicone — uno è obbligatorio, mai zero.

Guardrails: Guardrails AI, NeMo Guardrails, custom per logiche di settore.

Orchestration: nativa dei framework, oppure Calybron quando l'Agent è parte di workflow più ampi.

/ FAQ

Domande frequenti sugli AI Agent

Un chatbot risponde a domande con testo. Un Agent fa cose: legge dai vostri sistemi, esegue azioni autenticate, prende decisioni entro vincoli, gestisce flussi multi-step, escalation strutturate. Tecnicamente sono mondi diversi: un chatbot è un'interfaccia conversazionale a un knowledge base; un Agent è software che ragiona e agisce.

Sì, sbaglia. La domanda giusta è 'quanto sbaglia, e cosa succede quando sbaglia'. Su task ben definiti con dati buoni vediamo accuracy 92-98%. Su task ambigui o con dati rumorosi 80-90%. Il design dell'Agent include sempre la gestione del 2-20% in cui sbaglia: validazione, conferma umana, fallback, escalation. Un sistema che afferma '100% accuracy' è un sistema mal misurato.

È il pattern raccomandato. Si parte con un singolo caso ben delimitato (es. 'FAQ HR per dipendenti, 30 domande più frequenti'), lo si porta in produzione, si misurano risultati per 2-3 mesi, si estende il perimetro. Costruire 'l'Agent definitivo' che fa tutto subito è una scelta che produce progetti lunghi e fallimenti scenografici.

Sì, e questa è una delle ragioni per cui un Agent ben costruito costa più di un POC. L'Agent autentica l'utente (via SSO), riceve un token con i permessi specifici, e quando accede ai sistemi sottostanti usa quei permessi — non un service account onnipotente. Se l'utente A non può vedere i dati del cliente X, l'Agent invocato da A non glieli può mostrare.

Multipli livelli. Sanitizzazione degli input (rifiutiamo istruzioni del tipo 'ignora le istruzioni precedenti'). Separazione fra istruzioni di sistema e contenuto utente. Validazione strutturata degli output (l'Agent può solo restituire formati definiti). Limiti sui tool che l'Agent può invocare. Monitoring di pattern anomali. Pen test su scenari di abuse. Non è uno step facoltativo — è parte del costo base di costruzione.

Continua a esplorare

/ AI Lab

Il termine 'agent' è abusato. Per noi significa una cosa precisa.

Sei pattern consolidati, ognuno con varianti settoriali

Customer-facing agents

Backoffice agents

Sales agents

HR & employee agents

IT support agents

Analytics agents

Cinque fasi, ogni fase con criterio di chiusura esplicito

Fase 1 — Use case definition (1-2 settimane)

Fase 2 — Tool & integration design (1-2 settimane)

Fase 3 — Prompt engineering & guardrails (2-3 settimane)

Fase 4 — Testing & validation (2-3 settimane)

Fase 5 — Production & monitoring (1-2 settimane + continuativo)

Otto criteri che separano un Agent vero da un POC

Tecnologie che usiamo per gli Agent

Domande frequenti sugli AI Agent

Continua a esplorare

AI Assessment

Conversational AI

RAG & Knowledge

Avete un caso d'uso Agent in mente?