Tutta la potenza dell'AI. Niente dato fuori dalle vostre mura.
Small Language Model deployment in cloud sovrano italiano, on-premise, edge o hybrid. Per dati sensibili, vincoli di sovranità, settori regolati, controllo costi a regime. Modelli aperti (Llama, Mistral, Qwen, Modello Italia) + fine-tuning + deployment + esercizio.
Gli LLM in API funzionano per il 70% dei casi. Per il restante 30%, serve altro.
Gli API enterprise dei principali provider LLM commerciali (inclusi i grandi cloud) sono ottime tecnologie. Funzionano benissimo per la maggior parte dei casi B2B, con compliance ragionevole, deployment rapido, evolution continua, costi prevedibili. Quando consigliamo questa strada, lo facciamo con convinzione.
Esistono però sei situazioni in cui un modello privato (Small Language Model auto-ospitato) diventa la scelta corretta. Sono tutte legate a vincoli specifici — di settore, di sovranità, di volumi, di latenza, di proprietà intellettuale, di controllo costi a regime. Non è una scelta ideologica "AI sovrana ad ogni costo" — è una scelta razionale quando i numeri o i vincoli normativi la giustificano.
La nostra pratica SLM Privati comprende selezione del modello, fine-tuning su dati aziendali (quando serve), deployment su infrastruttura corretta (cloud sovrano Deepstone, on-premise, edge), MLOps continuativo. Lavoriamo sui modelli open di qualità: Llama (Meta), Mistral, Qwen, e — quando ha senso linguisticamente — Modello Italia/Italian LLM.
Sei situazioni in cui un SLM privato è la scelta giusta
Dati altamente sensibili
Dati sanitari, dati di credit scoring, informazioni proprietarie. La policy interna o la normativa di settore vieta deployment cloud, anche enterprise.
Sovranità nazionale richiesta
Settore pubblico, difesa, infrastrutture critiche. Vincolo esplicito di residenza dati in Italia o EU, con cloud provider non-USA.
Cost predictability a regime
Volume di richieste molto alto (milioni di token/giorno). I costi API diventano significativi e variabili. SLM auto-ospitato = costo fisso prevedibile.
Latency requirements bassi
Edge computing, retail in-store, manifatturiero on-line. Latenza necessaria <100ms — non compatibile con round-trip su API cloud.
IP protection sui prompt
Per casi competitivi: i prompt aziendali sono knowledge proprietary. Non si vuole esporli, nemmeno in transit, a un vendor terzo.
Compliance settoriale stringente
Pharma (GxP), banking (Banca d'Italia), public sector (AgID). Alcuni framework di settore richiedono controllo completo dello stack.
Modelli e tecnologie che usiamo per gli SLM
Modelli open consolidati
- · Llama 3.3 / 4 (Meta) — famiglia 8B-405B, italiano accettabile, ottimo per general-purpose
- · Mistral — famiglia europea (Francia), italiano molto buono, 7B-123B, qualità eccellente per dimensione
- · Qwen (Alibaba) — multilingua di alta qualità, ottime performance su benchmark
- · Modello Italia / Italian LLM — modelli italiani sviluppati in Italia, scelta strategica per progetti italiocentrici
- · Phi (Microsoft) — modelli piccoli (3B-14B) di altissima qualità, perfetti per edge
Tecnologie di deployment
- · vLLM, TGI, Ollama: serving engine per produzione
- · Triton Inference Server: per scale enterprise
- · NVIDIA NIM: deployment containerizzato standardizzato
- · GPU: NVIDIA H100, A100, L40, L4 per casi più leggeri
Fine-tuning e adaptation
- · LoRA/QLoRA: fine-tuning efficiente in memoria
- · Continued pre-training: per vocabolario molto specifico
- · RAG su SLM: combinazione frequente, spesso più efficace del fine-tuning
Server fisici nella vostra infrastruttura. Massimo controllo, con costi infrastruttura significativi (hardware iniziale importante per setup serio). Adatto per: dati altamente classificati, vincoli infrastrutturali, organizzazioni con datacenter robusti già esistenti.
