Vai al contenuto principale
Holocron
Lab session // live
[ AI LAB · 07 · SLM PRIVATI ]

Tutta la potenza dell'AI. Niente dato fuori dalle vostre mura.

Small Language Model deployment in cloud sovrano italiano, on-premise, edge o hybrid. Per dati sensibili, vincoli di sovranità, settori regolati, controllo costi a regime. Modelli aperti (Llama, Mistral, Qwen, Modello Italia) + fine-tuning + deployment + esercizio.

09
servizi attivi
EU AI Act
compliant by design
prod-ready
not POC theater
/ QUANDO HA SENSO

Gli LLM in API funzionano per il 70% dei casi. Per il restante 30%, serve altro.

Gli API enterprise dei principali provider LLM commerciali (inclusi i grandi cloud) sono ottime tecnologie. Funzionano benissimo per la maggior parte dei casi B2B, con compliance ragionevole, deployment rapido, evolution continua, costi prevedibili. Quando consigliamo questa strada, lo facciamo con convinzione.

Esistono però sei situazioni in cui un modello privato (Small Language Model auto-ospitato) diventa la scelta corretta. Sono tutte legate a vincoli specifici — di settore, di sovranità, di volumi, di latenza, di proprietà intellettuale, di controllo costi a regime. Non è una scelta ideologica "AI sovrana ad ogni costo" — è una scelta razionale quando i numeri o i vincoli normativi la giustificano.

La nostra pratica SLM Privati comprende selezione del modello, fine-tuning su dati aziendali (quando serve), deployment su infrastruttura corretta (cloud sovrano Deepstone, on-premise, edge), MLOps continuativo. Lavoriamo sui modelli open di qualità: Llama (Meta), Mistral, Qwen, e — quando ha senso linguisticamente — Modello Italia/Italian LLM.

/ FIT

Sei situazioni in cui un SLM privato è la scelta giusta

01 / 06

Dati altamente sensibili

Dati sanitari, dati di credit scoring, informazioni proprietarie. La policy interna o la normativa di settore vieta deployment cloud, anche enterprise.

02 / 06

Sovranità nazionale richiesta

Settore pubblico, difesa, infrastrutture critiche. Vincolo esplicito di residenza dati in Italia o EU, con cloud provider non-USA.

03 / 06

Cost predictability a regime

Volume di richieste molto alto (milioni di token/giorno). I costi API diventano significativi e variabili. SLM auto-ospitato = costo fisso prevedibile.

04 / 06

Latency requirements bassi

Edge computing, retail in-store, manifatturiero on-line. Latenza necessaria <100ms — non compatibile con round-trip su API cloud.

05 / 06

IP protection sui prompt

Per casi competitivi: i prompt aziendali sono knowledge proprietary. Non si vuole esporli, nemmeno in transit, a un vendor terzo.

06 / 06

Compliance settoriale stringente

Pharma (GxP), banking (Banca d'Italia), public sector (AgID). Alcuni framework di settore richiedono controllo completo dello stack.

/ STACK

Modelli e tecnologie che usiamo per gli SLM

Modelli open consolidati

  • · Llama 3.3 / 4 (Meta) — famiglia 8B-405B, italiano accettabile, ottimo per general-purpose
  • · Mistral — famiglia europea (Francia), italiano molto buono, 7B-123B, qualità eccellente per dimensione
  • · Qwen (Alibaba) — multilingua di alta qualità, ottime performance su benchmark
  • · Modello Italia / Italian LLM — modelli italiani sviluppati in Italia, scelta strategica per progetti italiocentrici
  • · Phi (Microsoft) — modelli piccoli (3B-14B) di altissima qualità, perfetti per edge

Tecnologie di deployment

  • · vLLM, TGI, Ollama: serving engine per produzione
  • · Triton Inference Server: per scale enterprise
  • · NVIDIA NIM: deployment containerizzato standardizzato
  • · GPU: NVIDIA H100, A100, L40, L4 per casi più leggeri

Fine-tuning e adaptation

  • · LoRA/QLoRA: fine-tuning efficiente in memoria
  • · Continued pre-training: per vocabolario molto specifico
  • · RAG su SLM: combinazione frequente, spesso più efficace del fine-tuning

Server fisici nella vostra infrastruttura. Massimo controllo, con costi infrastruttura significativi (hardware iniziale importante per setup serio). Adatto per: dati altamente classificati, vincoli infrastrutturali, organizzazioni con datacenter robusti già esistenti.

/ FAQ

Domande frequenti

Per casi specifici, sì. Llama 3.3 70B e Mistral Large 2 sono competitivi con i modelli frontier commerciali su molti benchmark. Per il top frontier (reasoning complesso, math, code molto difficile) i modelli frontier closed restano ancora migliori. Per i casi B2B aziendali tipici, la differenza pratica è spesso non significativa.
Per un modello 70B in produzione con buone performance: 2-4 GPU H100 o equivalente. Per modelli più piccoli (8B-14B) è significativamente meno. Per casi edge (3B-7B) bastano spesso schede consumer.
Spesso meno di quanto si pensa. RAG su un modello base ben scelto produce risultati eccellenti senza fine-tuning. Il fine-tuning ha senso per: vocabolario molto specialistico (legale, medicale, fiscale italiani), tono di voce specifico aziendale, task strutturati ben definiti. Lo decidiamo dopo i primi test.
Sì, con effort. L'architettura del nostro deployment è agnostica rispetto al modello sottostante — il routing e le pipeline rimangono, il modello si sostituisce. È un'attività di 2-6 settimane per testare un nuovo modello e procedere con il cutover. Lo abbiamo già fatto su clienti (passaggio Llama 2 → 3, poi → 3.3).
/ Parliamone

Avete vincoli che rendono il cloud non un'opzione?

Una call di 30 minuti per capire vincoli, volumi e modalità di deployment. Poi una proposta scritta entro 5 giorni lavorativi.

  • +39 050 500525
  • info@holocron.it
  • Pisa · Milano