Self-host vs cloud EU per AI in azienda: come decidere

La domanda che vi farà l'IT al primo meeting

"Possiamo metterlo tutto in casa? Non vogliamo che i nostri dati vadano fuori dall'azienda."

È una domanda legittima e in genere arriva da CTO o IT Manager con esperienza in regulated industry o in aziende che hanno avuto incident di compliance in passato. La risposta giusta non è "sì certo" né "no impossibile". È "valutiamo, perché in 9 casi su 10 non vi conviene economicamente, e in 1 caso su 10 vi conviene davvero".

Questa pagina è una mappa pratica per decidere senza farsi guidare dall'ideologia ("on-prem è sempre più sicuro") né dalle slide del fornitore ("cloud è sempre più economico"). Numeri reali, scenari reali.

I tre scenari possibili

Scenario A: cloud API EU (il default consigliato)

Il modello AI gira su API di un fornitore europeo o di un fornitore che garantisce data residency EU. I dati ci passano attraverso, ma non vengono usati per training, vengono ritenuti pochi giorni per fini anti-abuso, poi cancellati.

Esempi pratici:

Anthropic Claude API: per clienti commerciali, i dati non sono usati per training. Retention standard 7 giorni dal settembre 2025 (estendibile a 30 con DPA), opzione Zero Data Retention disponibile per clienti enterprise idonei.
Mistral La Plateforme: hosting EU di default (datacenter primario in Svezia, backup in Irlanda). Dati non usati per training. Retention 30 giorni di default. Zero Data Retention disponibile in opzione enterprise. DPA disponibile per tutti i clienti business.
Azure OpenAI Service in region europea (West Europe / North Europe): contratto con Microsoft Ireland, dati non usati per training su tier enterprise.

Quando ha senso:

Volumi sotto i 2-5 milioni di token al giorno (la stragrande maggioranza delle PMI)
Tempi: deploy in 1-2 settimane vs 8-12 di un on-prem
Manutenzione minima: aggiornamenti modelli automatici, niente GPU da gestire
Costo prevedibile: paghi a token consumati, niente capex

Scenario B: self-host on-premise

Il modello AI gira su server vostri, dentro il vostro data center o sul vostro VPS dedicato. Tipicamente Llama, Mistral open weight, Qwen, o altri modelli open source. GPU sufficienti per il modello scelto.

Quando ha davvero senso:

Volumi sostenuti molto alti (oltre 11 miliardi di token al mese, secondo le analisi di break-even più conservative del 2026, oppure 2-5 milioni di token al giorno secondo analisi più ottimistiche)
Settori con vincoli regolatori che escludono qualunque cloud (es. difesa, alcune branche del settore sanitario pubblico)
Casi d'uso con latenza critica sotto i 100ms (raro in PMI manifatturiera tipica)

Costo reale del self-host (numeri 2026, fonte Spheron, SitePoint, blog tecnici di settore):

Un nodo enterprise 8x H100 in cloud GPU costa $287.000-482.000/anno a 100% utilizzo
Hardware on-prem dedicato (con CapEx ammortizzato su 3 anni): pavimento ~$237.000/anno
Self-host costa 3-5 volte il prezzo grezzo della GPU (perché aggiungi: power, cooling, networking, sysadmin, monitoring, redundancy)
Egress fees su 1 TB/giorno: $2.600-3.600/mese aggiuntivi
Tempo IT mensile per gestione: 2-4 ore per setup leggero, 30-60 ore per setup heavy

Quando il break-even diventa interessante: GPU a oltre il 70-80% di utilizzo sostenuto su orizzonte di 3 anni. Sotto soglia, il cloud vince sempre sul TCO.

Scenario C: ibrido (self-host + cloud overflow)

Architettura mista: la baseline costante gira self-host (modello open source su GPU dedicata), i picchi di traffico e i casi che richiedono modelli più potenti (Claude, GPT-5) vanno via API cloud. Pattern in crescita nel 2026.

Quando ha senso:

Aziende che hanno già investito in infrastruttura GPU per altri usi (computer vision, training interno)
Volumi misti: 70% commodity routing (self-host), 30% reasoning complesso (cloud frontier model)

In una PMI manifatturiera tipo, è un'architettura over-engineered per il primo anno di automazione. Senso solo se siete già a 3+ automazioni in produzione e vedete pattern di traffico misti.

La griglia decisionale onesta

Situazione	Cosa scegliere	Perché
PMI 50-250 dip., 1-3 automazioni AI, dati personali clienti	Cloud API EU (Mistral / Claude / Azure OpenAI EU)	TCO 5-10x inferiore, deploy 5x più veloce, niente GPU da gestire
PMI con vincoli legali stringenti (difesa, sanità pubblica)	Self-host on-prem	Compliance non negoziabile, costo accettato
Azienda con team IT >15 persone, già infrastruttura GPU per altri usi	Ibrido	Riusa investimento esistente
PMI che dice "noi vogliamo tutto in casa" senza vincoli reali	Cloud API EU + DPA solido	La ragione è ideologica, non tecnica. Convincete con i numeri.

I tre miti da smontare

Mito 1: "Self-host è più sicuro perché i dati restano in casa".
Falso in linea generale. Cloud EU con DPA + ZDR + sub-processor list è oggettivamente più sicuro di un server self-host gestito da un IT Manager solo, senza patching regolare, senza monitoring 24/7, senza backup off-site verificato. La sicurezza vera non viene dalla collocazione fisica, viene dalla disciplina operativa.

Mito 2: "Cloud costa meno solo all'inizio, poi il vendor ti spreme".
Falso per i volumi tipici di una PMI. Il break-even del self-host è a volumi industriali (centinaia di milioni o miliardi di token/mese). Una PMI che processa 50.000 documenti l'anno via DocBot non arriverà mai vicino a quei volumi. Pagherete sempre meno con API cloud.

Mito 3: "Con on-prem possiamo customizzare il modello come vogliamo".
Vero in teoria, falso in pratica per il 95% delle PMI. La customizzazione (fine-tuning, RAG aziendale, prompt engineering) si può fare benissimo con API cloud. Il modello base custom-trained dal vostro team è un investimento di centinaia di migliaia di euro che non recupererete mai per use-case PMI.

La cosa onesta da dire al vostro IT

Se l'IT vi pressa per il self-host, fate fare loro questo esercizio in 1 ora:

Calcolate quanti token servono al mese per le automazioni che volete fare (10x più alto se volete starci larghi)
Confrontate il costo cloud (Anthropic, Mistral, Azure) per quel volume vs il costo on-prem (hardware + licenze + ore IT)
Aggiungete il fattore manutenzione (oneri operativi annui = 3-5x costo hardware)
Riportate il numero al management

Nei 9 casi su 10 di PMI italiana, il cloud EU vince per fattori di 5-10x sul TCO triennale. Nel decimo caso (volumi industriali, vincoli regolatori veri), l'on-prem si paga da solo.

L'IT deve avere una decisione informata. Se decide on-prem dopo aver visto i numeri, è una scelta legittima. Se decide on-prem prima dei numeri, è una scelta emotiva.

Cosa facciamo noi di default

Per le PMI manifatturiere italiane, partiamo sempre con cloud EU:

Default modello: Claude su Anthropic API (commerciale, no training, retention 7 giorni)
Default secondario: Mistral La Plateforme (EU residency, no training, DPA pronto)
Hosting orchestrazione e dati: Hetzner Helsinki, Finlandia. EU-only
DPA con il cliente: customizzato sul caso specifico, sub-processor list esplicita

Self-host lo facciamo solo se il cliente ha vincoli reali (regulated industry, settore difesa, normativa interna che non ammette deroghe). Non perché abbiamo paura del self-host: perché in 9 casi su 10 è una soluzione costosa per un problema che non c'è.

Se il vostro IT sta valutando un'architettura AI ma le ipotesi non vi tornano, vale mezz'ora di chiamata. Vi diciamo quale topology ha senso per i vostri volumi e i vostri vincoli, niente pitch.

Prenota una call di 15 minuti →

I numeri di costo cloud GPU citati in questa pagina (H100 a $287-482k/anno, break-even a 11B token/mese) sono benchmark pubblici 2026 da analisi di settore. I numeri reali per il vostro caso dipendono da volume, regione, tipo di GPU e contratto. Calibrate sui vostri parametri prima di decidere.