I modelli di Ia della start-up che sta scuotendo i mercati sono frutto della rincorsa cinese dell’ecosistema tech occidentale, che continua a trottare. Ecco i motivi per cui è prematuro annunciare la fine della supremazia Usa (e Ue)
È bastata qualche seduta di borsa per interrompere bruscamente la lunga galoppata dei titoli delle aziende tecnologiche statunitensi legate allo sviluppo dell’intelligenza artificiale. La causa è DeepSeek, un concorrente cinese che lo scorso 20 gennaio – giorno della cerimonia di insediamento di Donald Trump alla Casa Bianca – ha rilasciato il suo ultimo modello, r1, che ha scalato velocemente le classifiche di download e portato gli investitori a riflettere sul valore dei titoli tech Usa.
Il prodotto dell’azienda cinese sembra mettere in discussione i fondamentali dietro al successo dell’ecosistema statunitense di IA. Non solo r1 è open source, liberamente utilizzabile da chiunque, e in grado di “ragionare” e rivaleggiare con il prodotto leader delle aziende statunitensi (come o1 di OpenAI, dunque battendo le rivali Anthropic, Google e Meta). Stando ai paper scientifici rilasciati da DeepSeek l’azienda è riuscita ad addestrare il modello con una frazione delle risorse impiegate dai rivali a stelle e strisce. E usare il suo modello più potente costa 27 volte in meno rispetto al prodotto rivale di OpenAI.
Secondo quanto dichiarato da DeepSeek, lo sviluppo del suo penultimo modello (V3) avrebbe richiesto solo due mesi (molto meno rivali Usa) e 5,6 milioni di dollari, contro le centinaia di milioni impiegati dall’altra parte del Pacifico. L’azienda si è avvalsa di 2,048 chip Nvidia H800 (le rivali ne usano decine di migliaia), meno potenti di quelli un uso negli States e progettati apposta per superare i controlli alle esportazioni verso la Cina. In più, per via della capacità limitata e del numero ridotto di questi processori, l’addestramento avrebbe richiesto anche meno energia rispetto ai concorrenti.
Il tutto sembra confutare il concetto di “scaling law”, l’idea diffusa dai leader statunitensi secondo cui i modelli di IA diventano tanto più intelligenti quanto più vengono foraggiati con dati e risorse di calcolo. Sulla base di questo assioma le aziende Usa prevedono di aumentare gli investimenti per lo sviluppo di tecnologie IA (già pari a decine di miliardi all’anno), l’amministrazione Trump promette un investimento da 500 miliardi di dollari per i data center in cui addestrare i nuovi modelli (per il patron di Nvidia, Jensen Huang, il capitale investito nel settore sarà almeno il doppio) e le aziende di IA statunitensi scommettono sulle centrali nucleari per soddisfare il fabbisogno previsto di elettricità.
I numeri di DeepSeek sono davvero un game changer, specie se calati nel contesto di una più vasta contesa geopolitica tra Stati Uniti e Cina per la supremazia nel settore dell’IA. Entrambi lo vedono come un moltiplicatore di capacità economiche e militari, motivo per cui Washington ha imposto una serie progressiva di divieti all’export di hardware e software per limitare il progresso cinese in questo campo. In questa ottica, i risultati di DeepSeek sono – per utilizzare le parole del ceo di OpenAI Sam Altman – “impressionanti”. Ma ci sono diverse ragioni per credere che la reazione dei mercati all’arrivo di r1 sia decisamente sproporzionata.
Stando a quanto dichiarato da DeepSeek, la cifra di 5,6 milioni di dollari è riferita all’addestramento del modello V3, rilasciato a dicembre, predecessore di r1 e incapace di “ragionare” – uno degli sviluppi più recenti e importanti di questa tecnologia –, cosa che rende fuorviante il paragone con gli ultimi modelli made in Usa. V3 va confrontato con rivali come GPT-4o, rilasciato a maggio 2024, e i due rivaleggiano in una varietà di ambiti (anche se il modello di OpenAI rimane superiore per alcuni utilizzi specifici). Di contro, r1 è basato su V3 (come o1, rilasciato a settembre, è basato su 4o) ed effettivamente ha eguagliato il rivale di OpenAI, addirittura superandolo in ambiti come il calcolo, ma replicando il salto già compiuto dall’azienda di Sam Altman.
DeepSeek ha dichiarato che il costo di addestramento di V3 è pari a 5,6 milioni di dollari. Anche questa voce di spesa va contestualizzata: si riferisce solo al processo di training di questo modello e non tiene conto del costo complessivo dell’operazione, tra cui: spese di ricerca e sviluppo (ricerche e modelli precedenti, esperimenti falliti); costi dei dati di addestramento (acquisizione e preparazione del set di dati); costi del personale (gli stipendi per il team di ricerca e quelli del resto dell’azienda); infrastruttura (elettricità, raffreddamento dei server, manutenzione); hardware (costo effettivo dei processori, potenzialmente pari a centinaia di milioni).
Alcuni analisti stimano che il budget totale per la ricerca e lo sviluppo di V3 potrebbe aggirarsi intorno ai 100 milioni di dollari. Dylan Patel della società di consulenza specializzata SemiAnalysis ha stimato che DeepSeek avrebbe “speso oltre 500 milioni di dollari in processori nel corso della sua storia” e con la sua consociata, l'hedge fund High-Flyer, ha accesso a decine di migliaia di chip Nvidia, utilizzati per addestrare i predecessori di r1.
infine, òe stime più prudenti collocano il costo delle operazioni di DeepSeek tra il mezzo miliardo e il miliardo di dollari all’anno. L’operazione è “snella” rispetto alle rivali statunitensi, ma queste ultime hanno aperto molte strade che i ricercatori di DeepSeek hanno poi percorso per sviluppare i loro modelli. Come scrive Jordan Schneider di ChinaTalk, “il fatto che V3 sia stato addestrato con meno potenza di calcolo non sorprende: gli algoritmi di apprendimento automatico sono sempre diventati più economici nel tempo”.
I lettori più attenti si saranno accorti che DeepSeek ha utilizzato dei processori Nvidia, azienda statunitense. I più ferrati sapranno che i macchinari litografici (gli “stampi” per i semiconduttori) più avanzati sono prodotti quasi esclusivamente dall’olandese Asml. Entrambe le aziende sono sottoposte – come altri fornitori occidentali di hardware e software specifici per l’IA – a un rigido schema di controlli alle esportazioni verso la Cina. Voluto dall’amministrazione di Joe Biden, lo sforzo di contenimento pratico è iniziato a ottobre 2023; l’ultima ondata di restrizioni è in auge da gennaio 2025, e le aziende cinesi si sono assicurate di fare incetta di macchine e componenti occidentali prima di ogni stretta.
Questo per dire che gli effetti dei controlli alle esportazioni diventeranno progressivamente più evidenti nei mesi e negli anni a venire (al netto del successo cinese nel reperire i chip attraverso il mercato nero o affittare potenza di calcolo in altri Paesi). Con ogni probabilità continueranno a rimanere in vigore sotto Trump – il quale ha definito DeepSeek un “campanello d'allarme per le nostre industrie: dobbiamo essere concentrati al massimo sulla competizione [con la Cina] per vincere”.
Tutto questo non sminuisce, anzi accentua, il risultato eccezionale di DeepSeek: sviluppare modelli validi nonostante le restrizioni sempre più stringenti, e farlo con metodi creativi, apprezzati anche dai ricercatori statunitensi, per aumentare l’efficienza dell’intero processo. Questo però vale per tutti. “Se è possibile [sviluppare modelli IA] in modo più economico, se è possibile farlo a un costo inferiore e raggiungere lo stesso risultato finale, credo che sia una buona cosa per noi”, ha detto Trump alla stampa, dichiarando di non essere preoccupato per la svolta e che gli Usa rimarranno un attore dominante nel settore dell’IA. Del resto, oltreoceano erano in molti a ritenere che il fiume di denaro impiegato nell’industria IA fosse esagerato.
Allo stesso modo la “democratizzazione” dello sviluppo di modelli IA, conseguenza del fatto che addestrarli sembra essere più accessibile, è una buona notizia per chi fabbrica chip, non il contrario. Come ha scritto su X l’ex ceo di Intel, Pat Gelsinger, la storia insegna che rendere gli sviluppi tecnologici “drasticamente più economici espanderà il mercato”. I mercati sbagliano, continua: l’effetto DeepSeek aumenterà la diffusione dell'IA, e di conseguenza la galassia di industrie che ne sono la base, dai processori all’energia, passando per il software di sviluppo. Senza contare il fatto che il processo di “ragionamento” richiede molta più capacità di calcolo.
È questo il vero “però”, ed è stato ben formulato dagli stessi ricercatori cinesi. Il 26 gennaio, presso Shixiang (una società di venture capital nata dalla divisione cinese di Sequoia Capital China), si è tenuta una riunione a porte chiuse con decine di ricercatori locali di IA, investitori e addetti ai lavori. E dagli spunti di riflessione emersi (via ChinaTalk) spicca una conclusione ineluttabile: il tema della potenza di calcolo non è affatto destinato a scomparire andando avanti nello sviluppo dell’IA, la domanda per la capacità di calcolo rimane elevata, e nessuna azienda cinese ne ha abbastanza.
La stessa DeepSeek ha ammesso che il principale ostacolo è rappresentato dai controlli sulle esportazioni degli Stati Uniti, che come rileva Dean W. Ball su Lawfare sono progettati per colpire l’intero ecosistema – non lo sviluppo di un singolo modello. Dunque resta da vedere se le aziende come DeepSeek sapranno colmare l’allargamento della forbice della potenza di calcolo tra Cina e Usa. Senza parlare del fatto che le principali aziende statunitensi, con l’eccezione di Meta, non giocano a carte scoperte con modelli open source ma si tengono ben stretti i loro segreti industriali. Come ha dichiarato Sam Altman, ci sono “modelli migliori” di r1 in arrivo a breve. (di Otto Lanzavecchia)