Un team di ricercatori di Microsoft AI ha sviluppato un sistema di intelligenza artificiale in grado di emulare il complesso processo diagnostico iterativo dei medici, ottenendo risultati sorprendenti. Messa alla prova su oltre 300 casi clinici considerati “impossibili” (presentati alla conferenza clinico-patologica del ‘New England Journal of Medicine’), questa “super AI in camice bianco” ha dimostrato un’accuratezza diagnostica quattro volte superiore rispetto alla media ottenuta dai medici umani, il tutto con costi minori.
Lo studio, disponibile in versione preprint (quindi non ancora sottoposto a revisione paritaria), evidenzia come l’intelligenza artificiale possa ampliare l’accesso alle conoscenze e al ragionamento medico specialistico. La maggior parte delle valutazioni dei modelli linguistici si basa su vignette statiche e domande a risposta multipla, che non riflettono la complessità della medicina basata sulle prove di efficacia in contesti reali. Nella pratica clinica, i medici formulano e rivedono iterativamente ipotesi diagnostiche, adattando ogni domanda e test successivo a ciò che hanno appena appreso, prima di formulare una diagnosi definitiva.
Come Funziona il “Sequential Diagnosis Benchmark”
Per emulare questo processo iterativo, il team di scienziati ha introdotto il ‘Sequential Diagnosis Benchmark’, che trasforma 304 casi clinici difficili da diagnosticare in incontri diagnostici graduali.
Il “test” si svolge così: un medico o un’IA iniziano ad analizzare un breve abstract del caso e devono richiedere ulteriori dettagli a un modello “gatekeeper” che rivela determinati risultati solo quando esplicitamente interrogato. La performance viene valutata non solo in base all’accuratezza diagnostica, ma anche in base al costo delle visite mediche e degli esami eseguiti.
Da questo percorso nasce il MAI Diagnostic Orchestrator (MAI-DxO), un orchestratore indipendente dal modello che simula l’attività di un panel di medici, propone probabili diagnosi differenziali e seleziona strategicamente test di alto valore e convenienti.
Risultati Rivoluzionari: Precisione e Costo-Efficacia
I risultati ottenuti promuovono la “macchina” con dati significativi:
- In abbinamento al modello di OpenAI, il sistema (una sorta di intelligenza artificiale “agentica” e autonoma) raggiunge un’accuratezza diagnostica dell’80%, quattro volte superiore alla media del 20% dei medici generalisti.
- Riduce i costi diagnostici del 20% rispetto ai medici e del 70% rispetto al modello standard di AI.
- Se configurato per la massima accuratezza, raggiunge quota 85,5%.
Gli autori dello studio sottolineano che gli attuali modelli di AI possono essere utilizzati in modo da adottare un processo di ragionamento simile a quello che seguirebbe un gruppo di specialisti umani. I miglioramenti delle prestazioni sono generalizzati, indipendentemente dai modelli utilizzati, che siano delle famiglie OpenAI, Gemini, Claude, Grok, DeepSeek e Llama.
“Evidenziamo – concludono gli autori – come i sistemi di intelligenza artificiale, se guidati a pensare in modo iterativo e ad agire giudiziosamente, possano migliorare sia la precisione diagnostica che il rapporto costo-efficacia nell’assistenza clinica”. Questa ricerca apre nuove frontiere per il futuro della medicina, suggerendo un potenziale significativo per l’AI nel supportare e migliorare la diagnosi clinica.