Publicerad: 2026-03-09 16:22 | Uppdaterad: 2026-03-09 16:28

Ett nytt paradigm för medicinsk AI: varför oenighet mellan modeller kan vara mer värdefullt än konsensus

Artificiell intelligens läkare för smart sjukhus eller klinik, framtida teknik för hälso-och robot. - Bildbanksfoto
Foto: Getty Images

När ett AI-system inom hälso- och sjukvården ger ett säkert svar – bör läkare lita på det? I en ny artikel från Frontiers in Artificial Intelligence hävdar bland andra Farhad Abtahi, forskare vid KI, att frågan i sig är fel och att hela området behöver omvärdera hur medicinska AI-system utformas. Här utvecklar han resonemanget.

Forskare vid Karolinska Institutet föreslår MEDLEY (Medical Ensemble Diagnostic system with Leveraged diversitY), ett konceptuellt paradigm som utmanar den dominerande ansatsen att bygga allt större enskilda AI-modeller. I stället för att söka ett enda bästa svar samordnar MEDLEY flera AI-modeller parallellt och bevarar medvetet deras oenigheter – och betraktar mångfalden av utdata som en resurs för kliniskt resonemang snarare än ett problem som ska lösas.

Vi talade med Farhad Abtahi, forskare och chef för SMAILE (Stockholm Medical AI and Learning Environments) kärnfacilitet vid institutionen för klinisk forskning, intervention och teknik, och korresponderande författare till studien.

Du beskriver MEDLEY som ett paradigmskifte. Vad menar du med det?

Farhad Abtahi, Senior Forskningsinfrastrukturspecialist vid CLINTEC.
Farhad Abtahi, Senior Forskningsinfrastrukturspecialist vid CLINTEC. Foto: N/A

– I dag är den dominerande trenden inom medicinsk AI att bygga en enda kraftfull modell och betrakta dess utdata som svaret. MEDLEY föreslår något fundamentalt annorlunda. I stället för att reducera flera perspektiv till ett konsensus bevarar vi dem. Läkaren ser var modellerna är överens, var de är oeniga och varför – eftersom varje modells träningsbakgrund och partiskhet dokumenteras transparent. Detta förskjuter målet från att maximera noggrannhet genom enhetlighet till att öka insikt genom strukturerad mångfald. Det är ett annat sätt att tänka på vad medicinsk AI bör göra.

Varför är det så centralt att hålla läkaren i beslutsslingan i MEDLEY?

– Därför att det slutgiltiga beslutet inom hälso- och sjukvården alltid måste fattas av en människa. Det är inte bara ett regulatoriskt krav – det är ett etiskt imperativ. Men för att mänsklig övervakning ska vara meningsfull måste läkare faktiskt förstå vad de övervakar. En enda modell som presenterar ett säkert svar med en välartikulerad förklaring kan i själva verket underminera det mänskliga omdömet genom att uppmuntra automationsbias – tendensen att överlita på automatiserade system. Forskning visar att när AI ger övertygande förklaringar är läkare mer benägna att acceptera felaktiga svar utan att ifrågasätta dem.

– MEDLEY är utformat för att motverka detta. Genom att presentera flera perspektiv – inklusive minoritetssynpunkter och mönster av oenighet – håller ramverket läkare aktivt engagerade i resonemangsprocessen. Det fungerar mer som en strukturerad konsultationspanel än som ett ogenomskinligt orakel. Läkaren blir en samordnare av olika analytiska perspektiv, inte en passiv mottagare av ett enda svar.

Men riskerar inte outputs från många olika modeller att överväldiga läkaren?

– Det är en avgörande designfråga, och en fråga som vi adresserar direkt i artikeln. Kognitiv belastningsteori säger oss att presentera för mycket information samtidigt kan försämra snarare än förbättra beslutsfattandet. MEDLEY hanterar detta genom vad vi kallar stegvis informationsvisning. Standardvyn för läkare visar enbart konsensusresultatet med en sammanfattande osäkerhetsindikator. Alternativa och minoritetsdiagnoser finns tillgängliga, men bara när läkaren väljer att expandera dem – typiskt i komplexa eller tvetydiga fall.

– Systemet använder också tröskelbaserad aktivering. För rutinmässiga högkonsensusfall presenterar MEDLEY ett förenklat utdata och reserverar den fulla ensemblemångfalden för fall där oenigheten faktiskt tillför diagnostiskt värde. Visuella kodningar som konfidensband och divergensindikatorer förmedlar mönster på  ensemblenivå utan att läkaren behöver bearbeta varje modells utdata individuellt. Målet är tillgänglighet när mångfald spelar roll, och osynlighet när den inte gör det.

Det finns stort intresse för förklarbar AI just nu. Du verkar skeptisk?

– Inte skeptisk till målet, utan till antagandet att förklaring är liktydigt med tillförlitlighet. Det är ett av artikelns viktigaste argument. Stora språkmodeller är anmärkningsbart bra på att generera förklaringar som låter kliniskt rimliga: säkra, välartikulerade, välstrukturerade. Men forskning visar alltmer att dessa förklaringar ofta har liten koppling till hur modellen faktiskt kom fram till sitt utdata. Vi kallar detta “digital sofistik”: övertygande tal förklätt som transparens.

– Risken är verklig. En modell kan ställa fel diagnos med ett oklanderligt klingande resonemang. Om läkaren litar på förklaringen litar hen på svaret – och patienten kan skadas. Förklarbarhet, så som den praktiseras idag, kan faktiskt förvärra automationsbias snarare än att motverka den.

– MEDLEY kringgår denna paradox helt. I stället för att förlita sig på en enskild modells förmåga att förklara sig själv söker det tillförlitlighet genom det strukturerade samspelet mellan konvergenta och divergenta perspektiv över flera modeller. Det är en dialektik av utdata snarare än en uppvisning av resonemang. Om flera oberoende modeller med olika träningsbakgrunder är överens bär den konvergensen verklig evidentiell tyngd. Om de är oeniga är den oenigheten en kliniskt meningsfull signal.

Partiskhet ses traditionellt som ett fel i AI. Du har en annan syn?

– Ja, och detta är kärnan i paradigmskiftet. Partiskhet i AI speglar de data en modell tränades på: vilka populationer, vilka institutioner, vilka kliniska praxis. I stället för att behandla detta som rent negativt dokumenterar MEDLEY partiskhet som en form av specialisering. En modell tränad främst på data från östasiatiska populationer kan känna igen vissa tillstånd bättre än en som tränats i Nordeuropa, och vice versa. Nyckeln är att göra dessa skillnader transparenta så att läkare kan väga dem i sitt sammanhang.

– Det innebär inte att all partiskhet är acceptabel. Artikeln drar tydliga etiska gränser: partiskhet som förstärker stereotyper, kodar diskriminerande surrogatvariabler eller ersätter statistisk korrelation med klinisk kausalitet är aldrig acceptabel. Men en partisk modell som bidrar till ett transparensbevarande ensemble är etiskt skild från samma modell som driftsätts som ett fristående beslutsstöd.

Ni byggde ett konceptbevis, vad visade det?

– För att illustrera hur MEDLEY fungerar i praktiken utvecklade vi ett demonstrationssystem för differentialdiagnostik – den kliniska uppgiften att generera och rangordna möjliga diagnoser – med hjälp av över 30 stora språkmodeller med olika geografiska, arkitektoniska och tidsmässiga ursprung. Det är viktigt att betona att detta var en specifik tillämpning av paradigmet, inte MEDLEY i sig. Ramverket är utformat för att tillämpas brett över medicinska AI-domäner.

– Inom medicinsk avbildning diskuterar artikeln till exempel hur MEDLEY kan synliggöra var olika segmenteringsmodeller är oeniga om tumörgränser. Inom strålbehandlingsplanering är dessa oenigheter inte brus – de kan vara avgörande för att undvika strålexponering mot känsliga strukturer. Traditionella ensemblemetoder aggregerar dessa utdata till en enda gräns och döljer diskrepanserna. MEDLEY bevarar dem för onkologen att utvärdera.

– I demonstrationssystemet för differentialdiagnostik fann vi att konsensusgraden varierade kraftigt mellan syntetiska fall – från cirka 48 procent för komplexa tillstånd till över 90 procent för väletablerade diagnoser. Fall med lägre konsensus innehöll en övervikt av sällsynta eller regionspecifika tillstånd – exakt där flera perspektiv tillför mest värde. I ett fall flaggade en enda modell tränad på data från östra Medelhavsområdet ett genetiskt tillstånd som alla övriga modeller missade. Det minoritetsresultatet presenterades med transparent proveniens, så att läkaren kunde avgöra om vidare utredning var motiverad.

– Det är observationer från ett konceptbevis med syntetiska fall, inte validerade kliniska fynd. Men de visar att ansatsen är tekniskt genomförbar och att meningsfulla mönster av överensstämmelse och oenighet uppstår från diversifierade ensembler.

Hur skiljer sig MEDLEY från medicinska AI-system som utvecklats av företag som Google och Microsoft?

– Det är en viktig distinktion. System som Googles AMIE och Microsofts MAI-DxO är imponerande resultat, men de verkar inom ett fundamentalt annorlunda paradigm. AMIE använder till exempel en enda stor språkmodell tränad genom självspel, där modellen simulerar båda sidor av ett läkare-patientsamtal. MAI-DxO tilldelar flera roller – som olika specialistperspektiv – men dessa roller utförs fortfarande av samma underliggande modell.

– MEDLEY skiljer sig genom att det använder genuint heterogena, parallella modeller: system byggda av olika team, tränade på olika data, med olika arkitekturer. Mångfalden är verklig, inte simulerad. När AMIE spelar rollen som kardiolog och sedan neurolog är det fortfarande samma modell med samma träningspartiskhet. När MEDLEY samordnar en modell tränad på skandinaviska sjukhusdata tillsammans med en tränad på sydostasiatiska kliniska journaler är det fundamentalt olika analytiska perspektiv. Den distinktionen spelar roll för patientsäkerheten.

Du nämner jämlik vård. Hur adresserar MEDLEY ojämlikheter i vården?

– Det är en av paradigmets viktigaste implikationer. Nuvarande “universella” AI-modeller tränas ofta främst på data från majoritetspopulationer i höginkomstländer. Forskning visar att dessa modeller producerar avsevärda fel för minoritetspatienter, och att ojämlikheter i prestation kvarstår även efter partiskhetsbedömningar. Sökandet efter en enda opartisk modell kan i praktiken försämra vården för underrepresenterade grupper, eftersom genomsnittsberäkningar över populationer raderar kliniskt meningsfulla skillnader.

– MEDLEY tar den motsatta ansatsen. Genom att samordna modeller tränade på diversifierade populationer och bevara snarare än släta över deras perspektiv skyddar ramverket uttryckligen minoritetssynpunkter. En modell utvecklad med data från Afrika söder om Sahara, från en inhemsk hälsotjänst, eller från ett sällsynt sjukdomsregister bidrar med perspektiv som skulle spädas ut eller förloras i en enda universell modell. Att göra varje modells träningspopulation transparent motverkar också det farliga antagandet att AI-system är inneboende objektiva.

Har MEDLEY implikationer bortom diagnostik – till exempel för AI-säkerhet?

– Ja, och det är en koppling vi finner särskilt intressant. Ett av de växande orosmomenten inom medicinsk AI är dataförgiftning, där manipulerade träningsdata kan styra ett AI-system mot osäkert beteende. Om man förlitar sig på en enda modell och den modellen är komprometterad finns det inget säkerhetsnät.

– MEDLEYs arkitektur erbjuder ett inbyggt skydd. Eftersom modellerna i ensemblen tränas på oberoende datakällor med olika arkitekturer är det osannolikt att de delar samma sårbarheter. Om en modell utsatts för dataförgiftning kommer den plötsligt att vara oenig med resten av ensemblen på ett sätt som kan detekteras. Samma oenighetsövervakning som berikar det diagnostiska resonemanget fungerar också som ett larmsystem mot manipulationsattacker. I vårt relaterade arbete om AI-säkerhet inom sjukvården, publicerat i Journal of Medical Internet Research, utforskar vi denna konvergens i detalj.

Kan MEDLEY förändra AI-marknaden inom sjukvården?

– Det tror vi. Den nuvarande marknaden rör sig mot ett fåtal stora företag som erbjuder enskilda “supermodeller”. MEDLEY skapar en fundamentalt annorlunda dynamik. Om mångfald värderas – inte bara rå noggrannhet från en källa – blir mindre företag med specialiserade modeller viktiga bidragsgivare. En startup inriktad på sällsynta sjukdomar, ett regionalt team med lokala populationsdata, eller en akademisk grupp som riktar in sig på underrepresenterade populationer får alla relevans inom ensemblen. Deras bidrag devalveras i enmodellsparadigm men är avgörande i MEDLEY.

Konceptuellt liknar detta ett app store-ekosystem för medicinsk AI, där diversifierade bidrag samexisterar och kompletterar varandra – demokratiserar deltagande och potentiellt accelererar innovation.

Hur förhåller sig detta till EU:s AI-förordning?

– EU:s AI-förordning klassificerar medicinsk AI som högrisk och kräver partiskhetsmitigering, transparens och mänsklig övervakning. MEDLEY harmonierar naturligt med dessa krav eftersom det gör partiskhet synlig genom design och behåller läkaren som den slutgiltiga beslutsfattaren. Den nuvarande regulatoriska miljön saknar dock ännu etablerade vägar för certifiering av ensemblenivåsystem, där värdet kommer från kombinationen av modeller snarare än från någon enskild. Att utveckla dessa vägar är ett viktigt nästa steg för både regleringsmyndigheter och forskarsamhället.

Vad behöver hända härnäst?

– Konceptbeviset fastställer teknisk genomförbarhet. Att översätta paradigmet till klinisk praxis kräver prospektiva kliniska studier som jämför MEDLEY-stödda beslut mot enmodells- och oassisterade läkare som baslinje, forskning om mänskliga faktorer kring hur läkare interagerar med flermodellsutdata och var kognitiv överbelastning blir en risk, samarbete med regleringsmyndigheter om certifiering på ensemblenivå, samt utökning till multimodala data – med kombinerat bildmaterial, laboratorievärden och kliniska anteckningar inom samma mångfaldsbevarande arkitektur. Visionen är människa-AI-samarbete där flera perspektiv berikar snarare än belastar kliniskt resonemang – vad Kasparov en gång kallade “Avancerat schack”, där människa-maskin-team överträffar vardera komponenten ensam, avslutar Farhad Abtahi.

Publikation

Leveraging imperfection with MEDLEY: a multi-model approach harnessing bias in medical AI. Abtahi F, Astaraki M and Seoane F (2026). Front. Artif. Intell. 9:1701665. doi: 10.3389/frai.2026.1701665