Microsoft MAI-modeller udfordrer OpenAI og Google — Illustreret med MAI-Image-2 via MAI Playground

Microsoft lancerer tre egenudviklede AI-modeller – og går direkte efter OpenAI og Google

Den 2. april 2026 annoncerede Microsoft tre nye grundlæggende AI-modeller bygget helt in-house: MAI-Transcribe-1, MAI-Voice-1 og MAI-Image-2. De er tilgængelige via Microsoft Foundry – den platform der tidligere hed Azure AI – og er det første store output fra MAI Superintelligence-teamet, ledet af Mustafa Suleyman siden november 2025.

Langt hen ad vejen er det et væddemål med høje indsatser: Microsoft har investeret massivt i OpenAI, men er nu ved at bygge konkurrerende produkter. Spørgsmålet er, hvad det betyder for det AI-marked, vi kender.

For danske brugere: MAI Playground (playground.microsoft.ai) er pt. kun tilgængeligt i USA. API-adgang via Microsoft Foundry kræver foreløbig East US eller West US som region - Microsoft har meddelt, at flere regioner er på vej. Vi har testet modellerne via VPN til USA.

De tre modeller – hvad kan de?

MAI-Transcribe-1: Tale-til-tekst der slår Whisper

MAI-Transcribe-1 er Microsofts bud på en produktionsklar transskriptionsmodel. Den er bygget af et team på under ti ingeniører og understøtter 25 sprog: engelsk, fransk, tysk, italiensk, spansk, hindi, portugisisk, tjekkisk, dansk, finsk, ungarsk, hollandsk, polsk, rumænsk, svensk, japansk, koreansk, kinesisk, arabisk, indonesisk, russisk, thai, tyrkisk og vietnamesisk.

Det er værd at bemærke, at dansk er med fra dag ét - det er ikke altid en selvfølge med nye AI-modeller. Til gengæld understøtter OpenAIs Whisper 99 sprog, så MAI-Transcribe-1 satser på kvalitet frem for bredde.

På branchens standardbenchmark FLEURS opnår modellen den laveste fejlrate (Word Error Rate) på tværs af de 25 sprog – den slår OpenAIs Whisper-large-v3, OpenAIs GPT-Transcribe og ElevenLabs' Scribe v2. Den er ifølge Microsoft 2,5 gange hurtigere end Microsofts tidligere Azure-transskriptionstjeneste og koster $0,36 per times lyd.

Modellen er dog foreløbig kun til batch-transskription – realtidsstreaming, taleridentifikation (diarization) og kontekstuel biasing er på vej.

MAI-Voice-1: Tekst-til-tale med menneskelig naturlighed

MAI-Voice-1 er Microsofts nye model til at generere talte stemmer fra tekst. Den kan producere 60 sekunders lyd på under ét sekund på en enkelt GPU og kan klone en stemme fra blot ti sekunders optagelse. Stemmekloning kræver en godkendelsesproces i overensstemmelse med Microsofts retningslinjer for ansvarlig AI.

Vigtigt for danske brugere: MAI-Voice-1 understøtter ved lanceringen kun engelsk. Microsoft har annonceret, at 10+ sprog er på vej - men dansk er endnu ikke bekræftet. Det gør modellen foreløbig mindre relevant for danske virksomheder, der har brug for dansk talegenerering.

Prisen er $22 per million tegn – billigere end ElevenLabs (som typisk koster $120–220 per million tegn) og sammenlignelig med OpenAIs TTS-HD til $30 per million tegn, men med stemmekloning inkluderet.

Microsoft giver adgang til et galleri med over 700 stemmer via Azure Speech, og modellen driver allerede Copilot Podcasts og Copilot Audio Expressions.

MAI-Image-2: Billedgenerering til lavere pris

MAI Playground – Microsofts interface til at teste MAI-Image-2 — MAI Playground på playground.microsoft.ai - alle tre MAI-modeller tilgængelige (pt. kun via USA)

MAI-Image-2 er Microsofts nyeste billedgenereringsmodel. Den genererer billeder op til 1024x1024 pixels og understøtter ekstremt lange prompts på op til 32.000 tokens – langt mere end de fleste konkurrenter.

Microsoft omtaler modellen som #3 model-familie på Arena.ai's globale leaderboard for billedgenerering. Det kræver dog en nuance: på det faktiske leaderboard ligger MAI-Image-2 på plads #5 (score 1190), bag to Google Gemini-varianter (#1 og #3–4) og OpenAIs GPT Image 1.5 (#2). Microsoft tæller Googles varianter som én familie – det er teknisk korrekt, men værd at vide.

Arena.ai Text-to-Image leaderboard – MAI-Image-2 på femtepladsen — Arena.ai's leaderboard, marts 2026 - MAI-Image-2 er #5 individuelt, men #3 som model-familie

Den koster ifølge Microsoft ca. 60% af hvad tilsvarende modeller koster at køre, og leverer ca. 90% af kvaliteten på de fleste opgaver.

Svaghederne er der: OpenAIs DALL-E 3 er stadig bedre til at gengive tekst præcist i billeder. Men på fotorealisme, hudtoner og komplekse kompositioner er MAI-Image-2 konkurrencedygtig.

Modellen udrulles i Bing Image Creator og PowerPoint. WPP, en af verdens største reklamekoncerner, bruger den allerede i stor skala. Udrulningen sker i faser, og Europa er endnu ikke fuldt dækket.

Vores test af MAI-Image-2

Vi har testet MAI-Image-2 via MAI Playground (tilgået via VPN til USA) for at se, hvordan modellen klarer sig i praksis.

Fotorealisme

MAI-Image-2 test: Dansk fiskerbåd i morgendis ved Gilleleje havn — Vores fotorealisme-test af MAI-Image-2 - bemærk naturligt lys, hudtoner og detaljer i brosten og net

Med prompten "A weathered Danish fishing boat moored at dawn in a small harbor, morning mist rising from calm water, cobblestone quay, warm golden light, photorealistic, natural skin tones on a fisherman checking his nets, Hasselblad medium format style" genererede MAI-Image-2 et billede med overbevisende naturligt lys, realistiske teksturer på brosten og net, og troværdige hudtoner på fiskeren. Modellen tilføjede selv navnet "HAVFRUEN" på båden – en detalje der viser, at den forstår konteksten.

Tekst i billeder

MAI-Image-2 test: Tekst-gengivelse i et plakat-design — MAI-Image-2 gengiver tekst rent og læseligt - en klassisk svaghed for AI-billedmodeller

Vi bad modellen generere en plakat til en fiktiv konference: "AI Summit Copenhagen 2026". Resultatet viser ren, læselig tekst med korrekt stavning – et område hvor mange AI-billedmodeller stadig fejler. Designet er minimalistisk og troværdigt, om end ikke på niveau med en professionel grafiker.

Sammenligning: MAI-Image-2 vs. ChatGPT vs. Google Gemini

For at teste modellerne fair brugte vi præcis samme prompt i alle tre:

"A weathered Danish fishing boat at dawn in Gilleleje harbor, morning mist, photorealistic, cinematic lighting"

Fiskerbåd genereret med MAI-Image-2 — Samme prompt testet i tre modeller - bemærk forskelle i lys, tekstur og realisme

Fiskerbåd genereret med ChatGPT — Samme prompt testet i tre modeller - bemærk forskelle i lys, tekstur og realisme

Alle tre modeller leverer imponerende fotorealisme. ChatGPT (GPT-4o) gik efter det mest dramatiske lys og stemning. Google Gemini tolkede prompten mest bogstaveligt og tilføjede endda "Gilleleje" som hjemhavn på båden. MAI-Image-2 holdt en køligere, mere nordisk tone med tung morgendis.

Forskellen mellem modellerne er i dag marginal for de fleste brugssituationer – men prisen varierer markant.

Hvorfor laver Microsoft sine egne modeller nu?

Det korte svar: fordi de nu har lov.

Den originale partnerskabsaftale med OpenAI forhindrede Microsoft i at bygge konkurrerende generative AI-modeller. Den aftale blev genforhandlet i september–oktober 2025, da OpenAI omstrukturerede til et offentligt velgørende selskab (Public Benefit Corporation). Microsoft gav sin velsignelse – og fik til gengæld:

Frihed til at bygge egne AI-modeller og konkurrere direkte
Licensrettigheder til alle OpenAI-modeller frem til 2032
$250 milliarder i nye Azure-cloudforpligtelser fra OpenAI

Det er en interessant situation: Microsoft og OpenAI er stadig forretningspartnere, men er nu også konkurrenter på samme marked.

Mustafa Suleyman sagde i et Bloomberg-interview i forbindelse med lanceringen, at Microsoft sigter mod at nå frontier-niveau på tværs af alle AI-modaliteter inden 2027. MAI-Image-2's placering i top 5 globalt tyder på, at det ikke er tom tale.

Den teknologiske infrastruktur bag

En vigtig detalje er, at de nye MAI-modeller kører på Microsofts egne chips. Maia 200, som Microsoft annoncerede i januar 2026, er bygget på TSMC's 3nm-proces med 140+ milliarder transistorer og leverer 3 gange bedre FP4-ydelse end Amazons Trainium (3. gen). Det giver Microsoft 30% bedre ydelse per dollar sammenlignet med ældre hardware.

Det er netop her, den kommercielle logik ligger: ved at køre egne modeller på egne chips behøver Microsoft ikke betale licensgebyrer til OpenAI for alle de billeder, transskriptioner og stemmer, der genereres i Copilot-produkter. For en virksomhed i Microsofts størrelse er det milliarder af dollars i forskel.

Hvad betyder det for markedet?

OpenAI er ikke længere den eneste leverandør

Hidtil har Microsoft primært solgt OpenAI-modeller til virksomheder via Azure. Nu tilbyder Microsoft egne, billigere alternativer på specifikke opgavetyper. Det er et direkte incitament til enterprise-kunder om at vælge Microsofts integrerede løsninger frem for at licensere OpenAI-modeller separat.

Relationen er ved at ændre sig fra et klart partnerskab til to virksomheder, der konkurrerer om de samme kunder – mens de stadig er afhængige af hinanden. OpenAI bruger Azure som primær cloud-infrastruktur og er ifølge analyser på vej mod et udgiftsniveau på $57 milliarder om året.

Google er under pres på billedgenerering og tale

Google Gemini holder stadig førstepladsen på billedgenerering ifølge Arena.ai, men MAI-Image-2 er en klar udfordrer. På transskription er MAI-Transcribe-1 ifølge FLEURS-benchmarks konkurrencedygtigt med Googles Gemini 3.1 Flash-Lite på de fleste sprog.

ElevenLabs mærker presset på tale

ElevenLabs er den foretrukne løsning for mange virksomheder, der ønsker høj kvalitet i tekst-til-tale. Men prisforskellen er markant: ElevenLabs koster op til ti gange mere per genereret tegn end MAI-Voice-1. For virksomheder der skaber store mængder lyd – podcasts, e-learning, voice bots – er det en reel konkurrent. ElevenLabs har dog en klar fordel lige nu: de understøtter allerede 32 sprog inkl. dansk, mens MAI-Voice-1 foreløbig kun klarer engelsk.

Claude og Anthropic er ikke direkte i skudlinjen

De tre MAI-modeller fokuserer på tale, transskription og billeder – ikke på sprogmodeller til samtale og ræsonnering. Her er Claude og GPT-4o stadig de primære valg. Men Microsoft Foundry tilbyder nu et komplet alternativt AI-stack, der reducerer behovet for at integrere mange tredjepartsudbydere. Det kan indirekte reducere brugen af Claude via API for virksomheder, der allerede er dybt integreret i Microsoft-økosystemet.

Markedsreaktionen

Microsofts aktie reagerede moderat positivt ved lanceringen og handlede omkring $370. Men den større kontekst er udfordrende: aktien er mere end 16% under sit 100-dages glidende gennemsnit og har ifølge analytikere haft sit dårligste kvartal siden finanskrisen i 2008.

Analytikerne er delte:

UBS og Bank of America har begge Køb-anbefalinger med kursmål på $500–510
Stifel nedgraderede til Hold i februar 2026 med et kursmål på $392

Den primære bekymring fra skeptikerne: Microsoft bruger massivt på AI-infrastruktur, men det er endnu uklart, hvornår og om det konverterer til tilsvarende omsætning. Optimisterne peger på Azures 39% vækstrate og en ordrebog på $80 milliarder.

Den 29. april 2026 kommer Microsofts næste kvartalsresultat – et centralt datapunkt for, om AI-investeringerne begynder at slå igennem i bundlinjen.

Opsummering

Microsofts strategi er tydelig: gå ikke ind i kampen om sprogmodeller til samtale – det er OpenAIs stærke kort, og Microsoft har adgang til dem alligevel frem til 2032. I stedet bygger Microsoft stærke, billige specialmodeller til specifikke opgaver, kører dem på egne chips og integrerer dem direkte i Copilot og Microsoft 365.

Er det nok til at ændre magtbalancen i AI-markedet? Ikke alene – men det er et seriøst træk fra en virksomhed, der tydeligvis forbereder sig på at stå på egne ben.

Vil du vide mere om AI-nyheder og konkurrencelandskabet? Læs vores guide til de bedste AI-værktøjer i 2026.