1.729 stemmer
Mål: 10.000 Legend Diskuter, stem og hjælp os med at nå dette mål!
Dine stemmer betyder noget: de leverer data til compar:IA-datasættet, som er frit tilgængeligt, for at hjælpe med at forbedre fremtidige modeller på lavresourcesprog.
Denne digitale fælles ressource bidrager til bedre respekt for sproglig og kulturel mangfoldighed i fremtidige sprogmodeller.

Fra stemmer til en rangering af modeller

Tak for jeres bidrag!
Rangeringen AI-arenaen er baseret på alle stemmer og reaktioner fra den blinde sammenligning af modellerne og indsamlet siden tjenestens offentlige lancering i oktober 2024.
Bygget i partnerskab med Pôle d'Expertise de la Régulation Numérique (PEReN), er modelrangeringen etableret baseret på tilfredshedsscore beregnet ud fra den statistiske model Bradley Terry, en udbredt metode til at konvertere binære stemmer til probabilistisk rangering.
AI-arenaens-rangeringen har ikke til formål at udgøre en officiel anbefaling eller evaluere modellernes tekniske ydeevne. Den afspejler platformens brugeres subjektive præferencer og ikke svarenes faktualitet eller sandfærdighed.

Total antal modeller: 82
Total antal stemmer: 1.730

Updateret 2/11/2026

Download data
Fra stemmer til en rangering af modeller
Rang Tip Rangordningsplacering tildelt ifølge Bradley-Terry-tilfredshedsscoren
Model
BT
tilfredshedsscore
Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen.
Konfidens (±) Tip Interval, der angiver pålideligheden af rangordningen: jo smallere intervallet er, jo mere pålidelig er rangestimat. Der er 95% sandsynlighed for, at modellens sande rang ligger i dette spænd.
Samlet antal stemmer
Gns. forbrug
(1.000 tokens)
Tip Målt i watttimer repræsenterer det forbrugte energi den elektricitet, som modellen bruger til at behandle en forespørgsel og generere det tilsvarende svar. Modellernes energiforbrug afhænger af deres størrelse og arkitektur. Vi vælger at vise de proprietære modeller, som vi ikke har gennemsigtig information om størrelse og arkitektur for, som gråtonede ikke-analyserede (N/A).
Størrelse
(parametre)
Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke.
Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer).
Udgivelsesdato
Organisation
Licens
1
1128
-2/+11262N/AXL - (estimering)Proprietær12/25GoogleOphavsretligt beskyttet
2
1122
-1/+231404134 mWh
XL - 675 mia.MoE12/25Mistral AIOpen-weight
3
1118
-0/+26358N/AL - (estimering)Proprietær8/25Mistral AIOphavsretligt beskyttet
4
1106
-3/+14927N/AXL - (estimering)Proprietær6/25GoogleOphavsretligt beskyttet
5
1101
-3/+13210N/AXL - (estimering)Proprietær11/25GoogleOphavsretligt beskyttet
6
1101
-2/+23283N/AXL - (estimering)Proprietær9/25AlibabaOphavsretligt beskyttet
7
1100
-1/+38684N/AXL - (estimering)Proprietær12/24GoogleOphavsretligt beskyttet
8
1091
-2/+243853979 mWh
XL - 685 mia.MoE3/25DeepSeekOpen-weight
9
1089
-4/+32207N/AL - (estimering)Proprietær6/25Mistral AIOphavsretligt beskyttet
10
1082
-4/+18583112 mWh
S - 27 mia.Dense3/25GoogleOpen-weight
11
1078
-7/+253883979 mWh
XL - 671 mia.MoE12/24DeepSeekOpen-weight
12
1077
-7/+325273979 mWh
XL - 685 mia.MoE8/25DeepSeekOpen-weight
13
1075
-7/+33189N/AL - (estimering)Proprietær11/25OpenAIOphavsretligt beskyttet
14
1074
-8/+518433979 mWh
XL - 685 mia.MoE12/25DeepSeekOpen-weight
15
1072
-5/+36519N/AXL - (estimering)Proprietær9/25AnthropicOphavsretligt beskyttet
16
1072
-8/+621781892 mWh
L - 355 mia.MoE7/25ZhipuOpen-weight
17
1069
-8/+52832N/AL - (estimering)Proprietær12/25OpenAIOphavsretligt beskyttet
18
1068
-10/+813043785 mWh
XL - 1000 mia.MoE11/25Moonshot AIOpen-weight
19
1066
-8/+62553N/AXL - (estimering)Proprietær11/25xAIOphavsretligt beskyttet
20
1065
-8/+72315342 mWh
L - 117 mia.MoE8/25OpenAIOpen-weight
21
1063
-7/+72623N/AXL - (estimering)Proprietær9/25xAIOphavsretligt beskyttet
22
1063
-4/+5828894 mWh
XS - 12 mia.Dense3/25GoogleOpen-weight
23
1063
-5/+92540N/AXL - (estimering)Proprietær5/25AnthropicOphavsretligt beskyttet
24
1060
-7/+101537N/AL - (estimering)Proprietær4/25xAIOphavsretligt beskyttet
25
1059
-4/+65510109 mWh
S - 24 mia.Dense6/25Mistral AIOpen-weight
26
1057
-6/+917463785 mWh
XL - 1000 mia.MoE9/25Moonshot AIOpen-weight
27
1055
-6/+820973979 mWh
XL - 685 mia.MoE5/25DeepSeekOpen-weight
28
1055
-2/+67866857 mWh
L - 111 mia.Dense3/25CohereOpen-weight
29
1049
-5/+43147109 mWh
S - 24 mia.Dense6/25Mistral AIOpen-weight
30
1048
-4/+53907N/AXL - (estimering)Proprietær2/25AnthropicOphavsretligt beskyttet
31
1047
-5/+815571951 mWh
XL - 480 mia.MoE7/25AlibabaOpen-weight
32
1045
-4/+527691892 mWh
L - 357 mia.MoE9/25ZhipuOpen-weight
33
1043
-2/+46709658 mWh
M - 70 mia.Dense10/24NvidiaOpen-weight
34
1036
-9/+88201892 mWh
L - 357 mia.MoE12/25ZhipuOpen-weight
35
1035
-3/+2936184 mWh
XS - 4 mia.Dense3/25GoogleOpen-weight
36
1033
-4/+3467684 mWh
XS - 8 mia.Matformer5/25GoogleOpen-weight
37
1031
-3/+37173N/AM - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
38
1030
-3/+47387N/AXL - (estimering)Proprietær9/24GoogleOphavsretligt beskyttet
39
1025
-5/+435103979 mWh
XL - 671 mia.MoE1/25DeepSeekOpen-weight
40
1020
-6/+32352118 mWh
S - 32 mia.Dense4/25AlibabaOpen-weight
41
1015
-5/+438491601 mWh
XL - 400 mia.MoE4/25MetaOpen-weight
42
1014
-5/+5271983 mWh
S - 21 mia.MoE8/25OpenAIOpen-weight
43
1014
-3/+54934N/AS - (estimering)Proprietær2/25Mistral AIOphavsretligt beskyttet
44
1012
-3/+54459N/AS - (estimering)Proprietær8/25OpenAIOphavsretligt beskyttet
45
1010
-3/+56565400 mWh
L - 109 mia.MoE4/25MetaOpen-weight
46
1004
-4/+35079109 mWh
S - 24 mia.Dense3/25Mistral AIOpen-weight
47
1002
-5/+32830N/AS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
48
999
-3/+43843N/AL - (estimering)Proprietær8/25OpenAIOphavsretligt beskyttet
49
996
-5/+4227681 mWh
XS - 8 mia.MoE10/25LiquidOpen-weight
50
990
-6/+25113118 mWh
S - 32 mia.Dense12/24CohereOpen-weight
51
988
-7/+3382583 mWh
S - 30 mia.MoE5/25AlibabaOpen-weight
52
988
-7/+4324589 mWh
XS - 8 mia.Dense7/25AlibabaOpen-weight
53
986
-5/+39845658 mWh
M - 70 mia.Dense12/24MetaOpen-weight
54
984
-6/+53318109 mWh
S - 24 mia.Dense1/25Mistral AIOpen-weight
55
981
-9/+61619N/AS - (estimering)Proprietær11/24OpenAIOphavsretligt beskyttet
56
981
-5/+46990N/AS - (estimering)Proprietær7/24OpenAIOphavsretligt beskyttet
57
978
-7/+62415658 mWh
M - 70 mia.Dense9/25Swiss AIOpen source
58
977
-5/+45717N/AS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
59
976
-6/+82160733 mWh
L - 230 mia.MoE10/25MiniMaxOpen-weight
60
973
-8/+8130289 mWh
XS - 8 mia.Dense10/24CohereOpen-weight
61
971
-4/+45583658 mWh
M - 70 mia.Dense7/24MetaOpen-weight
62
970
-3/+55683N/AXL - (estimering)Proprietær10/24AnthropicOphavsretligt beskyttet
63
966
-3/+3996896 mWh
XS - 14 mia.Dense12/24MicrosoftOpen-weight
64
961
-3/+45896N/AXL - (estimering)Proprietær8/24OpenAIOphavsretligt beskyttet
65
956
-2/+499739134 mWh
XL - 405 mia.Dense7/24MetaOpen-weight
66
952
-2/+4511590 mWh
XS - 9 mia.Dense6/24GoogleOpen-weight
67
947
-5/+51566118 mWh
S - 32 mia.Dense4/25AlibabaOpen-weight
68
945
-3/+43583N/AXS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
69
944
-2/+52981658 mWh
M - 70 mia.Dense1/25DeepSeekOpen-weight
70
934
-4/+43199658 mWh
M - 70 mia.Dense8/25NousOpen-weight
71
932
-2/+31044489 mWh
XS - 8 mia.Dense7/24MetaOpen-weight
72
925
-1/+6141788 mWh
XS - 7 mia.Dense9/24AlibabaOpen-weight
73
883
-2/+02560193 mWh
S - 56 mia.MoE12/23Mistral AIOpen-weight
74
880
-1/+13578N/AS - (estimering)Proprietær9/24LiquidOphavsretligt beskyttet
75
868
-2/+21196118 mWh
S - 32 mia.Dense11/25Ai2Open source
76
860
-1/+1253583 mWh
XS - 3.8 mia.Dense8/24MicrosoftOpen-weight
77
850
-1/+1625194 mWh
XS - 12 mia.Dense7/24Mistral AIOpen-weight
78
840
-1/+154551063 mWh
L - 176 mia.MoE4/24Mistral AIOpen-weight
79
816
-1/+0179688 mWh
XS - 14 mia.Dense2/25jpacificoOpen-weight
80
764
-2/+36590 mWh
XS - 9 mia.Dense5/2401-aiOpen-weight
81
749
-1/+130996 mWh
XS - 14 mia.Dense9/24jpacificoOpen-weight
82
727
-0/+28088 mWh
XS - 7 mia.Dense7/24AlibabaOpen-weight

Er de mest populære modeller energieffektive?

Denne graf viser for hver model sammenhængen mellem tilfredshedsscore (Bradley Terry-score) og det estimerede gennemsnitlige energiforbrug pr. 1000 tokens. Energiforbruget estimeres ved hjælp af Ecologits-metodologien, som tager højde for to faktorer: modellernes størrelse (antal parametre) og deres arkitektur. Da proprietære modeller ikke offentliggør disse oplysninger - eller kun gør det delvist - er de ikke medtaget i grafen nedenfor.

Bradley-Terry (BT) tilfredshedsscore VS Gennemsnitsforbrug for 1000 tokens

Vælg en model for at kende dens Bradley-Terry (BT) score og energiforbrug

Bradley-Terry Score (BT)
75080085090095010001050110011505001000150020002500300035004000
Forbrug pr. 1000 tokens (mWh)
Filtrer efter gennemsnitligt energiforbrug for 1000 tokens
Størrelse (parametre)

Model arkitektur

  • MoE Tip Mixture of Experts (MoE) arkitekturen bruger en routingmekanisme til kun at aktivere visse specialiserede delmængder ("eksperter") af det neurale netværk, afhængigt af input. Dette gør det muligt at konstruere meget store modeller, samtidig med at beregningsomkostningerne holdes lave, da kun en del af netværket bruges ved hvert trin.
  • Dense Tip Den dense arkitektur betegner en type neuralt netværk, hvor hver neuron i et lag er forbundet til alle neuroner i det næste lag. Dette gør det muligt for alle parametrene i laget at bidrage til beregningen af outputtet.
  • Matformer Tip Forestil dig russiske matryoshka dukker (matryoshkas → matryoshka transformer → Matformer): hver blok indeholder flere indlejrede undermodeller af stigende størrelser, som deler de samme parametre. Dette gør det muligt ved hver forespørgsel at vælge en model med passende kapacitet, afhængigt af den tilgængelige hukommelse eller latens, uden behov for at genoptræne forskellige modeller.

Hvordan finder man den rette balance mellem opfattet performance og energieffektivitet? Eksempler på læsning af grafen

  • Jo højere oppe i grafen en model er placeret, desto højere er dens Bradley-Terry-tilfredshedsscore. Jo længere til venstre i grafen en model er placeret, desto mindre energi forbruger den i forhold til de andre modeller.
  • Øverst til venstre finder man de modeller, som er populære og forbruger relativt lidt energi sammenlignet med de andre modeller.
  • Ud over størrelsen har arkitekturen også indflydelse på modellernes gennemsnitlige energiforbrug: for eksempel forbruger Llama 3 405B-modellen (tæt arkitektur, 405 milliarder parametre) i gennemsnit 10 gange mere energi end GLM 4.5-modellen (MOE-arkitektur, 355 milliarder parametre og 32 milliarder aktive parametre), selv om de har en lignende størrelse.

Hvorfor vises de proprietære modeller ikke i grafen?

Estimeringen af energiforbruget ved inferens af modellerne bygger på Ecologits metode, som tager højde for modellernes størrelse og arkitektur. Disse oplysninger offentliggøres imidlertid ikke af modeludviklerne for såkaldte "proprietære" modeller.

Vi har derfor valgt ikke at medtage de proprietære modeller i grafen, så længe oplysningerne om energiforbrugsberegningen ikke er gennemsigtige.

Hvordan beregnes modellernes energipåvirkning?

compar:IA bruger metodologien udviklet af Ecologits (GenAI Impact) til at give et estimat af energiforbruget forbundet med inferens af konversationelle generative AI-modeller. Dette estimat gør det muligt for brugerne at sammenligne forskellige AI-modellers miljøpåvirkning for den samme forespørgsel. Denne gennemsigtighed er afgørende for at fremme udviklingen og anvendelsen af mere miljøansvarlige AI-modeller.

Ecologits anvender principperne for livscyklusanalyse (LCA) i overensstemmelse med ISO 14044-standarden ved i første omgang at fokusere på påvirkningen fra inferens (dvs. brugen af modeller til at besvare forespørgsler) og fremstillingen af grafikkort (udvinding af ressourcer, produktion og transport).

Modellens elektricitetsforbrug estimeres under hensyntagen til forskellige parametre såsom størrelsen og arkitekturen af den anvendte AI-model, placeringen af de servere, hvor modellerne er implementeret, samt antallet af output-tokens. Beregningen af indikatoren for global opvarmningspotentiale udtrykt i CO2-ækvivalenter udledes af målingen af modellens elektricitetsforbrug.

Det er vigtigt at bemærke, at metoderne til vurdering af AI's miljøpåvirkning stadig er under udvikling.

Grafdata i tabelform

Updateret 2/11/2026

Download data
Fra stemmer til en rangering af modeller
Model
BT
tilfredshedsscore
Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen.
Gns. forbrug
(1.000 tokens)
Tip Målt i watttimer repræsenterer det forbrugte energi den elektricitet, som modellen bruger til at behandle en forespørgsel og generere det tilsvarende svar. Modellernes energiforbrug afhænger af deres størrelse og arkitektur. Vi vælger at vise de proprietære modeller, som vi ikke har gennemsigtig information om størrelse og arkitektur for, som gråtonede ikke-analyserede (N/A).
Størrelse
(parametre)
Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke.
Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer).
Organisation
Licens
99681 mWh XS - 8 mia.MoELiquidOpen-weight
101483 mWh S - 21 mia.MoEOpenAIOpen-weight
98883 mWh S - 30 mia.MoEAlibabaOpen-weight
86083 mWh XS - 3.8 mia.DenseMicrosoftOpen-weight
103584 mWh XS - 4 mia.DenseGoogleOpen-weight
103384 mWh XS - 8 mia.MatformerGoogleOpen-weight
92588 mWh XS - 7 mia.DenseAlibabaOpen-weight
81688 mWh XS - 14 mia.DensejpacificoOpen-weight
72788 mWh XS - 7 mia.DenseAlibabaOpen-weight
98889 mWh XS - 8 mia.DenseAlibabaOpen-weight
97389 mWh XS - 8 mia.DenseCohereOpen-weight
93289 mWh XS - 8 mia.DenseMetaOpen-weight
95290 mWh XS - 9 mia.DenseGoogleOpen-weight
76490 mWh XS - 9 mia.Dense01-aiOpen-weight
106394 mWh XS - 12 mia.DenseGoogleOpen-weight
85094 mWh XS - 12 mia.DenseMistral AIOpen-weight
96696 mWh XS - 14 mia.DenseMicrosoftOpen-weight
74996 mWh XS - 14 mia.DensejpacificoOpen-weight
1059109 mWh S - 24 mia.DenseMistral AIOpen-weight
1049109 mWh S - 24 mia.DenseMistral AIOpen-weight
1004109 mWh S - 24 mia.DenseMistral AIOpen-weight
984109 mWh S - 24 mia.DenseMistral AIOpen-weight
1082112 mWh S - 27 mia.DenseGoogleOpen-weight
1020118 mWh S - 32 mia.DenseAlibabaOpen-weight
990118 mWh S - 32 mia.DenseCohereOpen-weight
947118 mWh S - 32 mia.DenseAlibabaOpen-weight
868118 mWh S - 32 mia.DenseAi2Open source
883193 mWh S - 56 mia.MoEMistral AIOpen-weight
1065342 mWh L - 117 mia.MoEOpenAIOpen-weight
1010400 mWh L - 109 mia.MoEMetaOpen-weight
1043658 mWh M - 70 mia.DenseNvidiaOpen-weight
986658 mWh M - 70 mia.DenseMetaOpen-weight
978658 mWh M - 70 mia.DenseSwiss AIOpen source
971658 mWh M - 70 mia.DenseMetaOpen-weight
944658 mWh M - 70 mia.DenseDeepSeekOpen-weight
934658 mWh M - 70 mia.DenseNousOpen-weight
976733 mWh L - 230 mia.MoEMiniMaxOpen-weight
1055857 mWh L - 111 mia.DenseCohereOpen-weight
8401063 mWh L - 176 mia.MoEMistral AIOpen-weight
10151601 mWh XL - 400 mia.MoEMetaOpen-weight
10721892 mWh L - 355 mia.MoEZhipuOpen-weight
10451892 mWh L - 357 mia.MoEZhipuOpen-weight
10361892 mWh L - 357 mia.MoEZhipuOpen-weight
10471951 mWh XL - 480 mia.MoEAlibabaOpen-weight
10683785 mWh XL - 1000 mia.MoEMoonshot AIOpen-weight
10573785 mWh XL - 1000 mia.MoEMoonshot AIOpen-weight
10913979 mWh XL - 685 mia.MoEDeepSeekOpen-weight
10783979 mWh XL - 671 mia.MoEDeepSeekOpen-weight
10773979 mWh XL - 685 mia.MoEDeepSeekOpen-weight
10743979 mWh XL - 685 mia.MoEDeepSeekOpen-weight
10553979 mWh XL - 685 mia.MoEDeepSeekOpen-weight
10253979 mWh XL - 671 mia.MoEDeepSeekOpen-weight
11224134 mWh XL - 675 mia.MoEMistral AIOpen-weight
9569134 mWh XL - 405 mia.DenseMetaOpen-weight

Hvordan vælger man metoden til rangordning af modeller?

Siden 2024 har tusindvis af brugere brugt compar:IA til at sammenligne forskellige modellers svar, hvilket har genereret hundredtusindvis af stemmer. At tælle antallet af sejre er ikke nok til at etablere en rangordning. Et retfærdigt system skal være statistisk robust, justere sig efter hver sammenligning og reelt afspejle værdien af de opnåede præstationer.

Det er i dette perspektiv, at der er blevet etableret en rangordning baseret på Bradley-Terry-modellen, udarbejdet i samarbejde med teamet fra Pôle d'Expertise de la Régulation numérique (PEReN), ud fra alle de stemmer og reaktioner, der er indsamlet på platformen. For at gå videre, se vores metodologiske notesbog.

To måders at opdele modeller

Rangordning efter sejrsrate

Definition: Empirisk rangordningssystem for modeller baseret på procentdelen af kampe vundet af en model mod alle andre modeller.

Hovedproblemer

  • Bias fra antal kampe: en model, der har vundet tre sejre ud af tre "kampe", viser en sejrsrate på 100%, men denne score er lidt signifikant, da den er baseret på meget lidt data.
  • Ingen hensyntagen til sværhedsgraden af kampene: at slå en "begynder"-model eller en "ekspert"-model tæller det samme. Sejrsraterne er ikke retfærdige, da de ikke tager højde for sværhedsgraden af kampene.
  • Stagnation: på lang sigt ender mange gode modeller omkring 50% sejrsrate, fordi de møder modeller på deres niveau, hvilket gør rangordningen mindre diskriminerende.

Bradley-Terry (BT) rangordning

Definition: Rangordningssystem, hvor gevinst eller tab af point afhænger af resultatet (sejr/nederlag/uafgjort) og det estimerede niveau af modstanderen: hvis en svagere model slår en stærkere model, er dens fremgang i rangordningen større.

Fordele

  • Probabilistisk model: man kan estimere det sandsynlige resultat af enhver sammenligning, selv mellem modeller, der aldrig er blevet direkte sammenlignet.
  • Hensyntagen til sværhedsgraden af kampene: de estimerede scores fra Bradley Terry-modellen tager højde for niveauet af de mødte modstandere, hvilket muliggør en retfærdig sammenligning mellem modeller.
  • Bedre håndtering af usikkerhed: konfidensintervallet integrerer hele netværket af sammenligninger. Dette muliggør et mere præcist estimat af usikkerheden, især for modeller med få direkte sammenligninger, men mange fælles modstandere.

Indvirkningen af valget af metode på rangordningen af modeller

10 første modeller i rangordningen ifølge den "empiriske" sejrsrate

54%56%58%60%62%64%66%gemini-2.0-flashmistral-medium-2508deepseek-v3-0324magistral-mediumgemini-2.5-flashgemini-3-flash-previewgemma-3-27bqwen3-max-2025-09-23mistral-large-2512gemini-3-pro-preview

Ved kun at basere sig på den gennemsnitlige sejrsrate kan man opnå en global rangordning, men denne beregning forudsætter, at hver model har spillet mod alle andre.

Denne metode er ikke ideel, da den kræver data fra alle kombinationer af modeller, og så snart man øger antallet af modeller, bliver det hurtigt dyrt og tungt at vedligeholde.

10 første modeller i rangordningen ifølge den estimerede sejrsrate med Bradley-Terry-modellen

54%56%58%60%62%64%66%gemini-3-flash-previewmistral-large-2512mistral-medium-2508gemini-2.5-flashgemini-3-pro-previewqwen3-max-2025-09-23gemini-2.0-flashdeepseek-v3-0324magistral-mediumgemma-3-27b

Bradley-Terry-modellen omdanner et sæt af lokale og potentielt ufuldstændige sammenligninger til et sammenhængende og statistisk robust globalt rangordningssystem, der hvor den empiriske sejrsrate forbliver begrænset til direkte observationer.