1.621 stemmer
Mål: 10.000 Legend Diskuter, stem og hjælp os med at nå dette mål!
Dine stemmer betyder noget: de leverer data til compar:IA-datasættet, som er frit tilgængeligt, for at hjælpe med at forbedre fremtidige modeller på lavresourcesprog.
Denne digitale fælles ressource bidrager til bedre respekt for sproglig og kulturel mangfoldighed i fremtidige sprogmodeller.

Fra stemmer til en rangering af modeller

Tak for jeres bidrag!
Rangeringen AI-arenaen er baseret på alle stemmer og reaktioner fra den blinde sammenligning af modellerne og indsamlet siden tjenestens offentlige lancering i oktober 2024.
Bygget i partnerskab med Pôle d'Expertise de la Régulation Numérique (PEReN), er modelrangeringen etableret baseret på tilfredshedsscore beregnet ud fra den statistiske model Bradley Terry, en udbredt metode til at konvertere binære stemmer til probabilistisk rangering.
AI-arenaens-rangeringen har ikke til formål at udgøre en officiel anbefaling eller evaluere modellernes tekniske ydeevne. Den afspejler platformens brugeres subjektive præferencer og ikke svarenes faktualitet eller sandfærdighed.

Total antal modeller: 82
Total antal stemmer: 1.620

Updateret 2/11/2026

Download data
Fra stemmer til en rangering af modeller
Rang Tip Rangordningsplacering tildelt ifølge Bradley-Terry-tilfredshedsscoren
Model
BT
tilfredshedsscore
Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen.
Konfidens (±) Tip Interval, der angiver pålideligheden af rangordningen: jo smallere intervallet er, jo mere pålidelig er rangestimat. Der er 95% sandsynlighed for, at modellens sande rang ligger i dette spænd.
Samlet antal stemmer
Gns. forbrug
(1.000 tokens)
Tip Målt i watttimer repræsenterer det forbrugte energi den elektricitet, som modellen bruger til at behandle en forespørgsel og generere det tilsvarende svar. Modellernes energiforbrug afhænger af deres størrelse og arkitektur. Vi vælger at vise de proprietære modeller, som vi ikke har gennemsigtig information om størrelse og arkitektur for, som gråtonede ikke-analyserede (N/A).
Størrelse
(parametre)
Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke.
Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer).
Udgivelsesdato
Organisation
Licens
1
1128
-2/+11262N/AXL - (estimering)Proprietær12/25GoogleOphavsretligt beskyttet
2
1122
-1/+2314050 Wh
XL - 675 mia.MoE12/25Mistral AIOpen-weight
3
1118
-0/+26358N/AL - (estimering)Proprietær8/25Mistral AIOphavsretligt beskyttet
4
1106
-3/+14927N/AXL - (estimering)Proprietær6/25GoogleOphavsretligt beskyttet
5
1101
-3/+13210N/AXL - (estimering)Proprietær11/25GoogleOphavsretligt beskyttet
6
1101
-2/+23283N/AXL - (estimering)Proprietær9/25AlibabaOphavsretligt beskyttet
7
1100
-1/+38684N/AXL - (estimering)Proprietær12/24GoogleOphavsretligt beskyttet
8
1091
-2/+2438547 Wh
XL - 685 mia.MoE3/25DeepSeekOpen-weight
9
1089
-4/+32207N/AL - (estimering)Proprietær6/25Mistral AIOphavsretligt beskyttet
10
1082
-4/+185836 Wh
S - 27 mia.Dense3/25GoogleOpen-weight
11
1078
-7/+2538847 Wh
XL - 671 mia.MoE12/24DeepSeekOpen-weight
12
1077
-7/+3252747 Wh
XL - 685 mia.MoE8/25DeepSeekOpen-weight
13
1075
-7/+33189N/AL - (estimering)Proprietær11/25OpenAIOphavsretligt beskyttet
14
1074
-8/+5184347 Wh
XL - 685 mia.MoE12/25DeepSeekOpen-weight
15
1072
-5/+36519N/AXL - (estimering)Proprietær9/25AnthropicOphavsretligt beskyttet
16
1072
-8/+6217821 Wh
L - 355 mia.MoE7/25ZhipuOpen-weight
17
1069
-8/+52832N/AL - (estimering)Proprietær12/25OpenAIOphavsretligt beskyttet
18
1068
-10/+8130457 Wh
XL - 1000 mia.MoE11/25Moonshot AIOpen-weight
19
1066
-8/+62553N/AXL - (estimering)Proprietær11/25xAIOphavsretligt beskyttet
20
1065
-8/+723153 Wh
L - 117 mia.MoE8/25OpenAIOpen-weight
21
1063
-7/+72623N/AXL - (estimering)Proprietær9/25xAIOphavsretligt beskyttet
22
1063
-4/+582884 Wh
XS - 12 mia.Dense3/25GoogleOpen-weight
23
1063
-5/+92540N/AXL - (estimering)Proprietær5/25AnthropicOphavsretligt beskyttet
24
1060
-7/+101537N/AL - (estimering)Proprietær4/25xAIOphavsretligt beskyttet
25
1059
-4/+655106 Wh
S - 24 mia.Dense6/25Mistral AIOpen-weight
26
1057
-6/+9174657 Wh
XL - 1000 mia.MoE9/25Moonshot AIOpen-weight
27
1055
-6/+8209747 Wh
XL - 685 mia.MoE5/25DeepSeekOpen-weight
28
1055
-2/+6786618 Wh
L - 111 mia.Dense3/25CohereOpen-weight
29
1049
-5/+431476 Wh
S - 24 mia.Dense6/25Mistral AIOpen-weight
30
1048
-4/+53907N/AXL - (estimering)Proprietær2/25AnthropicOphavsretligt beskyttet
31
1047
-5/+8155730 Wh
XL - 480 mia.MoE7/25AlibabaOpen-weight
32
1045
-4/+5276921 Wh
L - 357 mia.MoE9/25ZhipuOpen-weight
33
1043
-2/+4670912 Wh
M - 70 mia.Dense10/24NvidiaOpen-weight
34
1036
-9/+882021 Wh
L - 357 mia.MoE12/25ZhipuOpen-weight
35
1035
-3/+293613 Wh
XS - 4 mia.Dense3/25GoogleOpen-weight
36
1033
-4/+346763 Wh
XS - 8 mia.Matformer5/25GoogleOpen-weight
37
1031
-3/+37173N/AM - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
38
1030
-3/+47387N/AXL - (estimering)Proprietær9/24GoogleOphavsretligt beskyttet
39
1025
-5/+4351047 Wh
XL - 671 mia.MoE1/25DeepSeekOpen-weight
40
1020
-6/+323527 Wh
S - 32 mia.Dense4/25AlibabaOpen-weight
41
1015
-5/+4384915 Wh
XL - 400 mia.MoE4/25MetaOpen-weight
42
1014
-5/+527193 Wh
S - 21 mia.MoE8/25OpenAIOpen-weight
43
1014
-3/+54934N/AS - (estimering)Proprietær2/25Mistral AIOphavsretligt beskyttet
44
1012
-3/+54459N/AS - (estimering)Proprietær8/25OpenAIOphavsretligt beskyttet
45
1010
-3/+565655 Wh
L - 109 mia.MoE4/25MetaOpen-weight
46
1004
-4/+350796 Wh
S - 24 mia.Dense3/25Mistral AIOpen-weight
47
1002
-5/+32830N/AS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
48
999
-3/+43843N/AL - (estimering)Proprietær8/25OpenAIOphavsretligt beskyttet
49
996
-5/+422763 Wh
XS - 8 mia.MoE10/25LiquidOpen-weight
50
990
-6/+251137 Wh
S - 32 mia.Dense12/24CohereOpen-weight
51
988
-7/+338253 Wh
S - 30 mia.MoE5/25AlibabaOpen-weight
52
988
-7/+432454 Wh
XS - 8 mia.Dense7/25AlibabaOpen-weight
53
986
-5/+3984512 Wh
M - 70 mia.Dense12/24MetaOpen-weight
54
984
-6/+533186 Wh
S - 24 mia.Dense1/25Mistral AIOpen-weight
55
981
-9/+61619N/AS - (estimering)Proprietær11/24OpenAIOphavsretligt beskyttet
56
981
-5/+46990N/AS - (estimering)Proprietær7/24OpenAIOphavsretligt beskyttet
57
978
-7/+6241512 Wh
M - 70 mia.Dense9/25Swiss AIOpen source
58
977
-5/+45717N/AS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
59
976
-6/+821608 Wh
L - 230 mia.MoE10/25MiniMaxOpen-weight
60
973
-8/+813024 Wh
XS - 8 mia.Dense10/24CohereOpen-weight
61
971
-4/+4558312 Wh
M - 70 mia.Dense7/24MetaOpen-weight
62
970
-3/+55683N/AXL - (estimering)Proprietær10/24AnthropicOphavsretligt beskyttet
63
966
-3/+399685 Wh
XS - 14 mia.Dense12/24MicrosoftOpen-weight
64
961
-3/+45896N/AXL - (estimering)Proprietær8/24OpenAIOphavsretligt beskyttet
65
956
-2/+49973238 Wh
XL - 405 mia.Dense7/24MetaOpen-weight
66
952
-2/+451154 Wh
XS - 9 mia.Dense6/24GoogleOpen-weight
67
947
-5/+515667 Wh
S - 32 mia.Dense4/25AlibabaOpen-weight
68
945
-3/+43583N/AXS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
69
944
-2/+5298112 Wh
M - 70 mia.Dense1/25DeepSeekOpen-weight
70
934
-4/+4319912 Wh
M - 70 mia.Dense8/25NousOpen-weight
71
932
-2/+3104444 Wh
XS - 8 mia.Dense7/24MetaOpen-weight
72
925
-1/+614174 Wh
XS - 7 mia.Dense9/24AlibabaOpen-weight
73
883
-2/+025605 Wh
S - 56 mia.MoE12/23Mistral AIOpen-weight
74
880
-1/+13578N/AS - (estimering)Proprietær9/24LiquidOphavsretligt beskyttet
75
868
-2/+211967 Wh
S - 32 mia.Dense11/25Ai2Open source
76
860
-1/+125353 Wh
XS - 3.8 mia.Dense8/24MicrosoftOpen-weight
77
850
-1/+162514 Wh
XS - 12 mia.Dense7/24Mistral AIOpen-weight
78
840
-1/+1545518 Wh
L - 176 mia.MoE4/24Mistral AIOpen-weight
79
816
-1/+017964 Wh
XS - 14 mia.Dense2/25jpacificoOpen-weight
80
764
-2/+3654 Wh
XS - 9 mia.Dense5/2401-aiOpen-weight
81
749
-1/+13095 Wh
XS - 14 mia.Dense9/24jpacificoOpen-weight
82
727
-0/+2804 Wh
XS - 7 mia.Dense7/24AlibabaOpen-weight

Er de mest populære modeller energieffektive?

Denne graf viser for hver model sammenhængen mellem tilfredshedsscore (Bradley Terry-score) og det estimerede gennemsnitlige energiforbrug pr. 1000 tokens. Energiforbruget estimeres ved hjælp af Ecologits-metodologien, som tager højde for to faktorer: modellernes størrelse (antal parametre) og deres arkitektur. Da proprietære modeller ikke offentliggør disse oplysninger - eller kun gør det delvist - er de ikke medtaget i grafen nedenfor.

Bradley-Terry (BT) tilfredshedsscore VS Gennemsnitsforbrug for 1000 tokens

Vælg en model for at kende dens Bradley-Terry (BT) score og energiforbrug

Bradley-Terry Score (BT)
7508008509009501000105011001150010203040506070
Forbrug pr. 1000 tokens (Wh)
Filtrer efter gennemsnitligt energiforbrug for 1000 tokens
Størrelse (parametre)

Model arkitektur

  • MoE Tip Mixture of Experts (MoE) arkitekturen bruger en routingmekanisme til kun at aktivere visse specialiserede delmængder ("eksperter") af det neurale netværk, afhængigt af input. Dette gør det muligt at konstruere meget store modeller, samtidig med at beregningsomkostningerne holdes lave, da kun en del af netværket bruges ved hvert trin.
  • Dense Tip Den dense arkitektur betegner en type neuralt netværk, hvor hver neuron i et lag er forbundet til alle neuroner i det næste lag. Dette gør det muligt for alle parametrene i laget at bidrage til beregningen af outputtet.
  • Matformer Tip Forestil dig russiske matryoshka dukker (matryoshkas → matryoshka transformer → Matformer): hver blok indeholder flere indlejrede undermodeller af stigende størrelser, som deler de samme parametre. Dette gør det muligt ved hver forespørgsel at vælge en model med passende kapacitet, afhængigt af den tilgængelige hukommelse eller latens, uden behov for at genoptræne forskellige modeller.

Hvordan finder man den rette balance mellem opfattet performance og energieffektivitet? Eksempler på læsning af grafen

  • Jo højere oppe i grafen en model er placeret, desto højere er dens Bradley-Terry-tilfredshedsscore. Jo længere til venstre i grafen en model er placeret, desto mindre energi forbruger den i forhold til de andre modeller.
  • Øverst til venstre finder man de modeller, som er populære og forbruger relativt lidt energi sammenlignet med de andre modeller.
  • Ud over størrelsen har arkitekturen også indflydelse på modellernes gennemsnitlige energiforbrug: for eksempel forbruger Llama 3 405B-modellen (tæt arkitektur, 405 milliarder parametre) i gennemsnit 10 gange mere energi end GLM 4.5-modellen (MOE-arkitektur, 355 milliarder parametre og 32 milliarder aktive parametre), selv om de har en lignende størrelse.

Hvorfor vises de proprietære modeller ikke i grafen?

Estimeringen af energiforbruget ved inferens af modellerne bygger på Ecologits metode, som tager højde for modellernes størrelse og arkitektur. Disse oplysninger offentliggøres imidlertid ikke af modeludviklerne for såkaldte "proprietære" modeller.

Vi har derfor valgt ikke at medtage de proprietære modeller i grafen, så længe oplysningerne om energiforbrugsberegningen ikke er gennemsigtige.

Hvordan beregnes modellernes energipåvirkning?

compar:IA bruger metodologien udviklet af Ecologits (GenAI Impact) til at give et estimat af energiforbruget forbundet med inferens af konversationelle generative AI-modeller. Dette estimat gør det muligt for brugerne at sammenligne forskellige AI-modellers miljøpåvirkning for den samme forespørgsel. Denne gennemsigtighed er afgørende for at fremme udviklingen og anvendelsen af mere miljøansvarlige AI-modeller.

Ecologits anvender principperne for livscyklusanalyse (LCA) i overensstemmelse med ISO 14044-standarden ved i første omgang at fokusere på påvirkningen fra inferens (dvs. brugen af modeller til at besvare forespørgsler) og fremstillingen af grafikkort (udvinding af ressourcer, produktion og transport).

Modellens elektricitetsforbrug estimeres under hensyntagen til forskellige parametre såsom størrelsen og arkitekturen af den anvendte AI-model, placeringen af de servere, hvor modellerne er implementeret, samt antallet af output-tokens. Beregningen af indikatoren for global opvarmningspotentiale udtrykt i CO2-ækvivalenter udledes af målingen af modellens elektricitetsforbrug.

Det er vigtigt at bemærke, at metoderne til vurdering af AI's miljøpåvirkning stadig er under udvikling.

Grafdata i tabelform

Updateret 2/11/2026

Download data
Fra stemmer til en rangering af modeller
Model
BT
tilfredshedsscore
Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen.
Gns. forbrug
(1.000 tokens)
Tip Målt i watttimer repræsenterer det forbrugte energi den elektricitet, som modellen bruger til at behandle en forespørgsel og generere det tilsvarende svar. Modellernes energiforbrug afhænger af deres størrelse og arkitektur. Vi vælger at vise de proprietære modeller, som vi ikke har gennemsigtig information om størrelse og arkitektur for, som gråtonede ikke-analyserede (N/A).
Størrelse
(parametre)
Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke.
Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer).
Organisation
Licens
10653 Wh L - 117 mia.MoEOpenAIOpen-weight
10353 Wh XS - 4 mia.DenseGoogleOpen-weight
10333 Wh XS - 8 mia.MatformerGoogleOpen-weight
10143 Wh S - 21 mia.MoEOpenAIOpen-weight
9963 Wh XS - 8 mia.MoELiquidOpen-weight
9883 Wh S - 30 mia.MoEAlibabaOpen-weight
8603 Wh XS - 3.8 mia.DenseMicrosoftOpen-weight
10634 Wh XS - 12 mia.DenseGoogleOpen-weight
9884 Wh XS - 8 mia.DenseAlibabaOpen-weight
9734 Wh XS - 8 mia.DenseCohereOpen-weight
9524 Wh XS - 9 mia.DenseGoogleOpen-weight
9324 Wh XS - 8 mia.DenseMetaOpen-weight
9254 Wh XS - 7 mia.DenseAlibabaOpen-weight
8504 Wh XS - 12 mia.DenseMistral AIOpen-weight
8164 Wh XS - 14 mia.DensejpacificoOpen-weight
7644 Wh XS - 9 mia.Dense01-aiOpen-weight
7274 Wh XS - 7 mia.DenseAlibabaOpen-weight
10105 Wh L - 109 mia.MoEMetaOpen-weight
9665 Wh XS - 14 mia.DenseMicrosoftOpen-weight
8835 Wh S - 56 mia.MoEMistral AIOpen-weight
7495 Wh XS - 14 mia.DensejpacificoOpen-weight
10826 Wh S - 27 mia.DenseGoogleOpen-weight
10596 Wh S - 24 mia.DenseMistral AIOpen-weight
10496 Wh S - 24 mia.DenseMistral AIOpen-weight
10046 Wh S - 24 mia.DenseMistral AIOpen-weight
9846 Wh S - 24 mia.DenseMistral AIOpen-weight
10207 Wh S - 32 mia.DenseAlibabaOpen-weight
9907 Wh S - 32 mia.DenseCohereOpen-weight
9477 Wh S - 32 mia.DenseAlibabaOpen-weight
8687 Wh S - 32 mia.DenseAi2Open source
9768 Wh L - 230 mia.MoEMiniMaxOpen-weight
104312 Wh M - 70 mia.DenseNvidiaOpen-weight
98612 Wh M - 70 mia.DenseMetaOpen-weight
97812 Wh M - 70 mia.DenseSwiss AIOpen source
97112 Wh M - 70 mia.DenseMetaOpen-weight
94412 Wh M - 70 mia.DenseDeepSeekOpen-weight
93412 Wh M - 70 mia.DenseNousOpen-weight
101515 Wh XL - 400 mia.MoEMetaOpen-weight
105518 Wh L - 111 mia.DenseCohereOpen-weight
84018 Wh L - 176 mia.MoEMistral AIOpen-weight
107221 Wh L - 355 mia.MoEZhipuOpen-weight
104521 Wh L - 357 mia.MoEZhipuOpen-weight
103621 Wh L - 357 mia.MoEZhipuOpen-weight
104730 Wh XL - 480 mia.MoEAlibabaOpen-weight
109147 Wh XL - 685 mia.MoEDeepSeekOpen-weight
107847 Wh XL - 671 mia.MoEDeepSeekOpen-weight
107747 Wh XL - 685 mia.MoEDeepSeekOpen-weight
107447 Wh XL - 685 mia.MoEDeepSeekOpen-weight
105547 Wh XL - 685 mia.MoEDeepSeekOpen-weight
102547 Wh XL - 671 mia.MoEDeepSeekOpen-weight
112250 Wh XL - 675 mia.MoEMistral AIOpen-weight
106857 Wh XL - 1000 mia.MoEMoonshot AIOpen-weight
105757 Wh XL - 1000 mia.MoEMoonshot AIOpen-weight
956238 Wh XL - 405 mia.DenseMetaOpen-weight

Hvordan vælger man metoden til rangordning af modeller?

Siden 2024 har tusindvis af brugere brugt compar:IA til at sammenligne forskellige modellers svar, hvilket har genereret hundredtusindvis af stemmer. At tælle antallet af sejre er ikke nok til at etablere en rangordning. Et retfærdigt system skal være statistisk robust, justere sig efter hver sammenligning og reelt afspejle værdien af de opnåede præstationer.

Det er i dette perspektiv, at der er blevet etableret en rangordning baseret på Bradley-Terry-modellen, udarbejdet i samarbejde med teamet fra Pôle d'Expertise de la Régulation numérique (PEReN), ud fra alle de stemmer og reaktioner, der er indsamlet på platformen. For at gå videre, se vores metodologiske notesbog.

To måders at opdele modeller

Rangordning efter sejrsrate

Definition: Empirisk rangordningssystem for modeller baseret på procentdelen af kampe vundet af en model mod alle andre modeller.

Hovedproblemer

  • Bias fra antal kampe: en model, der har vundet tre sejre ud af tre "kampe", viser en sejrsrate på 100%, men denne score er lidt signifikant, da den er baseret på meget lidt data.
  • Ingen hensyntagen til sværhedsgraden af kampene: at slå en "begynder"-model eller en "ekspert"-model tæller det samme. Sejrsraterne er ikke retfærdige, da de ikke tager højde for sværhedsgraden af kampene.
  • Stagnation: på lang sigt ender mange gode modeller omkring 50% sejrsrate, fordi de møder modeller på deres niveau, hvilket gør rangordningen mindre diskriminerende.

Bradley-Terry (BT) rangordning

Definition: Rangordningssystem, hvor gevinst eller tab af point afhænger af resultatet (sejr/nederlag/uafgjort) og det estimerede niveau af modstanderen: hvis en svagere model slår en stærkere model, er dens fremgang i rangordningen større.

Fordele

  • Probabilistisk model: man kan estimere det sandsynlige resultat af enhver sammenligning, selv mellem modeller, der aldrig er blevet direkte sammenlignet.
  • Hensyntagen til sværhedsgraden af kampene: de estimerede scores fra Bradley Terry-modellen tager højde for niveauet af de mødte modstandere, hvilket muliggør en retfærdig sammenligning mellem modeller.
  • Bedre håndtering af usikkerhed: konfidensintervallet integrerer hele netværket af sammenligninger. Dette muliggør et mere præcist estimat af usikkerheden, især for modeller med få direkte sammenligninger, men mange fælles modstandere.

Indvirkningen af valget af metode på rangordningen af modeller

10 første modeller i rangordningen ifølge den "empiriske" sejrsrate

54%56%58%60%62%64%66%gemini-2.0-flashmistral-medium-2508deepseek-v3-0324magistral-mediumgemini-2.5-flashgemini-3-flash-previewgemma-3-27bqwen3-max-2025-09-23mistral-large-2512gemini-3-pro-preview

Ved kun at basere sig på den gennemsnitlige sejrsrate kan man opnå en global rangordning, men denne beregning forudsætter, at hver model har spillet mod alle andre.

Denne metode er ikke ideel, da den kræver data fra alle kombinationer af modeller, og så snart man øger antallet af modeller, bliver det hurtigt dyrt og tungt at vedligeholde.

10 første modeller i rangordningen ifølge den estimerede sejrsrate med Bradley-Terry-modellen

54%56%58%60%62%64%66%gemini-3-flash-previewmistral-large-2512mistral-medium-2508gemini-2.5-flashgemini-3-pro-previewqwen3-max-2025-09-23gemini-2.0-flashdeepseek-v3-0324magistral-mediumgemma-3-27b

Bradley-Terry-modellen omdanner et sæt af lokale og potentielt ufuldstændige sammenligninger til et sammenhængende og statistisk robust globalt rangordningssystem, der hvor den empiriske sejrsrate forbliver begrænset til direkte observationer.