1.479 stemmer
Mål: 10.000 Legend Diskuter, stem og hjælp os med at nå dette mål!
Dine stemmer betyder noget: de leverer data til compar:IA-datasættet, som er frit tilgængeligt, for at hjælpe med at forbedre fremtidige modeller på lavresourcesprog.
Denne digitale fælles ressource bidrager til bedre respekt for sproglig og kulturel mangfoldighed i fremtidige sprogmodeller.

Fra stemmer til en rangering af modeller

Tak for jeres bidrag!
Rangeringen AI-arenaen er baseret på alle stemmer og reaktioner fra den blinde sammenligning af modellerne og indsamlet siden tjenestens offentlige lancering i oktober 2024.
Bygget i partnerskab med Pôle d'Expertise de la Régulation Numérique (PEReN), er modelrangeringen etableret baseret på tilfredshedsscore beregnet ud fra den statistiske model Bradley Terry, en udbredt metode til at konvertere binære stemmer til probabilistisk rangering.
AI-arenaens-rangeringen har ikke til formål at udgøre en officiel anbefaling eller evaluere modellernes tekniske ydeevne. Den afspejler platformens brugeres subjektive præferencer og ikke svarenes faktualitet eller sandfærdighed.

Total antal modeller: 77
Total antal stemmer: 1.480

Updateret 1/14/2026

Download data
Fra stemmer til en rangering af modeller
Rang Tip Rangordningsplacering tildelt ifølge Bradley-Terry-tilfredshedsscoren
Model
BT
tilfredshedsscore
Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen.
Konfidens (±) Tip Interval, der angiver pålideligheden af rangordningen: jo smallere intervallet er, jo mere pålidelig er rangestimat. Der er 95% sandsynlighed for, at modellens sande rang ligger i dette spænd.
Samlet antal stemmer
Gns. forbrug
(1.000 tokens)
Tip Målt i watttimer repræsenterer det forbrugte energi den elektricitet, som modellen bruger til at behandle en forespørgsel og generere det tilsvarende svar. Modellernes energiforbrug afhænger af deres størrelse og arkitektur. Vi vælger at vise de proprietære modeller, som vi ikke har gennemsigtig information om størrelse og arkitektur for, som gråtonede ikke-analyserede (N/A).
Størrelse
(parametre)
Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke.
Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer).
Udgivelsesdato
Organisation
Licens
1
1132
-9/+1174N/AXL - (estimering)Proprietær12/25GoogleOphavsretligt beskyttet
2
1120
-3/+2144250 Wh
XL - 675 mia.MoE12/25Mistral AIOpen-weight
3
1115
-1/+25387N/AL - (estimering)Proprietær8/25Mistral AIOphavsretligt beskyttet
4
1104
-4/+13972N/AXL - (estimering)Proprietær6/25GoogleOphavsretligt beskyttet
5
1104
-4/+31974N/AXL - (estimering)Proprietær11/25GoogleOphavsretligt beskyttet
6
1103
-3/+32562N/AXL - (estimering)Proprietær9/25AlibabaOphavsretligt beskyttet
7
1100
-2/+38684N/AXL - (estimering)Proprietær12/24GoogleOphavsretligt beskyttet
8
1091
-4/+2438547 Wh
XL - 685 mia.MoE3/25DeepSeekOpen-weight
9
1088
-6/+32207N/AL - (estimering)Proprietær6/25Mistral AIOphavsretligt beskyttet
10
1085
-10/+41080N/AL - (estimering)Proprietær12/25OpenAIOphavsretligt beskyttet
11
1083
-5/+276886 Wh
S - 27 mia.Dense3/25GoogleOpen-weight
12
1079
-10/+41461N/AXL - (estimering)Proprietær11/25xAIOphavsretligt beskyttet
13
1079
-8/+4158847 Wh
XL - 685 mia.MoE8/25DeepSeekOpen-weight
14
1078
-6/+4538847 Wh
XL - 671 mia.MoE12/24DeepSeekOpen-weight
15
1074
-8/+52202N/AL - (estimering)Proprietær11/25OpenAIOphavsretligt beskyttet
16
1073
-5/+45031N/AXL - (estimering)Proprietær9/25AnthropicOphavsretligt beskyttet
17
1072
-8/+714233 Wh
L - 117 mia.MoE8/25OpenAIOpen-weight
18
1071
-7/+7217821 Wh
L - 355 mia.MoE7/25ZhipuOpen-weight
19
1064
-6/+473324 Wh
XS - 12 mia.Dense3/25GoogleOpen-weight
20
1063
-7/+62623N/AXL - (estimering)Proprietær9/25xAIOphavsretligt beskyttet
21
1062
-6/+72540N/AXL - (estimering)Proprietær5/25AnthropicOphavsretligt beskyttet
22
1060
-5/+541516 Wh
S - 24 mia.Dense6/25Mistral AIOpen-weight
23
1060
-6/+91537N/AL - (estimering)Proprietær4/25xAIOphavsretligt beskyttet
24
1056
-6/+10122947 Wh
XL - 685 mia.MoE5/25DeepSeekOpen-weight
25
1055
-1/+6708818 Wh
L - 111 mia.Dense3/25CohereOpen-weight
26
1049
-4/+531476 Wh
S - 24 mia.Dense6/25Mistral AIOpen-weight
27
1048
-3/+63907N/AXL - (estimering)Proprietær2/25AnthropicOphavsretligt beskyttet
28
1044
-2/+5670912 Wh
M - 70 mia.Dense10/24NvidiaOpen-weight
29
1038
-5/+5208921 Wh
L - 357 mia.MoE9/25ZhipuOpen-weight
30
1037
-2/+383833 Wh
XS - 4 mia.Dense3/25GoogleOpen-weight
31
1031
-4/+27173N/AM - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
32
1030
-3/+37387N/AXL - (estimering)Proprietær9/24GoogleOphavsretligt beskyttet
33
1028
-4/+437363 Wh
XS - 8 mia.Matformer5/25GoogleOpen-weight
34
1024
-4/+4351047 Wh
XL - 671 mia.MoE1/25DeepSeekOpen-weight
35
1022
-6/+515197 Wh
S - 32 mia.Dense4/25AlibabaOpen-weight
36
1021
-6/+517403 Wh
S - 21 mia.MoE8/25OpenAIOpen-weight
37
1014
-5/+34934N/AS - (estimering)Proprietær2/25Mistral AIOphavsretligt beskyttet
38
1012
-5/+4301815 Wh
XL - 400 mia.MoE4/25MetaOpen-weight
39
1009
-5/+357785 Wh
L - 109 mia.MoE4/25MetaOpen-weight
40
1008
-5/+43221N/AS - (estimering)Proprietær8/25OpenAIOphavsretligt beskyttet
41
1004
-5/+350796 Wh
S - 24 mia.Dense3/25Mistral AIOpen-weight
42
1002
-5/+42830N/AS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
43
999
-3/+53843N/AL - (estimering)Proprietær8/25OpenAIOphavsretligt beskyttet
44
996
-8/+614953 Wh
XS - 8 mia.MoE10/25LiquidOpen-weight
45
990
-6/+351137 Wh
S - 32 mia.Dense12/24CohereOpen-weight
46
987
-8/+423814 Wh
XS - 8 mia.Dense7/25AlibabaOpen-weight
47
986
-8/+429113 Wh
S - 30 mia.MoE5/25AlibabaOpen-weight
48
985
-7/+533186 Wh
S - 24 mia.Dense1/25Mistral AIOpen-weight
49
985
-4/+4911312 Wh
M - 70 mia.Dense12/24MetaOpen-weight
50
981
-9/+71619N/AS - (estimering)Proprietær11/24OpenAIOphavsretligt beskyttet
51
980
-4/+56990N/AS - (estimering)Proprietær7/24OpenAIOphavsretligt beskyttet
52
977
-6/+45717N/AS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
53
976
-7/+7210312 Wh
M - 70 mia.Dense9/25Swiss AIOpen-weight
54
972
-9/+613024 Wh
XS - 8 mia.Dense10/24CohereOpen-weight
55
971
-8/+713758 Wh
L - 230 mia.MoE10/25MiniMaxOpen-weight
56
971
-4/+4558312 Wh
M - 70 mia.Dense7/24MetaOpen-weight
57
970
-3/+65683N/AXL - (estimering)Proprietær10/24AnthropicOphavsretligt beskyttet
58
965
-3/+499685 Wh
XS - 14 mia.Dense12/24MicrosoftOpen-weight
59
961
-3/+45896N/AXL - (estimering)Proprietær8/24OpenAIOphavsretligt beskyttet
60
955
-2/+49973238 Wh
XL - 405 mia.Dense7/24MetaOpen-weight
61
951
-3/+451154 Wh
XS - 9 mia.Dense6/24GoogleOpen-weight
62
947
-3/+42656N/AXS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
63
947
-3/+615667 Wh
S - 32 mia.Dense4/25AlibabaOpen-weight
64
944
-2/+5298112 Wh
M - 70 mia.Dense1/25DeepSeekOpen-weight
65
933
-4/+3250812 Wh
M - 70 mia.Dense8/25NousOpen-weight
66
932
-2/+3104444 Wh
XS - 8 mia.Dense7/24MetaOpen-weight
67
925
-0/+714174 Wh
XS - 7 mia.Dense9/24AlibabaOpen-weight
68
883
-2/+025605 Wh
S - 56 mia.MoE12/23Mistral AIOpen-weight
69
880
-1/+13578N/AS - (estimering)Proprietær9/24LiquidOphavsretligt beskyttet
70
871
-3/+23777 Wh
S - 32 mia.Dense11/25Ai2Open-weight
71
859
-1/+125353 Wh
XS - 3.8 mia.Dense8/24MicrosoftOpen-weight
72
850
-1/+262514 Wh
XS - 12 mia.Dense7/24Mistral AIOpen-weight
73
840
-1/+1545518 Wh
L - 176 mia.MoE4/24Mistral AIOpen-weight
74
816
-1/+017964 Wh
XS - 14 mia.Dense2/25jpacificoOpen-weight
75
762
-2/+3654 Wh
XS - 9 mia.Dense5/2401-aiOpen-weight
76
749
-1/+13095 Wh
XS - 14 mia.Dense9/24jpacificoOpen-weight
77
720
-0/+2804 Wh
XS - 7 mia.Dense7/24AlibabaOpen-weight

Er de mest populære modeller energieffektive?

Denne graf viser for hver model sammenhængen mellem tilfredshedsscore (Bradley Terry-score) og det estimerede gennemsnitlige energiforbrug pr. 1000 tokens. Energiforbruget estimeres ved hjælp af Ecologits-metodologien, som tager højde for to faktorer: modellernes størrelse (antal parametre) og deres arkitektur. Da proprietære modeller ikke offentliggør disse oplysninger - eller kun gør det delvist - er de ikke medtaget i grafen nedenfor.

Bradley-Terry (BT) tilfredshedsscore VS Gennemsnitsforbrug for 1000 tokens

Vælg en model for at kende dens Bradley-Terry (BT) score og energiforbrug

Bradley-Terry Score (BT)
75080085090095010001050110011500102030405060
Forbrug pr. 1000 tokens (Wh)
Filtrer efter gennemsnitligt energiforbrug for 1000 tokens
Størrelse (parametre)

Model arkitektur

  • MoE Tip Mixture of Experts (MoE) arkitekturen bruger en routingmekanisme til kun at aktivere visse specialiserede delmængder ("eksperter") af det neurale netværk, afhængigt af input. Dette gør det muligt at konstruere meget store modeller, samtidig med at beregningsomkostningerne holdes lave, da kun en del af netværket bruges ved hvert trin.
  • Dense Tip Den dense arkitektur betegner en type neuralt netværk, hvor hver neuron i et lag er forbundet til alle neuroner i det næste lag. Dette gør det muligt for alle parametrene i laget at bidrage til beregningen af outputtet.
  • Matformer Tip Forestil dig russiske matryoshka dukker (matryoshkas → matryoshka transformer → Matformer): hver blok indeholder flere indlejrede undermodeller af stigende størrelser, som deler de samme parametre. Dette gør det muligt ved hver forespørgsel at vælge en model med passende kapacitet, afhængigt af den tilgængelige hukommelse eller latens, uden behov for at genoptræne forskellige modeller.

Hvordan finder man den rette balance mellem opfattet performance og energieffektivitet? Eksempler på læsning af grafen

  • Jo højere oppe i grafen en model er placeret, desto højere er dens Bradley-Terry-tilfredshedsscore. Jo længere til venstre i grafen en model er placeret, desto mindre energi forbruger den i forhold til de andre modeller.
  • Øverst til venstre finder man de modeller, som er populære og forbruger relativt lidt energi sammenlignet med de andre modeller.
  • Ud over størrelsen har arkitekturen også indflydelse på modellernes gennemsnitlige energiforbrug: for eksempel forbruger Llama 3 405B-modellen (tæt arkitektur, 405 milliarder parametre) i gennemsnit 10 gange mere energi end GLM 4.5-modellen (MOE-arkitektur, 355 milliarder parametre og 32 milliarder aktive parametre), selv om de har en lignende størrelse.

Hvorfor vises de proprietære modeller ikke i grafen?

Estimeringen af energiforbruget ved inferens af modellerne bygger på Ecologits metode, som tager højde for modellernes størrelse og arkitektur. Disse oplysninger offentliggøres imidlertid ikke af modeludviklerne for såkaldte "proprietære" modeller.

Vi har derfor valgt ikke at medtage de proprietære modeller i grafen, så længe oplysningerne om energiforbrugsberegningen ikke er gennemsigtige.

Hvordan beregnes modellernes energipåvirkning?

compar:IA bruger metodologien udviklet af Ecologits (GenAI Impact) til at give et estimat af energiforbruget forbundet med inferens af konversationelle generative AI-modeller. Dette estimat gør det muligt for brugerne at sammenligne forskellige AI-modellers miljøpåvirkning for den samme forespørgsel. Denne gennemsigtighed er afgørende for at fremme udviklingen og anvendelsen af mere miljøansvarlige AI-modeller.

Ecologits anvender principperne for livscyklusanalyse (LCA) i overensstemmelse med ISO 14044-standarden ved i første omgang at fokusere på påvirkningen fra inferens (dvs. brugen af modeller til at besvare forespørgsler) og fremstillingen af grafikkort (udvinding af ressourcer, produktion og transport).

Modellens elektricitetsforbrug estimeres under hensyntagen til forskellige parametre såsom størrelsen og arkitekturen af den anvendte AI-model, placeringen af de servere, hvor modellerne er implementeret, samt antallet af output-tokens. Beregningen af indikatoren for global opvarmningspotentiale udtrykt i CO2-ækvivalenter udledes af målingen af modellens elektricitetsforbrug.

Det er vigtigt at bemærke, at metoderne til vurdering af AI's miljøpåvirkning stadig er under udvikling.

Grafdata i tabelform

Updateret 1/14/2026

Download data
Fra stemmer til en rangering af modeller
Model
BT
tilfredshedsscore
Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen.
Gns. forbrug
(1.000 tokens)
Tip Målt i watttimer repræsenterer det forbrugte energi den elektricitet, som modellen bruger til at behandle en forespørgsel og generere det tilsvarende svar. Modellernes energiforbrug afhænger af deres størrelse og arkitektur. Vi vælger at vise de proprietære modeller, som vi ikke har gennemsigtig information om størrelse og arkitektur for, som gråtonede ikke-analyserede (N/A).
Størrelse
(parametre)
Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke.
Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer).
Organisation
Licens
10723 Wh L - 117 mia.MoEOpenAIOpen-weight
10373 Wh XS - 4 mia.DenseGoogleOpen-weight
10283 Wh XS - 8 mia.MatformerGoogleOpen-weight
10213 Wh S - 21 mia.MoEOpenAIOpen-weight
9963 Wh XS - 8 mia.MoELiquidOpen-weight
9863 Wh S - 30 mia.MoEAlibabaOpen-weight
8593 Wh XS - 3.8 mia.DenseMicrosoftOpen-weight
10644 Wh XS - 12 mia.DenseGoogleOpen-weight
9874 Wh XS - 8 mia.DenseAlibabaOpen-weight
9724 Wh XS - 8 mia.DenseCohereOpen-weight
9514 Wh XS - 9 mia.DenseGoogleOpen-weight
9324 Wh XS - 8 mia.DenseMetaOpen-weight
9254 Wh XS - 7 mia.DenseAlibabaOpen-weight
8504 Wh XS - 12 mia.DenseMistral AIOpen-weight
8164 Wh XS - 14 mia.DensejpacificoOpen-weight
7624 Wh XS - 9 mia.Dense01-aiOpen-weight
7204 Wh XS - 7 mia.DenseAlibabaOpen-weight
10095 Wh L - 109 mia.MoEMetaOpen-weight
9655 Wh XS - 14 mia.DenseMicrosoftOpen-weight
8835 Wh S - 56 mia.MoEMistral AIOpen-weight
7495 Wh XS - 14 mia.DensejpacificoOpen-weight
10836 Wh S - 27 mia.DenseGoogleOpen-weight
10606 Wh S - 24 mia.DenseMistral AIOpen-weight
10496 Wh S - 24 mia.DenseMistral AIOpen-weight
10046 Wh S - 24 mia.DenseMistral AIOpen-weight
9856 Wh S - 24 mia.DenseMistral AIOpen-weight
10227 Wh S - 32 mia.DenseAlibabaOpen-weight
9907 Wh S - 32 mia.DenseCohereOpen-weight
9477 Wh S - 32 mia.DenseAlibabaOpen-weight
8717 Wh S - 32 mia.DenseAi2Open-weight
9718 Wh L - 230 mia.MoEMiniMaxOpen-weight
104412 Wh M - 70 mia.DenseNvidiaOpen-weight
98512 Wh M - 70 mia.DenseMetaOpen-weight
97612 Wh M - 70 mia.DenseSwiss AIOpen-weight
97112 Wh M - 70 mia.DenseMetaOpen-weight
94412 Wh M - 70 mia.DenseDeepSeekOpen-weight
93312 Wh M - 70 mia.DenseNousOpen-weight
101215 Wh XL - 400 mia.MoEMetaOpen-weight
105518 Wh L - 111 mia.DenseCohereOpen-weight
84018 Wh L - 176 mia.MoEMistral AIOpen-weight
107121 Wh L - 355 mia.MoEZhipuOpen-weight
103821 Wh L - 357 mia.MoEZhipuOpen-weight
109147 Wh XL - 685 mia.MoEDeepSeekOpen-weight
107947 Wh XL - 685 mia.MoEDeepSeekOpen-weight
107847 Wh XL - 671 mia.MoEDeepSeekOpen-weight
105647 Wh XL - 685 mia.MoEDeepSeekOpen-weight
102447 Wh XL - 671 mia.MoEDeepSeekOpen-weight
112050 Wh XL - 675 mia.MoEMistral AIOpen-weight
955238 Wh XL - 405 mia.DenseMetaOpen-weight

Hvordan vælger man metoden til rangordning af modeller?

Siden 2024 har tusindvis af brugere brugt compar:IA til at sammenligne forskellige modellers svar, hvilket har genereret hundredtusindvis af stemmer. At tælle antallet af sejre er ikke nok til at etablere en rangordning. Et retfærdigt system skal være statistisk robust, justere sig efter hver sammenligning og reelt afspejle værdien af de opnåede præstationer.

Det er i dette perspektiv, at der er blevet etableret en rangordning baseret på Bradley-Terry-modellen, udarbejdet i samarbejde med teamet fra Pôle d'Expertise de la Régulation numérique (PEReN), ud fra alle de stemmer og reaktioner, der er indsamlet på platformen. For at gå videre, se vores metodologiske notesbog.

To måders at opdele modeller

Rangordning efter sejrsrate

Definition: Empirisk rangordningssystem for modeller baseret på procentdelen af kampe vundet af en model mod alle andre modeller.

Hovedproblemer

  • Bias fra antal kampe: en model, der har vundet tre sejre ud af tre "kampe", viser en sejrsrate på 100%, men denne score er lidt signifikant, da den er baseret på meget lidt data.
  • Ingen hensyntagen til sværhedsgraden af kampene: at slå en "begynder"-model eller en "ekspert"-model tæller det samme. Sejrsraterne er ikke retfærdige, da de ikke tager højde for sværhedsgraden af kampene.
  • Stagnation: på lang sigt ender mange gode modeller omkring 50% sejrsrate, fordi de møder modeller på deres niveau, hvilket gør rangordningen mindre diskriminerende.

Bradley-Terry (BT) rangordning

Definition: Rangordningssystem, hvor gevinst eller tab af point afhænger af resultatet (sejr/nederlag/uafgjort) og det estimerede niveau af modstanderen: hvis en svagere model slår en stærkere model, er dens fremgang i rangordningen større.

Fordele

  • Probabilistisk model: man kan estimere det sandsynlige resultat af enhver sammenligning, selv mellem modeller, der aldrig er blevet direkte sammenlignet.
  • Hensyntagen til sværhedsgraden af kampene: de estimerede scores fra Bradley Terry-modellen tager højde for niveauet af de mødte modstandere, hvilket muliggør en retfærdig sammenligning mellem modeller.
  • Bedre håndtering af usikkerhed: konfidensintervallet integrerer hele netværket af sammenligninger. Dette muliggør et mere præcist estimat af usikkerheden, især for modeller med få direkte sammenligninger, men mange fælles modstandere.

Indvirkningen af valget af metode på rangordningen af modeller

10 første modeller i rangordningen ifølge den "empiriske" sejrsrate

52%54%56%58%60%62%64%66%gemini-2.0-flashgemini-3-flash-previewmistral-medium-2508deepseek-v3-0324gemini-2.5-flashmagistral-mediumqwen3-max-2025-09-23mistral-large-2512gemini-3-pro-previewgpt-5.2

Ved kun at basere sig på den gennemsnitlige sejrsrate kan man opnå en global rangordning, men denne beregning forudsætter, at hver model har spillet mod alle andre.

Denne metode er ikke ideel, da den kræver data fra alle kombinationer af modeller, og så snart man øger antallet af modeller, bliver det hurtigt dyrt og tungt at vedligeholde.

10 første modeller i rangordningen ifølge den estimerede sejrsrate med Bradley-Terry-modellen

52%54%56%58%60%62%64%66%gemini-3-flash-previewmistral-large-2512mistral-medium-2508gemini-2.5-flashgemini-3-pro-previewqwen3-max-2025-09-23gemini-2.0-flashdeepseek-v3-0324magistral-mediumgpt-5.2

Bradley-Terry-modellen omdanner et sæt af lokale og potentielt ufuldstændige sammenligninger til et sammenhængende og statistisk robust globalt rangordningssystem, der hvor den empiriske sejrsrate forbliver begrænset til direkte observationer.