879 stemmer
Mål: 10.000 Legend Diskuter, stem og hjælp os med at nå dette mål!
Dine stemmer betyder noget: de leverer data til compar:IA-datasættet, som er frit tilgængeligt, for at hjælpe med at forbedre fremtidige modeller på lavresourcesprog.
Denne digitale fælles ressource bidrager til bedre respekt for sproglig og kulturel mangfoldighed i fremtidige sprogmodeller.

Fra stemmer til en rangering af modeller

Tak for jeres bidrag! Jeres stemmer fodrer en Bradley-Terry (BT) rangordning, som vi gør transparent for jer.
Denne Bradley-Terry (BT) tilfredshedsscore er konstrueret i partnerskab med Pôle d'Expertise de la Régulation Numérique (PEReN) og er baseret på jeres stemmer og jeres godkendelses- og misbilligelsesreaktioner.

Total antal modeller: 70
Total antal stemmer: 879

Updateret 11/26/2025

Download data
Fra stemmer til en rangering af modeller
Rang Tip Rangordningsplacering tildelt ifølge Bradley-Terry-tilfredshedsscoren
Model
BT
tilfredshedsscore
Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen.
Konfidens (±) Tip Interval, der angiver pålideligheden af rangordningen: jo smallere intervallet er, jo mere pålidelig er rangestimat. Der er 95% sandsynlighed for, at modellens sande rang ligger i dette spænd.
Samlet antal stemmer
Gns. forbrug
(1.000 tokens)
Tip Mesurée en wattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture.
Størrelse
(parametre)
Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke.
Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer).
Udgivelsesdato
Organisation
Licens
1
1146
-1/+11852N/AL - (estimering)Proprietær8/25Mistral AIOphavsretligt beskyttet
2
1113
-5/+12452N/AXL - (estimering)Proprietær6/25GoogleOphavsretligt beskyttet
3
1111
-5/+21230N/AXL - (estimering)Proprietær9/25AlibabaOphavsretligt beskyttet
4
1107
-3/+28684N/AXL - (estimering)Proprietær12/24GoogleOphavsretligt beskyttet
5
1100
-5/+1438547 Wh
XL - 685 mia.MoE3/25DeepSeekOpen-weight
6
1095
-9/+38903 Wh
L - 117 mia.MoE8/25OpenAIOpen-weight
7
1094
-4/+362986 Wh
S - 27 mia.Dense3/25GoogleOpen-weight
8
1091
-6/+41757N/AL - (estimering)Proprietær6/25Mistral AIOphavsretligt beskyttet
9
1090
-6/+51235N/AL - (estimering)Proprietær8/25Mistral AIOphavsretligt beskyttet
10
1086
-4/+4538847 Wh
XL - 671 mia.MoE12/24DeepSeekOpen-weight
11
1085
-7/+885647 Wh
XL - 685 mia.MoE8/25DeepSeekOpen-weight
12
1078
-10/+760847 Wh
XL - 685 mia.MoE5/25DeepSeekOpen-weight
13
1076
-6/+52480N/AXL - (estimering)Proprietær9/25AnthropicOphavsretligt beskyttet
14
1073
-6/+359024 Wh
XS - 12 mia.Dense3/25GoogleOpen-weight
15
1071
-8/+61537N/AL - (estimering)Proprietær4/25xAIOphavsretligt beskyttet
16
1070
-7/+7112621 Wh
L - 355 mia.MoE7/25ZhipuOpen-weight
17
1070
-5/+62540N/AXL - (estimering)Proprietær5/25AnthropicOphavsretligt beskyttet
18
1067
-5/+621556 Wh
S - 24 mia.Dense6/25Mistral AIOpen-weight
19
1066
-4/+5586218 Wh
L - 111 mia.Dense3/25CohereOpen-weight
20
1064
-5/+81834N/AXL - (estimering)Proprietær9/25xAIOphavsretligt beskyttet
21
1057
-5/+43907N/AXL - (estimering)Proprietær2/25AnthropicOphavsretligt beskyttet
22
1056
-5/+525536 Wh
S - 24 mia.Dense6/25Mistral AIOpen-weight
23
1052
-4/+3670912 Wh
M - 70 mia.Dense10/24NvidiaOpen-weight
24
1048
-5/+269373 Wh
XS - 4 mia.Dense3/25GoogleOpen-weight
25
1043
-7/+610167 Wh
S - 32 mia.Dense4/25AlibabaOpen-weight
26
1040
-8/+797321 Wh
L - 357 mia.MoE9/25ZhipuOpen-weight
27
1039
-4/+47173N/AM - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
28
1037
-4/+57387N/AXL - (estimering)Proprietær9/24GoogleOphavsretligt beskyttet
29
1036
-5/+712313 Wh
S - 21 mia.MoE8/25OpenAIOpen-weight
30
1034
-4/+622793 Wh
XS - 8 mia.Matformer5/25GoogleOpen-weight
31
1034
-2/+7351047 Wh
XL - 671 mia.MoE1/25DeepSeekOpen-weight
32
1022
-3/+44934N/AS - (estimering)Proprietær2/25Mistral AIOphavsretligt beskyttet
33
1018
-5/+444505 Wh
L - 109 mia.MoE4/25MetaOpen-weight
34
1016
-5/+43078N/AL - (estimering)Proprietær8/25OpenAIOphavsretligt beskyttet
35
1015
-5/+61588N/AS - (estimering)Proprietær8/25OpenAIOphavsretligt beskyttet
36
1013
-4/+450796 Wh
S - 24 mia.Dense3/25Mistral AIOpen-weight
37
1012
-4/+62746N/AS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
38
1011
-4/+7164015 Wh
XL - 400 mia.MoE4/25MetaOpen-weight
39
1007
-10/+107626 Wh
S - 27 mia.Dense6/24GoogleOpen-weight
40
1000
-8/+515583 Wh
S - 30 mia.MoE5/25AlibabaOpen-weight
41
998
-4/+351137 Wh
S - 32 mia.Dense12/24CohereOpen-weight
42
995
-10/+610894 Wh
XS - 8 mia.Dense7/25AlibabaOpen-weight
43
992
-6/+433186 Wh
S - 24 mia.Dense1/25Mistral AIOpen-weight
44
990
-6/+3794512 Wh
M - 70 mia.Dense12/24MetaOpen-weight
45
989
-8/+71619N/AS - (estimering)Proprietær11/24OpenAIOphavsretligt beskyttet
46
988
-4/+56990N/AS - (estimering)Proprietær7/24OpenAIOphavsretligt beskyttet
47
985
-5/+45717N/AS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
48
981
-10/+8103212 Wh
M - 70 mia.Dense9/25Swiss AIOpen-weight
49
980
-9/+713024 Wh
XS - 8 mia.Dense10/24CohereOpen-weight
50
979
-4/+5558312 Wh
M - 70 mia.Dense7/24MetaOpen-weight
51
977
-3/+55683N/AXL - (estimering)Proprietær10/24AnthropicOphavsretligt beskyttet
52
973
-4/+393955 Wh
XS - 14 mia.Dense12/24MicrosoftOpen-weight
53
968
-4/+45896N/AXL - (estimering)Proprietær8/24OpenAIOphavsretligt beskyttet
54
963
-2/+59973238 Wh
XL - 405 mia.Dense7/24MetaOpen-weight
55
959
-3/+451154 Wh
XS - 9 mia.Dense6/24GoogleOpen-weight
56
958
-3/+91305N/AXS - (estimering)Proprietær4/25OpenAIOphavsretligt beskyttet
57
957
-2/+715667 Wh
S - 32 mia.Dense4/25AlibabaOpen-weight
58
954
-1/+6298112 Wh
M - 70 mia.Dense1/25DeepSeekOpen-weight
59
935
-3/+397904 Wh
XS - 8 mia.Dense7/24MetaOpen-weight
60
933
-3/+5135112 Wh
M - 70 mia.Dense8/25NousOpen-weight
61
932
-1/+714174 Wh
XS - 7 mia.Dense9/24AlibabaOpen-weight
62
890
-2/+125605 Wh
S - 56 mia.MoE12/23Mistral AIOpen-weight
63
887
-1/+23578N/AS - (estimering)Proprietær9/24LiquidOphavsretligt beskyttet
64
867
-2/+125353 Wh
XS - 3.8 mia.Dense8/24MicrosoftOpen-weight
65
857
-1/+162514 Wh
XS - 12 mia.Dense7/24Mistral AIOpen-weight
66
847
-1/+1545518 Wh
L - 176 mia.MoE4/24Mistral AIOpen-weight
67
824
-2/+017964 Wh
XS - 14 mia.Dense2/25jpacificoOpen-weight
68
771
-3/+3654 Wh
XS - 9 mia.Dense5/2401-aiOpen-weight
69
755
-2/+13095 Wh
XS - 14 mia.Dense9/24jpacificoOpen-weight
70
733
-0/+3804 Wh
XS - 7 mia.Dense7/24AlibabaOpen-weight

Er de mest populære modeller energieffektive?

Denne graf viser for hver model sammenhængen mellem tilfredshedsscore (Bradley Terry-score) og det estimerede gennemsnitlige energiforbrug pr. 1000 tokens. Energiforbruget estimeres ved hjælp af Ecologits-metodologien, som tager højde for to faktorer: modellernes størrelse (antal parametre) og deres arkitektur. Da proprietære modeller ikke offentliggør disse oplysninger - eller kun gør det delvist - er de ikke medtaget i grafen nedenfor.

Bradley-Terry (BT) tilfredshedsscore VS Gennemsnitsforbrug for 1000 tokens

Vælg en model for at kende dens Bradley-Terry (BT) score og energiforbrug

Bradley-Terry Score (BT)
7508008509009501000105011000102030405060
Forbrug pr. 1000 tokens (Wh)
Filtrer efter gennemsnitligt energiforbrug for 1000 tokens
Størrelse (parametre)

Model arkitektur

  • MoE Tip Mixture of Experts (MoE) arkitekturen bruger en routingmekanisme til kun at aktivere visse specialiserede delmængder ("eksperter") af det neurale netværk, afhængigt af input. Dette gør det muligt at konstruere meget store modeller, samtidig med at beregningsomkostningerne holdes lave, da kun en del af netværket bruges ved hvert trin.
  • Dense Tip Den dense arkitektur betegner en type neuralt netværk, hvor hver neuron i et lag er forbundet til alle neuroner i det næste lag. Dette gør det muligt for alle parametrene i laget at bidrage til beregningen af outputtet.
  • Matformer Tip Forestil dig russiske matryoshka dukker (matryoshkas → matryoshka transformer → Matformer): hver blok indeholder flere indlejrede undermodeller af stigende størrelser, som deler de samme parametre. Dette gør det muligt ved hver forespørgsel at vælge en model med passende kapacitet, afhængigt af den tilgængelige hukommelse eller latens, uden behov for at genoptræne forskellige modeller.

Hvordan finder man den rette balance mellem opfattet performance og energieffektivitet? Eksempler på læsning af grafen

  • Jo højere oppe i grafen en model er placeret, desto højere er dens Bradley-Terry-tilfredshedsscore. Jo længere til venstre i grafen en model er placeret, desto mindre energi forbruger den i forhold til de andre modeller.
  • Øverst til venstre finder man de modeller, som er populære og forbruger relativt lidt energi sammenlignet med de andre modeller.
  • Ud over størrelsen har arkitekturen også indflydelse på modellernes gennemsnitlige energiforbrug: for eksempel forbruger Llama 3 405B-modellen (tæt arkitektur, 405 milliarder parametre) i gennemsnit 10 gange mere energi end GLM 4.5-modellen (MOE-arkitektur, 355 milliarder parametre og 32 milliarder aktive parametre), selv om de har en lignende størrelse.

Hvorfor vises de proprietære modeller ikke i grafen?

Estimeringen af energiforbruget ved inferens af modellerne bygger på Ecologits metode, som tager højde for modellernes størrelse og arkitektur. Disse oplysninger offentliggøres imidlertid ikke af modeludviklerne for såkaldte "proprietære" modeller.

Vi har derfor valgt ikke at medtage de proprietære modeller i grafen, så længe oplysningerne om energiforbrugsberegningen ikke er gennemsigtige.

Hvordan beregnes modellernes energipåvirkning?

compar:IA bruger metodologien udviklet af Ecologits (GenAI Impact) til at give et estimat af energiforbruget forbundet med inferens af konversationelle generative AI-modeller. Dette estimat gør det muligt for brugerne at sammenligne forskellige AI-modellers miljøpåvirkning for den samme forespørgsel. Denne gennemsigtighed er afgørende for at fremme udviklingen og anvendelsen af mere miljøansvarlige AI-modeller.

Ecologits anvender principperne for livscyklusanalyse (LCA) i overensstemmelse med ISO 14044-standarden ved i første omgang at fokusere på påvirkningen fra inferens (dvs. brugen af modeller til at besvare forespørgsler) og fremstillingen af grafikkort (udvinding af ressourcer, produktion og transport).

Modellens elektricitetsforbrug estimeres under hensyntagen til forskellige parametre såsom størrelsen og arkitekturen af den anvendte AI-model, placeringen af de servere, hvor modellerne er implementeret, samt antallet af output-tokens. Beregningen af indikatoren for global opvarmningspotentiale udtrykt i CO2-ækvivalenter udledes af målingen af modellens elektricitetsforbrug.

Det er vigtigt at bemærke, at metoderne til vurdering af AI's miljøpåvirkning stadig er under udvikling.

Grafdata i tabelform

Updateret 11/26/2025

Download data
Fra stemmer til en rangering af modeller
Model
BT
tilfredshedsscore
Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen.
Gns. forbrug
(1.000 tokens)
Tip Mesurée en wattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture.
Størrelse
(parametre)
Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke.
Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer).
Organisation
Licens
10953 Wh L - 117 mia.MoEOpenAIOpen-weight
10483 Wh XS - 4 mia.DenseGoogleOpen-weight
10363 Wh S - 21 mia.MoEOpenAIOpen-weight
10343 Wh XS - 8 mia.MatformerGoogleOpen-weight
10003 Wh S - 30 mia.MoEAlibabaOpen-weight
8673 Wh XS - 3.8 mia.DenseMicrosoftOpen-weight
10734 Wh XS - 12 mia.DenseGoogleOpen-weight
9954 Wh XS - 8 mia.DenseAlibabaOpen-weight
9804 Wh XS - 8 mia.DenseCohereOpen-weight
9594 Wh XS - 9 mia.DenseGoogleOpen-weight
9354 Wh XS - 8 mia.DenseMetaOpen-weight
9324 Wh XS - 7 mia.DenseAlibabaOpen-weight
8574 Wh XS - 12 mia.DenseMistral AIOpen-weight
8244 Wh XS - 14 mia.DensejpacificoOpen-weight
7714 Wh XS - 9 mia.Dense01-aiOpen-weight
7334 Wh XS - 7 mia.DenseAlibabaOpen-weight
10185 Wh L - 109 mia.MoEMetaOpen-weight
9735 Wh XS - 14 mia.DenseMicrosoftOpen-weight
8905 Wh S - 56 mia.MoEMistral AIOpen-weight
7555 Wh XS - 14 mia.DensejpacificoOpen-weight
10946 Wh S - 27 mia.DenseGoogleOpen-weight
10676 Wh S - 24 mia.DenseMistral AIOpen-weight
10566 Wh S - 24 mia.DenseMistral AIOpen-weight
10136 Wh S - 24 mia.DenseMistral AIOpen-weight
10076 Wh S - 27 mia.DenseGoogleOpen-weight
9926 Wh S - 24 mia.DenseMistral AIOpen-weight
10437 Wh S - 32 mia.DenseAlibabaOpen-weight
9987 Wh S - 32 mia.DenseCohereOpen-weight
9577 Wh S - 32 mia.DenseAlibabaOpen-weight
105212 Wh M - 70 mia.DenseNvidiaOpen-weight
99012 Wh M - 70 mia.DenseMetaOpen-weight
98112 Wh M - 70 mia.DenseSwiss AIOpen-weight
97912 Wh M - 70 mia.DenseMetaOpen-weight
95412 Wh M - 70 mia.DenseDeepSeekOpen-weight
93312 Wh M - 70 mia.DenseNousOpen-weight
101115 Wh XL - 400 mia.MoEMetaOpen-weight
106618 Wh L - 111 mia.DenseCohereOpen-weight
84718 Wh L - 176 mia.MoEMistral AIOpen-weight
107021 Wh L - 355 mia.MoEZhipuOpen-weight
104021 Wh L - 357 mia.MoEZhipuOpen-weight
110047 Wh XL - 685 mia.MoEDeepSeekOpen-weight
108647 Wh XL - 671 mia.MoEDeepSeekOpen-weight
108547 Wh XL - 685 mia.MoEDeepSeekOpen-weight
107847 Wh XL - 685 mia.MoEDeepSeekOpen-weight
103447 Wh XL - 671 mia.MoEDeepSeekOpen-weight
963238 Wh XL - 405 mia.DenseMetaOpen-weight

Hvordan vælger man metoden til rangordning af modeller?

Siden 2024 har tusindvis af brugere brugt compar:IA til at sammenligne forskellige modellers svar, hvilket har genereret hundredtusindvis af stemmer. At tælle antallet af sejre er ikke nok til at etablere en rangordning. Et retfærdigt system skal være statistisk robust, justere sig efter hver sammenligning og reelt afspejle værdien af de opnåede præstationer.

Det er i dette perspektiv, at der er blevet etableret en rangordning baseret på Bradley-Terry-modellen, udarbejdet i samarbejde med teamet fra Pôle d'Expertise de la Régulation numérique (PEReN), ud fra alle de stemmer og reaktioner, der er indsamlet på platformen. For at gå videre, se vores metodologiske notesbog.

To måders at opdele modeller

Rangordning efter sejrsrate

Definition: Empirisk rangordningssystem for modeller baseret på procentdelen af kampe vundet af en model mod alle andre modeller.

Hovedproblemer

  • Bias fra antal kampe: en model, der har vundet tre sejre ud af tre "kampe", viser en sejrsrate på 100%, men denne score er lidt signifikant, da den er baseret på meget lidt data.
  • Ingen hensyntagen til sværhedsgraden af kampene: at slå en "begynder"-model eller en "ekspert"-model tæller det samme. Sejrsraterne er ikke retfærdige, da de ikke tager højde for sværhedsgraden af kampene.
  • Stagnation: på lang sigt ender mange gode modeller omkring 50% sejrsrate, fordi de møder modeller på deres niveau, hvilket gør rangordningen mindre diskriminerende.

Bradley-Terry (BT) rangordning

Definition: Rangordningssystem, hvor gevinst eller tab af point afhænger af resultatet (sejr/nederlag/uafgjort) og det estimerede niveau af modstanderen: hvis en svagere model slår en stærkere model, er dens fremgang i rangordningen større.

Fordele

  • Probabilistisk model: man kan estimere det sandsynlige resultat af enhver sammenligning, selv mellem modeller, der aldrig er blevet direkte sammenlignet.
  • Hensyntagen til sværhedsgraden af kampene: de estimerede scores fra Bradley Terry-modellen tager højde for niveauet af de mødte modstandere, hvilket muliggør en retfærdig sammenligning mellem modeller.
  • Bedre håndtering af usikkerhed: konfidensintervallet integrerer hele netværket af sammenligninger. Dette muliggør et mere præcist estimat af usikkerheden, især for modeller med få direkte sammenligninger, men mange fælles modstandere.

Indvirkningen af valget af metode på rangordningen af modeller

10 første modeller i rangordningen ifølge den "empiriske" sejrsrate

56%58%60%62%64%66%68%gemini-2.0-flashmistral-medium-3.1deepseek-v3-chatqwen3-max-2025-09-23gemini-2.5-flashdeepseek-v3-0324gemma-3-27bmagistral-mediumgpt-oss-120bmistral-medium-2508

Ved kun at basere sig på den gennemsnitlige sejrsrate kan man opnå en global rangordning, men denne beregning forudsætter, at hver model har spillet mod alle andre.

Denne metode er ikke ideel, da den kræver data fra alle kombinationer af modeller, og så snart man øger antallet af modeller, bliver det hurtigt dyrt og tungt at vedligeholde.

10 første modeller i rangordningen ifølge den estimerede sejrsrate med Bradley-Terry-modellen

56%58%60%62%64%66%68%mistral-medium-3.1gemini-2.5-flashqwen3-max-2025-09-23gemini-2.0-flashdeepseek-v3-0324gpt-oss-120bgemma-3-27bmagistral-mediummistral-medium-2508deepseek-v3-chat

Bradley-Terry-modellen omdanner et sæt af lokale og potentielt ufuldstændige sammenligninger til et sammenhængende og statistisk robust globalt rangordningssystem, der hvor den empiriske sejrsrate forbliver begrænset til direkte observationer.