Fra stemmer til en rangering af modeller

Tak for jeres bidrag!
Rangeringen AI-arenaen er baseret på alle stemmer og reaktioner fra den blinde sammenligning af modellerne og indsamlet siden tjenestens offentlige lancering i oktober 2024.
Bygget i partnerskab med Pôle d'Expertise de la Régulation Numérique (PEReN), er modelrangeringen etableret baseret på tilfredshedsscore beregnet ud fra den statistiske model Bradley Terry, en udbredt metode til at konvertere binære stemmer til probabilistisk rangering.
AI-arenaens-rangeringen har ikke til formål at udgøre en officiel anbefaling eller evaluere modellernes tekniske ydeevne. Den afspejler platformens brugeres subjektive præferencer og ikke svarenes faktualitet eller sandfærdighed.

Fra stemmer til en rangering af modeller
Rang Tip	Model	BT tilfredshedsscore Tip	Konfidens (±) Tip	Samlet antal stemmer	Gns. forbrug (1.000 tokens) Tip	Størrelse (parametre) Tip	Arkitektur Tip	Udgivelsesdato	Organisation	Licens
1	gemini-3-flash-preview	1128	-2/+1	1262	N/A	XL - (estimering)	Proprietær	12/25	Google	Ophavsretligt beskyttet
2	mistral-large-2512	1122	-1/+2	3140	4134 mWh	XL - 675 mia.	MoE	12/25	Mistral AI	Open-weight
3	mistral-medium-2508	1118	-0/+2	6358	N/A	L - (estimering)	Proprietær	8/25	Mistral AI	Ophavsretligt beskyttet
4	gemini-2.5-flash	1106	-3/+1	4927	N/A	XL - (estimering)	Proprietær	6/25	Google	Ophavsretligt beskyttet
5	gemini-3-pro-preview	1101	-3/+1	3210	N/A	XL - (estimering)	Proprietær	11/25	Google	Ophavsretligt beskyttet
6	qwen3-max-2025-09-23	1101	-2/+2	3283	N/A	XL - (estimering)	Proprietær	9/25	Alibaba	Ophavsretligt beskyttet
7	gemini-2.0-flash	1100	-1/+3	8684	N/A	XL - (estimering)	Proprietær	12/24	Google	Ophavsretligt beskyttet
8	deepseek-v3-0324	1091	-2/+2	4385	3979 mWh	XL - 685 mia.	MoE	3/25	DeepSeek	Open-weight
9	magistral-medium	1089	-4/+3	2207	N/A	L - (estimering)	Proprietær	6/25	Mistral AI	Ophavsretligt beskyttet
10	gemma-3-27b	1082	-4/+1	8583	112 mWh	S - 27 mia.	Dense	3/25	Google	Open-weight
11	deepseek-v3-chat	1078	-7/+2	5388	3979 mWh	XL - 671 mia.	MoE	12/24	DeepSeek	Open-weight
12	deepseek-chat-v3.1	1077	-7/+3	2527	3979 mWh	XL - 685 mia.	MoE	8/25	DeepSeek	Open-weight
13	gpt-5.1	1075	-7/+3	3189	N/A	L - (estimering)	Proprietær	11/25	OpenAI	Ophavsretligt beskyttet
14	DeepSeek-V3.2	1074	-8/+5	1843	3979 mWh	XL - 685 mia.	MoE	12/25	DeepSeek	Open-weight
15	claude-4-5-sonnet	1072	-5/+3	6519	N/A	XL - (estimering)	Proprietær	9/25	Anthropic	Ophavsretligt beskyttet
16	glm-4.5	1072	-8/+6	2178	1892 mWh	L - 355 mia.	MoE	7/25	Zhipu	Open-weight
17	gpt-5.2	1069	-8/+5	2832	N/A	L - (estimering)	Proprietær	12/25	OpenAI	Ophavsretligt beskyttet
18	kimi-k2-thinking	1068	-10/+8	1304	3785 mWh	XL - 1000 mia.	MoE	11/25	Moonshot AI	Open-weight
19	grok-4.1-fast	1066	-8/+6	2553	N/A	XL - (estimering)	Proprietær	11/25	xAI	Ophavsretligt beskyttet
20	gpt-oss-120b	1065	-8/+7	2315	342 mWh	L - 117 mia.	MoE	8/25	OpenAI	Open-weight
21	grok-4-fast	1063	-7/+7	2623	N/A	XL - (estimering)	Proprietær	9/25	xAI	Ophavsretligt beskyttet
22	gemma-3-12b	1063	-4/+5	8288	94 mWh	XS - 12 mia.	Dense	3/25	Google	Open-weight
23	claude-4-sonnet	1063	-5/+9	2540	N/A	XL - (estimering)	Proprietær	5/25	Anthropic	Ophavsretligt beskyttet
24	grok-3-mini-beta	1060	-7/+10	1537	N/A	L - (estimering)	Proprietær	4/25	xAI	Ophavsretligt beskyttet
25	mistral-small-2506	1059	-4/+6	5510	109 mWh	S - 24 mia.	Dense	6/25	Mistral AI	Open-weight
26	kimi-k2	1057	-6/+9	1746	3785 mWh	XL - 1000 mia.	MoE	9/25	Moonshot AI	Open-weight
27	deepseek-r1-0528	1055	-6/+8	2097	3979 mWh	XL - 685 mia.	MoE	5/25	DeepSeek	Open-weight
28	command-a	1055	-2/+6	7866	857 mWh	L - 111 mia.	Dense	3/25	Cohere	Open-weight
29	magistral-small-2506	1049	-5/+4	3147	109 mWh	S - 24 mia.	Dense	6/25	Mistral AI	Open-weight
30	claude-3-7-sonnet	1048	-4/+5	3907	N/A	XL - (estimering)	Proprietær	2/25	Anthropic	Ophavsretligt beskyttet
31	Qwen3-Coder-480B-A35B-Instruct	1047	-5/+8	1557	1951 mWh	XL - 480 mia.	MoE	7/25	Alibaba	Open-weight
32	glm-4.6	1045	-4/+5	2769	1892 mWh	L - 357 mia.	MoE	9/25	Zhipu	Open-weight
33	llama-3.1-nemotron-70b-instruct	1043	-2/+4	6709	658 mWh	M - 70 mia.	Dense	10/24	Nvidia	Open-weight
34	glm-4.7	1036	-9/+8	820	1892 mWh	L - 357 mia.	MoE	12/25	Zhipu	Open-weight
35	gemma-3-4b	1035	-3/+2	9361	84 mWh	XS - 4 mia.	Dense	3/25	Google	Open-weight
36	gemma-3n-e4b-it	1033	-4/+3	4676	84 mWh	XS - 8 mia.	Matformer	5/25	Google	Open-weight
37	gpt-4.1-mini	1031	-3/+3	7173	N/A	M - (estimering)	Proprietær	4/25	OpenAI	Ophavsretligt beskyttet
38	gemini-1.5-pro	1030	-3/+4	7387	N/A	XL - (estimering)	Proprietær	9/24	Google	Ophavsretligt beskyttet
39	deepseek-r1	1025	-5/+4	3510	3979 mWh	XL - 671 mia.	MoE	1/25	DeepSeek	Open-weight
40	qwen3-32b	1020	-6/+3	2352	118 mWh	S - 32 mia.	Dense	4/25	Alibaba	Open-weight
41	llama-maverick	1015	-5/+4	3849	1601 mWh	XL - 400 mia.	MoE	4/25	Meta	Open-weight
42	gpt-oss-20b	1014	-5/+5	2719	83 mWh	S - 21 mia.	MoE	8/25	OpenAI	Open-weight
43	mistral-saba	1014	-3/+5	4934	N/A	S - (estimering)	Proprietær	2/25	Mistral AI	Ophavsretligt beskyttet
44	gpt-5-mini	1012	-3/+5	4459	N/A	S - (estimering)	Proprietær	8/25	OpenAI	Ophavsretligt beskyttet
45	llama-4-scout	1010	-3/+5	6565	400 mWh	L - 109 mia.	MoE	4/25	Meta	Open-weight
46	mistral-small-3.1-24b	1004	-4/+3	5079	109 mWh	S - 24 mia.	Dense	3/25	Mistral AI	Open-weight
47	o4-mini	1002	-5/+3	2830	N/A	S - (estimering)	Proprietær	4/25	OpenAI	Ophavsretligt beskyttet
48	gpt-5	999	-3/+4	3843	N/A	L - (estimering)	Proprietær	8/25	OpenAI	Ophavsretligt beskyttet
49	lfm2-8b-a1b	996	-5/+4	2276	81 mWh	XS - 8 mia.	MoE	10/25	Liquid	Open-weight
50	aya-expanse-32b	990	-6/+2	5113	118 mWh	S - 32 mia.	Dense	12/24	Cohere	Open-weight
51	qwen3-30b-a3b	988	-7/+3	3825	83 mWh	S - 30 mia.	MoE	5/25	Alibaba	Open-weight
52	qwen-3-8b	988	-7/+4	3245	89 mWh	XS - 8 mia.	Dense	7/25	Alibaba	Open-weight
53	llama-3.3-70b	986	-5/+3	9845	658 mWh	M - 70 mia.	Dense	12/24	Meta	Open-weight
54	mistral-small-24b-instruct-2501	984	-6/+5	3318	109 mWh	S - 24 mia.	Dense	1/25	Mistral AI	Open-weight
55	o3-mini	981	-9/+6	1619	N/A	S - (estimering)	Proprietær	11/24	OpenAI	Ophavsretligt beskyttet
56	gpt-4o-mini-2024-07-18	981	-5/+4	6990	N/A	S - (estimering)	Proprietær	7/24	OpenAI	Ophavsretligt beskyttet
57	Apertus-70B-Instruct-2509	978	-7/+6	2415	658 mWh	M - 70 mia.	Dense	9/25	Swiss AI	Open source
58	gpt-4.1-nano	977	-5/+4	5717	N/A	S - (estimering)	Proprietær	4/25	OpenAI	Ophavsretligt beskyttet
59	minimax-m2	976	-6/+8	2160	733 mWh	L - 230 mia.	MoE	10/25	MiniMax	Open-weight
60	aya-expanse-8b	973	-8/+8	1302	89 mWh	XS - 8 mia.	Dense	10/24	Cohere	Open-weight
61	llama-3.1-70b	971	-4/+4	5583	658 mWh	M - 70 mia.	Dense	7/24	Meta	Open-weight
62	claude-3-5-sonnet-v2	970	-3/+5	5683	N/A	XL - (estimering)	Proprietær	10/24	Anthropic	Ophavsretligt beskyttet
63	phi-4	966	-3/+3	9968	96 mWh	XS - 14 mia.	Dense	12/24	Microsoft	Open-weight
64	gpt-4o-2024-08-06	961	-3/+4	5896	N/A	XL - (estimering)	Proprietær	8/24	OpenAI	Ophavsretligt beskyttet
65	llama-3.1-405b	956	-2/+4	9973	9134 mWh	XL - 405 mia.	Dense	7/24	Meta	Open-weight
66	gemma-2-9b-it	952	-2/+4	5115	90 mWh	XS - 9 mia.	Dense	6/24	Google	Open-weight
67	qwq-32b	947	-5/+5	1566	118 mWh	S - 32 mia.	Dense	4/25	Alibaba	Open-weight
68	gpt-5-nano	945	-3/+4	3583	N/A	XS - (estimering)	Proprietær	4/25	OpenAI	Ophavsretligt beskyttet
69	deepseek-r1-distill-llama-70b	944	-2/+5	2981	658 mWh	M - 70 mia.	Dense	1/25	DeepSeek	Open-weight
70	hermes-4-70b	934	-4/+4	3199	658 mWh	M - 70 mia.	Dense	8/25	Nous	Open-weight
71	llama-3.1-8b	932	-2/+3	10444	89 mWh	XS - 8 mia.	Dense	7/24	Meta	Open-weight
72	qwen2.5-7b-instruct	925	-1/+6	1417	88 mWh	XS - 7 mia.	Dense	9/24	Alibaba	Open-weight
73	mixtral-8x7b-instruct-v0.1	883	-2/+0	2560	193 mWh	S - 56 mia.	MoE	12/23	Mistral AI	Open-weight
74	lfm-40b	880	-1/+1	3578	N/A	S - (estimering)	Proprietær	9/24	Liquid	Ophavsretligt beskyttet
75	olmo-3-32b-think	868	-2/+2	1196	118 mWh	S - 32 mia.	Dense	11/25	Ai2	Open source
76	phi-3.5-mini-instruct	860	-1/+1	2535	83 mWh	XS - 3.8 mia.	Dense	8/24	Microsoft	Open-weight
77	mistral-nemo-2407	850	-1/+1	6251	94 mWh	XS - 12 mia.	Dense	7/24	Mistral AI	Open-weight
78	mixtral-8x22b-instruct-v0.1	840	-1/+1	5455	1063 mWh	L - 176 mia.	MoE	4/24	Mistral AI	Open-weight
79	chocolatine-2-14b-instruct-v2.0.3-q8	816	-1/+0	1796	88 mWh	XS - 14 mia.	Dense	2/25	jpacifico	Open-weight
80	Yi-1.5-9B-Chat	764	-2/+3	65	90 mWh	XS - 9 mia.	Dense	5/24	01-ai	Open-weight
81	chocolatine-14b-instruct-dpo-v1.2-q4	749	-1/+1	309	96 mWh	XS - 14 mia.	Dense	9/24	jpacifico	Open-weight
82	qwen2-7b-instruct	727	-0/+2	80	88 mWh	XS - 7 mia.	Dense	7/24	Alibaba	Open-weight

Er de mest populære modeller energieffektive?

Denne graf viser for hver model sammenhængen mellem tilfredshedsscore (Bradley Terry-score) og det estimerede gennemsnitlige energiforbrug pr. 1000 tokens. Energiforbruget estimeres ved hjælp af Ecologits-metodologien, som tager højde for to faktorer: modellernes størrelse (antal parametre) og deres arkitektur. Da proprietære modeller ikke offentliggør disse oplysninger - eller kun gør det delvist - er de ikke medtaget i grafen nedenfor.

Hvordan finder man den rette balance mellem opfattet performance og energieffektivitet? Eksempler på læsning af grafen

Jo højere oppe i grafen en model er placeret, desto højere er dens Bradley-Terry-tilfredshedsscore. Jo længere til venstre i grafen en model er placeret, desto mindre energi forbruger den i forhold til de andre modeller.
Øverst til venstre finder man de modeller, som er populære og forbruger relativt lidt energi sammenlignet med de andre modeller.
Ud over størrelsen har arkitekturen også indflydelse på modellernes gennemsnitlige energiforbrug: for eksempel forbruger Llama 3 405B-modellen (tæt arkitektur, 405 milliarder parametre) i gennemsnit 10 gange mere energi end GLM 4.5-modellen (MOE-arkitektur, 355 milliarder parametre og 32 milliarder aktive parametre), selv om de har en lignende størrelse.

Hvorfor vises de proprietære modeller ikke i grafen?

Estimeringen af energiforbruget ved inferens af modellerne bygger på Ecologits metode, som tager højde for modellernes størrelse og arkitektur. Disse oplysninger offentliggøres imidlertid ikke af modeludviklerne for såkaldte "proprietære" modeller.

Vi har derfor valgt ikke at medtage de proprietære modeller i grafen, så længe oplysningerne om energiforbrugsberegningen ikke er gennemsigtige.

Hvordan beregnes modellernes energipåvirkning?

compar:IA bruger metodologien udviklet af Ecologits (GenAI Impact) til at give et estimat af energiforbruget forbundet med inferens af konversationelle generative AI-modeller. Dette estimat gør det muligt for brugerne at sammenligne forskellige AI-modellers miljøpåvirkning for den samme forespørgsel. Denne gennemsigtighed er afgørende for at fremme udviklingen og anvendelsen af mere miljøansvarlige AI-modeller.

Ecologits anvender principperne for livscyklusanalyse (LCA) i overensstemmelse med ISO 14044-standarden ved i første omgang at fokusere på påvirkningen fra inferens (dvs. brugen af modeller til at besvare forespørgsler) og fremstillingen af grafikkort (udvinding af ressourcer, produktion og transport).

Modellens elektricitetsforbrug estimeres under hensyntagen til forskellige parametre såsom størrelsen og arkitekturen af den anvendte AI-model, placeringen af de servere, hvor modellerne er implementeret, samt antallet af output-tokens. Beregningen af indikatoren for global opvarmningspotentiale udtrykt i CO2-ækvivalenter udledes af målingen af modellens elektricitetsforbrug.

Det er vigtigt at bemærke, at metoderne til vurdering af AI's miljøpåvirkning stadig er under udvikling.

Grafdata i tabelform

Fra stemmer til en rangering af modeller
Model	BT tilfredshedsscore Tip	Gns. forbrug (1.000 tokens) Tip	Størrelse (parametre) Tip	Arkitektur Tip	Organisation	Licens
lfm2-8b-a1b	996	81 mWh	XS - 8 mia.	MoE	Liquid	Open-weight
gpt-oss-20b	1014	83 mWh	S - 21 mia.	MoE	OpenAI	Open-weight
qwen3-30b-a3b	988	83 mWh	S - 30 mia.	MoE	Alibaba	Open-weight
phi-3.5-mini-instruct	860	83 mWh	XS - 3.8 mia.	Dense	Microsoft	Open-weight
gemma-3-4b	1035	84 mWh	XS - 4 mia.	Dense	Google	Open-weight
gemma-3n-e4b-it	1033	84 mWh	XS - 8 mia.	Matformer	Google	Open-weight
qwen2.5-7b-instruct	925	88 mWh	XS - 7 mia.	Dense	Alibaba	Open-weight
chocolatine-2-14b-instruct-v2.0.3-q8	816	88 mWh	XS - 14 mia.	Dense	jpacifico	Open-weight
qwen2-7b-instruct	727	88 mWh	XS - 7 mia.	Dense	Alibaba	Open-weight
qwen-3-8b	988	89 mWh	XS - 8 mia.	Dense	Alibaba	Open-weight
aya-expanse-8b	973	89 mWh	XS - 8 mia.	Dense	Cohere	Open-weight
llama-3.1-8b	932	89 mWh	XS - 8 mia.	Dense	Meta	Open-weight
gemma-2-9b-it	952	90 mWh	XS - 9 mia.	Dense	Google	Open-weight
Yi-1.5-9B-Chat	764	90 mWh	XS - 9 mia.	Dense	01-ai	Open-weight
gemma-3-12b	1063	94 mWh	XS - 12 mia.	Dense	Google	Open-weight
mistral-nemo-2407	850	94 mWh	XS - 12 mia.	Dense	Mistral AI	Open-weight
phi-4	966	96 mWh	XS - 14 mia.	Dense	Microsoft	Open-weight
chocolatine-14b-instruct-dpo-v1.2-q4	749	96 mWh	XS - 14 mia.	Dense	jpacifico	Open-weight
mistral-small-2506	1059	109 mWh	S - 24 mia.	Dense	Mistral AI	Open-weight
magistral-small-2506	1049	109 mWh	S - 24 mia.	Dense	Mistral AI	Open-weight
mistral-small-3.1-24b	1004	109 mWh	S - 24 mia.	Dense	Mistral AI	Open-weight
mistral-small-24b-instruct-2501	984	109 mWh	S - 24 mia.	Dense	Mistral AI	Open-weight
gemma-3-27b	1082	112 mWh	S - 27 mia.	Dense	Google	Open-weight
qwen3-32b	1020	118 mWh	S - 32 mia.	Dense	Alibaba	Open-weight
aya-expanse-32b	990	118 mWh	S - 32 mia.	Dense	Cohere	Open-weight
qwq-32b	947	118 mWh	S - 32 mia.	Dense	Alibaba	Open-weight
olmo-3-32b-think	868	118 mWh	S - 32 mia.	Dense	Ai2	Open source
mixtral-8x7b-instruct-v0.1	883	193 mWh	S - 56 mia.	MoE	Mistral AI	Open-weight
gpt-oss-120b	1065	342 mWh	L - 117 mia.	MoE	OpenAI	Open-weight
llama-4-scout	1010	400 mWh	L - 109 mia.	MoE	Meta	Open-weight
llama-3.1-nemotron-70b-instruct	1043	658 mWh	M - 70 mia.	Dense	Nvidia	Open-weight
llama-3.3-70b	986	658 mWh	M - 70 mia.	Dense	Meta	Open-weight
Apertus-70B-Instruct-2509	978	658 mWh	M - 70 mia.	Dense	Swiss AI	Open source
llama-3.1-70b	971	658 mWh	M - 70 mia.	Dense	Meta	Open-weight
deepseek-r1-distill-llama-70b	944	658 mWh	M - 70 mia.	Dense	DeepSeek	Open-weight
hermes-4-70b	934	658 mWh	M - 70 mia.	Dense	Nous	Open-weight
minimax-m2	976	733 mWh	L - 230 mia.	MoE	MiniMax	Open-weight
command-a	1055	857 mWh	L - 111 mia.	Dense	Cohere	Open-weight
mixtral-8x22b-instruct-v0.1	840	1063 mWh	L - 176 mia.	MoE	Mistral AI	Open-weight
llama-maverick	1015	1601 mWh	XL - 400 mia.	MoE	Meta	Open-weight
glm-4.5	1072	1892 mWh	L - 355 mia.	MoE	Zhipu	Open-weight
glm-4.6	1045	1892 mWh	L - 357 mia.	MoE	Zhipu	Open-weight
glm-4.7	1036	1892 mWh	L - 357 mia.	MoE	Zhipu	Open-weight
Qwen3-Coder-480B-A35B-Instruct	1047	1951 mWh	XL - 480 mia.	MoE	Alibaba	Open-weight
kimi-k2-thinking	1068	3785 mWh	XL - 1000 mia.	MoE	Moonshot AI	Open-weight
kimi-k2	1057	3785 mWh	XL - 1000 mia.	MoE	Moonshot AI	Open-weight
deepseek-v3-0324	1091	3979 mWh	XL - 685 mia.	MoE	DeepSeek	Open-weight
deepseek-v3-chat	1078	3979 mWh	XL - 671 mia.	MoE	DeepSeek	Open-weight
deepseek-chat-v3.1	1077	3979 mWh	XL - 685 mia.	MoE	DeepSeek	Open-weight
DeepSeek-V3.2	1074	3979 mWh	XL - 685 mia.	MoE	DeepSeek	Open-weight
deepseek-r1-0528	1055	3979 mWh	XL - 685 mia.	MoE	DeepSeek	Open-weight
deepseek-r1	1025	3979 mWh	XL - 671 mia.	MoE	DeepSeek	Open-weight
mistral-large-2512	1122	4134 mWh	XL - 675 mia.	MoE	Mistral AI	Open-weight
llama-3.1-405b	956	9134 mWh	XL - 405 mia.	Dense	Meta	Open-weight

Hvordan vælger man metoden til rangordning af modeller?

Siden 2024 har tusindvis af brugere brugt compar:IA til at sammenligne forskellige modellers svar, hvilket har genereret hundredtusindvis af stemmer. At tælle antallet af sejre er ikke nok til at etablere en rangordning. Et retfærdigt system skal være statistisk robust, justere sig efter hver sammenligning og reelt afspejle værdien af de opnåede præstationer.

Det er i dette perspektiv, at der er blevet etableret en rangordning baseret på Bradley-Terry-modellen, udarbejdet i samarbejde med teamet fra Pôle d'Expertise de la Régulation numérique (PEReN), ud fra alle de stemmer og reaktioner, der er indsamlet på platformen. For at gå videre, se vores metodologiske notesbog.

To måders at opdele modeller

Rangordning efter sejrsrate

Definition: Empirisk rangordningssystem for modeller baseret på procentdelen af kampe vundet af en model mod alle andre modeller.

Hovedproblemer

Bias fra antal kampe: en model, der har vundet tre sejre ud af tre "kampe", viser en sejrsrate på 100%, men denne score er lidt signifikant, da den er baseret på meget lidt data.
Ingen hensyntagen til sværhedsgraden af kampene: at slå en "begynder"-model eller en "ekspert"-model tæller det samme. Sejrsraterne er ikke retfærdige, da de ikke tager højde for sværhedsgraden af kampene.
Stagnation: på lang sigt ender mange gode modeller omkring 50% sejrsrate, fordi de møder modeller på deres niveau, hvilket gør rangordningen mindre diskriminerende.

Bradley-Terry (BT) rangordning

Definition: Rangordningssystem, hvor gevinst eller tab af point afhænger af resultatet (sejr/nederlag/uafgjort) og det estimerede niveau af modstanderen: hvis en svagere model slår en stærkere model, er dens fremgang i rangordningen større.

Fordele

Probabilistisk model: man kan estimere det sandsynlige resultat af enhver sammenligning, selv mellem modeller, der aldrig er blevet direkte sammenlignet.
Hensyntagen til sværhedsgraden af kampene: de estimerede scores fra Bradley Terry-modellen tager højde for niveauet af de mødte modstandere, hvilket muliggør en retfærdig sammenligning mellem modeller.
Bedre håndtering af usikkerhed: konfidensintervallet integrerer hele netværket af sammenligninger. Dette muliggør et mere præcist estimat af usikkerheden, især for modeller med få direkte sammenligninger, men mange fælles modstandere.

Indvirkningen af valget af metode på rangordningen af modeller

10 første modeller i rangordningen ifølge den "empiriske" sejrsrate

Download data

Ved kun at basere sig på den gennemsnitlige sejrsrate kan man opnå en global rangordning, men denne beregning forudsætter, at hver model har spillet mod alle andre.

Denne metode er ikke ideel, da den kræver data fra alle kombinationer af modeller, og så snart man øger antallet af modeller, bliver det hurtigt dyrt og tungt at vedligeholde.

10 første modeller i rangordningen ifølge den estimerede sejrsrate med Bradley-Terry-modellen