Fra stemmer til en rangering af modeller
Tak for jeres bidrag! Jeres stemmer fodrer en Bradley-Terry (BT) rangordning, som vi gør transparent for jer.
Denne Bradley-Terry (BT) tilfredshedsscore er konstrueret i partnerskab med Pôle d'Expertise de la Régulation Numérique (PEReN) og er baseret på jeres stemmer og jeres godkendelses- og misbilligelsesreaktioner.
Updateret 11/26/2025
Download dataModel | BT tilfredshedsscore Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen. | Konfidens (±) Tip Interval, der angiver pålideligheden af rangordningen: jo smallere intervallet er, jo mere pålidelig er rangestimat. Der er 95% sandsynlighed for, at modellens sande rang ligger i dette spænd. | Samlet antal stemmer | Gns. forbrug (1.000 tokens) Tip Mesurée en wattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture. | Størrelse (parametre) Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke. | Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer). | Udgivelsesdato | Organisation | Licens | |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 1146 | -1/+1 | 1852 | N/A | L - (estimering) | Proprietær | 8/25 | Mistral AI | ||
| 2 | 1113 | -5/+1 | 2452 | N/A | XL - (estimering) | Proprietær | 6/25 | |||
| 3 | 1111 | -5/+2 | 1230 | N/A | XL - (estimering) | Proprietær | 9/25 | Alibaba | ||
| 4 | 1107 | -3/+2 | 8684 | N/A | XL - (estimering) | Proprietær | 12/24 | |||
| 5 | 1100 | -5/+1 | 4385 | 47 Wh | XL - 685 mia. | MoE | 3/25 | DeepSeek | ||
| 6 | 1095 | -9/+3 | 890 | 3 Wh | L - 117 mia. | MoE | 8/25 | OpenAI | ||
| 7 | 1094 | -4/+3 | 6298 | 6 Wh | S - 27 mia. | Dense | 3/25 | |||
| 8 | 1091 | -6/+4 | 1757 | N/A | L - (estimering) | Proprietær | 6/25 | Mistral AI | ||
| 9 | 1090 | -6/+5 | 1235 | N/A | L - (estimering) | Proprietær | 8/25 | Mistral AI | ||
| 10 | 1086 | -4/+4 | 5388 | 47 Wh | XL - 671 mia. | MoE | 12/24 | DeepSeek | ||
| 11 | 1085 | -7/+8 | 856 | 47 Wh | XL - 685 mia. | MoE | 8/25 | DeepSeek | ||
| 12 | 1078 | -10/+7 | 608 | 47 Wh | XL - 685 mia. | MoE | 5/25 | DeepSeek | ||
| 13 | 1076 | -6/+5 | 2480 | N/A | XL - (estimering) | Proprietær | 9/25 | Anthropic | ||
| 14 | 1073 | -6/+3 | 5902 | 4 Wh | XS - 12 mia. | Dense | 3/25 | |||
| 15 | 1071 | -8/+6 | 1537 | N/A | L - (estimering) | Proprietær | 4/25 | xAI | ||
| 16 | 1070 | -7/+7 | 1126 | 21 Wh | L - 355 mia. | MoE | 7/25 | Zhipu | ||
| 17 | 1070 | -5/+6 | 2540 | N/A | XL - (estimering) | Proprietær | 5/25 | Anthropic | ||
| 18 | 1067 | -5/+6 | 2155 | 6 Wh | S - 24 mia. | Dense | 6/25 | Mistral AI | ||
| 19 | 1066 | -4/+5 | 5862 | 18 Wh | L - 111 mia. | Dense | 3/25 | Cohere | ||
| 20 | 1064 | -5/+8 | 1834 | N/A | XL - (estimering) | Proprietær | 9/25 | xAI | ||
| 21 | 1057 | -5/+4 | 3907 | N/A | XL - (estimering) | Proprietær | 2/25 | Anthropic | ||
| 22 | 1056 | -5/+5 | 2553 | 6 Wh | S - 24 mia. | Dense | 6/25 | Mistral AI | ||
| 23 | 1052 | -4/+3 | 6709 | 12 Wh | M - 70 mia. | Dense | 10/24 | Nvidia | ||
| 24 | 1048 | -5/+2 | 6937 | 3 Wh | XS - 4 mia. | Dense | 3/25 | |||
| 25 | 1043 | -7/+6 | 1016 | 7 Wh | S - 32 mia. | Dense | 4/25 | Alibaba | ||
| 26 | 1040 | -8/+7 | 973 | 21 Wh | L - 357 mia. | MoE | 9/25 | Zhipu | ||
| 27 | 1039 | -4/+4 | 7173 | N/A | M - (estimering) | Proprietær | 4/25 | OpenAI | ||
| 28 | 1037 | -4/+5 | 7387 | N/A | XL - (estimering) | Proprietær | 9/24 | |||
| 29 | 1036 | -5/+7 | 1231 | 3 Wh | S - 21 mia. | MoE | 8/25 | OpenAI | ||
| 30 | 1034 | -4/+6 | 2279 | 3 Wh | XS - 8 mia. | Matformer | 5/25 | |||
| 31 | 1034 | -2/+7 | 3510 | 47 Wh | XL - 671 mia. | MoE | 1/25 | DeepSeek | ||
| 32 | 1022 | -3/+4 | 4934 | N/A | S - (estimering) | Proprietær | 2/25 | Mistral AI | ||
| 33 | 1018 | -5/+4 | 4450 | 5 Wh | L - 109 mia. | MoE | 4/25 | Meta | ||
| 34 | 1016 | -5/+4 | 3078 | N/A | L - (estimering) | Proprietær | 8/25 | OpenAI | ||
| 35 | 1015 | -5/+6 | 1588 | N/A | S - (estimering) | Proprietær | 8/25 | OpenAI | ||
| 36 | 1013 | -4/+4 | 5079 | 6 Wh | S - 24 mia. | Dense | 3/25 | Mistral AI | ||
| 37 | 1012 | -4/+6 | 2746 | N/A | S - (estimering) | Proprietær | 4/25 | OpenAI | ||
| 38 | 1011 | -4/+7 | 1640 | 15 Wh | XL - 400 mia. | MoE | 4/25 | Meta | ||
| 39 | 1007 | -10/+10 | 762 | 6 Wh | S - 27 mia. | Dense | 6/24 | |||
| 40 | 1000 | -8/+5 | 1558 | 3 Wh | S - 30 mia. | MoE | 5/25 | Alibaba | ||
| 41 | 998 | -4/+3 | 5113 | 7 Wh | S - 32 mia. | Dense | 12/24 | Cohere | ||
| 42 | 995 | -10/+6 | 1089 | 4 Wh | XS - 8 mia. | Dense | 7/25 | Alibaba | ||
| 43 | 992 | -6/+4 | 3318 | 6 Wh | S - 24 mia. | Dense | 1/25 | Mistral AI | ||
| 44 | 990 | -6/+3 | 7945 | 12 Wh | M - 70 mia. | Dense | 12/24 | Meta | ||
| 45 | 989 | -8/+7 | 1619 | N/A | S - (estimering) | Proprietær | 11/24 | OpenAI | ||
| 46 | 988 | -4/+5 | 6990 | N/A | S - (estimering) | Proprietær | 7/24 | OpenAI | ||
| 47 | 985 | -5/+4 | 5717 | N/A | S - (estimering) | Proprietær | 4/25 | OpenAI | ||
| 48 | 981 | -10/+8 | 1032 | 12 Wh | M - 70 mia. | Dense | 9/25 | Swiss AI | ||
| 49 | 980 | -9/+7 | 1302 | 4 Wh | XS - 8 mia. | Dense | 10/24 | Cohere | ||
| 50 | 979 | -4/+5 | 5583 | 12 Wh | M - 70 mia. | Dense | 7/24 | Meta | ||
| 51 | 977 | -3/+5 | 5683 | N/A | XL - (estimering) | Proprietær | 10/24 | Anthropic | ||
| 52 | 973 | -4/+3 | 9395 | 5 Wh | XS - 14 mia. | Dense | 12/24 | Microsoft | ||
| 53 | 968 | -4/+4 | 5896 | N/A | XL - (estimering) | Proprietær | 8/24 | OpenAI | ||
| 54 | 963 | -2/+5 | 9973 | 238 Wh | XL - 405 mia. | Dense | 7/24 | Meta | ||
| 55 | 959 | -3/+4 | 5115 | 4 Wh | XS - 9 mia. | Dense | 6/24 | |||
| 56 | 958 | -3/+9 | 1305 | N/A | XS - (estimering) | Proprietær | 4/25 | OpenAI | ||
| 57 | 957 | -2/+7 | 1566 | 7 Wh | S - 32 mia. | Dense | 4/25 | Alibaba | ||
| 58 | 954 | -1/+6 | 2981 | 12 Wh | M - 70 mia. | Dense | 1/25 | DeepSeek | ||
| 59 | 935 | -3/+3 | 9790 | 4 Wh | XS - 8 mia. | Dense | 7/24 | Meta | ||
| 60 | 933 | -3/+5 | 1351 | 12 Wh | M - 70 mia. | Dense | 8/25 | Nous | ||
| 61 | 932 | -1/+7 | 1417 | 4 Wh | XS - 7 mia. | Dense | 9/24 | Alibaba | ||
| 62 | 890 | -2/+1 | 2560 | 5 Wh | S - 56 mia. | MoE | 12/23 | Mistral AI | ||
| 63 | 887 | -1/+2 | 3578 | N/A | S - (estimering) | Proprietær | 9/24 | Liquid | ||
| 64 | 867 | -2/+1 | 2535 | 3 Wh | XS - 3.8 mia. | Dense | 8/24 | Microsoft | ||
| 65 | 857 | -1/+1 | 6251 | 4 Wh | XS - 12 mia. | Dense | 7/24 | Mistral AI | ||
| 66 | 847 | -1/+1 | 5455 | 18 Wh | L - 176 mia. | MoE | 4/24 | Mistral AI | ||
| 67 | 824 | -2/+0 | 1796 | 4 Wh | XS - 14 mia. | Dense | 2/25 | jpacifico | ||
| 68 | 771 | -3/+3 | 65 | 4 Wh | XS - 9 mia. | Dense | 5/24 | 01-ai | ||
| 69 | 755 | -2/+1 | 309 | 5 Wh | XS - 14 mia. | Dense | 9/24 | jpacifico | ||
| 70 | 733 | -0/+3 | 80 | 4 Wh | XS - 7 mia. | Dense | 7/24 | Alibaba |
Er de mest populære modeller energieffektive?
Denne graf viser for hver model sammenhængen mellem tilfredshedsscore (Bradley Terry-score) og det estimerede gennemsnitlige energiforbrug pr. 1000 tokens. Energiforbruget estimeres ved hjælp af Ecologits-metodologien, som tager højde for to faktorer: modellernes størrelse (antal parametre) og deres arkitektur. Da proprietære modeller ikke offentliggør disse oplysninger - eller kun gør det delvist - er de ikke medtaget i grafen nedenfor.
Bradley-Terry (BT) tilfredshedsscore VS Gennemsnitsforbrug for 1000 tokens
Vælg en model for at kende dens Bradley-Terry (BT) score og energiforbrug
Model arkitektur
- MoE Tip Mixture of Experts (MoE) arkitekturen bruger en routingmekanisme til kun at aktivere visse specialiserede delmængder ("eksperter") af det neurale netværk, afhængigt af input. Dette gør det muligt at konstruere meget store modeller, samtidig med at beregningsomkostningerne holdes lave, da kun en del af netværket bruges ved hvert trin.
- Dense Tip Den dense arkitektur betegner en type neuralt netværk, hvor hver neuron i et lag er forbundet til alle neuroner i det næste lag. Dette gør det muligt for alle parametrene i laget at bidrage til beregningen af outputtet.
- Matformer Tip Forestil dig russiske matryoshka dukker (matryoshkas → matryoshka transformer → Matformer): hver blok indeholder flere indlejrede undermodeller af stigende størrelser, som deler de samme parametre. Dette gør det muligt ved hver forespørgsel at vælge en model med passende kapacitet, afhængigt af den tilgængelige hukommelse eller latens, uden behov for at genoptræne forskellige modeller.
Model arkitektur
- MoE Tip Mixture of Experts (MoE) arkitekturen bruger en routingmekanisme til kun at aktivere visse specialiserede delmængder ("eksperter") af det neurale netværk, afhængigt af input. Dette gør det muligt at konstruere meget store modeller, samtidig med at beregningsomkostningerne holdes lave, da kun en del af netværket bruges ved hvert trin.
- Dense Tip Den dense arkitektur betegner en type neuralt netværk, hvor hver neuron i et lag er forbundet til alle neuroner i det næste lag. Dette gør det muligt for alle parametrene i laget at bidrage til beregningen af outputtet.
- Matformer Tip Forestil dig russiske matryoshka dukker (matryoshkas → matryoshka transformer → Matformer): hver blok indeholder flere indlejrede undermodeller af stigende størrelser, som deler de samme parametre. Dette gør det muligt ved hver forespørgsel at vælge en model med passende kapacitet, afhængigt af den tilgængelige hukommelse eller latens, uden behov for at genoptræne forskellige modeller.
Hvordan finder man den rette balance mellem opfattet performance og energieffektivitet? Eksempler på læsning af grafen
- Jo højere oppe i grafen en model er placeret, desto højere er dens Bradley-Terry-tilfredshedsscore. Jo længere til venstre i grafen en model er placeret, desto mindre energi forbruger den i forhold til de andre modeller.
- Øverst til venstre finder man de modeller, som er populære og forbruger relativt lidt energi sammenlignet med de andre modeller.
- Ud over størrelsen har arkitekturen også indflydelse på modellernes gennemsnitlige energiforbrug: for eksempel forbruger Llama 3 405B-modellen (tæt arkitektur, 405 milliarder parametre) i gennemsnit 10 gange mere energi end GLM 4.5-modellen (MOE-arkitektur, 355 milliarder parametre og 32 milliarder aktive parametre), selv om de har en lignende størrelse.
Hvorfor vises de proprietære modeller ikke i grafen?
Estimeringen af energiforbruget ved inferens af modellerne bygger på Ecologits metode, som tager højde for modellernes størrelse og arkitektur. Disse oplysninger offentliggøres imidlertid ikke af modeludviklerne for såkaldte "proprietære" modeller.
Vi har derfor valgt ikke at medtage de proprietære modeller i grafen, så længe oplysningerne om energiforbrugsberegningen ikke er gennemsigtige.
Hvordan beregnes modellernes energipåvirkning?
compar:IA bruger metodologien udviklet af Ecologits (GenAI Impact) til at give et estimat af energiforbruget forbundet med inferens af konversationelle generative AI-modeller. Dette estimat gør det muligt for brugerne at sammenligne forskellige AI-modellers miljøpåvirkning for den samme forespørgsel. Denne gennemsigtighed er afgørende for at fremme udviklingen og anvendelsen af mere miljøansvarlige AI-modeller.
Ecologits anvender principperne for livscyklusanalyse (LCA) i overensstemmelse med ISO 14044-standarden ved i første omgang at fokusere på påvirkningen fra inferens (dvs. brugen af modeller til at besvare forespørgsler) og fremstillingen af grafikkort (udvinding af ressourcer, produktion og transport).
Modellens elektricitetsforbrug estimeres under hensyntagen til forskellige parametre såsom størrelsen og arkitekturen af den anvendte AI-model, placeringen af de servere, hvor modellerne er implementeret, samt antallet af output-tokens. Beregningen af indikatoren for global opvarmningspotentiale udtrykt i CO2-ækvivalenter udledes af målingen af modellens elektricitetsforbrug.
Det er vigtigt at bemærke, at metoderne til vurdering af AI's miljøpåvirkning stadig er under udvikling.
Grafdata i tabelform
Updateret 11/26/2025
Download dataModel | BT tilfredshedsscore Tip Estimeret statistisk score i henhold til Bradley-Terry-modellen, som afspejler sandsynligheden for, at en model foretrækkes frem for en anden. Denne score beregnes ud fra alle brugernes stemmer og reaktioner. For at lære mere, gå til metodefanen. | Gns. forbrug (1.000 tokens) Tip Mesurée en wattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture. | Størrelse (parametre) Tip Modellens størrelse i milliarder af parametre, kategoriseret i fem klasser. For proprietære modeller oplyses denne størrelse ikke. | Arkitektur Tip Et LLM-models arkitektur refererer til designprincipperne, der definerer, hvordan komponenterne i et neuralt netværk er arrangeret og interagerer for at transformere inputdata til prædiktive outputs, herunder måden hvorpå parametre aktiveres (dense vs. sparse), komponentspecialisering og informationsbehandlingsmekanismer (transformers, konvolutionsnetværk, hybride arkitekturer). | Organisation | Licens |
|---|---|---|---|---|---|---|
| 1095 | 3 Wh | L - 117 mia. | MoE | OpenAI | Open-weight | |
| 1048 | 3 Wh | XS - 4 mia. | Dense | Open-weight | ||
| 1036 | 3 Wh | S - 21 mia. | MoE | OpenAI | Open-weight | |
| 1034 | 3 Wh | XS - 8 mia. | Matformer | Open-weight | ||
| 1000 | 3 Wh | S - 30 mia. | MoE | Alibaba | Open-weight | |
| 867 | 3 Wh | XS - 3.8 mia. | Dense | Microsoft | Open-weight | |
| 1073 | 4 Wh | XS - 12 mia. | Dense | Open-weight | ||
| 995 | 4 Wh | XS - 8 mia. | Dense | Alibaba | Open-weight | |
| 980 | 4 Wh | XS - 8 mia. | Dense | Cohere | Open-weight | |
| 959 | 4 Wh | XS - 9 mia. | Dense | Open-weight | ||
| 935 | 4 Wh | XS - 8 mia. | Dense | Meta | Open-weight | |
| 932 | 4 Wh | XS - 7 mia. | Dense | Alibaba | Open-weight | |
| 857 | 4 Wh | XS - 12 mia. | Dense | Mistral AI | Open-weight | |
| 824 | 4 Wh | XS - 14 mia. | Dense | jpacifico | Open-weight | |
| 771 | 4 Wh | XS - 9 mia. | Dense | 01-ai | Open-weight | |
| 733 | 4 Wh | XS - 7 mia. | Dense | Alibaba | Open-weight | |
| 1018 | 5 Wh | L - 109 mia. | MoE | Meta | Open-weight | |
| 973 | 5 Wh | XS - 14 mia. | Dense | Microsoft | Open-weight | |
| 890 | 5 Wh | S - 56 mia. | MoE | Mistral AI | Open-weight | |
| 755 | 5 Wh | XS - 14 mia. | Dense | jpacifico | Open-weight | |
| 1094 | 6 Wh | S - 27 mia. | Dense | Open-weight | ||
| 1067 | 6 Wh | S - 24 mia. | Dense | Mistral AI | Open-weight | |
| 1056 | 6 Wh | S - 24 mia. | Dense | Mistral AI | Open-weight | |
| 1013 | 6 Wh | S - 24 mia. | Dense | Mistral AI | Open-weight | |
| 1007 | 6 Wh | S - 27 mia. | Dense | Open-weight | ||
| 992 | 6 Wh | S - 24 mia. | Dense | Mistral AI | Open-weight | |
| 1043 | 7 Wh | S - 32 mia. | Dense | Alibaba | Open-weight | |
| 998 | 7 Wh | S - 32 mia. | Dense | Cohere | Open-weight | |
| 957 | 7 Wh | S - 32 mia. | Dense | Alibaba | Open-weight | |
| 1052 | 12 Wh | M - 70 mia. | Dense | Nvidia | Open-weight | |
| 990 | 12 Wh | M - 70 mia. | Dense | Meta | Open-weight | |
| 981 | 12 Wh | M - 70 mia. | Dense | Swiss AI | Open-weight | |
| 979 | 12 Wh | M - 70 mia. | Dense | Meta | Open-weight | |
| 954 | 12 Wh | M - 70 mia. | Dense | DeepSeek | Open-weight | |
| 933 | 12 Wh | M - 70 mia. | Dense | Nous | Open-weight | |
| 1011 | 15 Wh | XL - 400 mia. | MoE | Meta | Open-weight | |
| 1066 | 18 Wh | L - 111 mia. | Dense | Cohere | Open-weight | |
| 847 | 18 Wh | L - 176 mia. | MoE | Mistral AI | Open-weight | |
| 1070 | 21 Wh | L - 355 mia. | MoE | Zhipu | Open-weight | |
| 1040 | 21 Wh | L - 357 mia. | MoE | Zhipu | Open-weight | |
| 1100 | 47 Wh | XL - 685 mia. | MoE | DeepSeek | Open-weight | |
| 1086 | 47 Wh | XL - 671 mia. | MoE | DeepSeek | Open-weight | |
| 1085 | 47 Wh | XL - 685 mia. | MoE | DeepSeek | Open-weight | |
| 1078 | 47 Wh | XL - 685 mia. | MoE | DeepSeek | Open-weight | |
| 1034 | 47 Wh | XL - 671 mia. | MoE | DeepSeek | Open-weight | |
| 963 | 238 Wh | XL - 405 mia. | Dense | Meta | Open-weight |
Hvordan vælger man metoden til rangordning af modeller?
Siden 2024 har tusindvis af brugere brugt compar:IA til at sammenligne forskellige modellers svar, hvilket har genereret hundredtusindvis af stemmer. At tælle antallet af sejre er ikke nok til at etablere en rangordning. Et retfærdigt system skal være statistisk robust, justere sig efter hver sammenligning og reelt afspejle værdien af de opnåede præstationer.
Det er i dette perspektiv, at der er blevet etableret en rangordning baseret på Bradley-Terry-modellen, udarbejdet i samarbejde med teamet fra Pôle d'Expertise de la Régulation numérique (PEReN), ud fra alle de stemmer og reaktioner, der er indsamlet på platformen. For at gå videre, se vores metodologiske notesbog.
To måders at opdele modeller
Rangordning efter sejrsrate
Definition: Empirisk rangordningssystem for modeller baseret på procentdelen af kampe vundet af en model mod alle andre modeller.
Hovedproblemer
- Bias fra antal kampe: en model, der har vundet tre sejre ud af tre "kampe", viser en sejrsrate på 100%, men denne score er lidt signifikant, da den er baseret på meget lidt data.
- Ingen hensyntagen til sværhedsgraden af kampene: at slå en "begynder"-model eller en "ekspert"-model tæller det samme. Sejrsraterne er ikke retfærdige, da de ikke tager højde for sværhedsgraden af kampene.
- Stagnation: på lang sigt ender mange gode modeller omkring 50% sejrsrate, fordi de møder modeller på deres niveau, hvilket gør rangordningen mindre diskriminerende.
Bradley-Terry (BT) rangordning
Definition: Rangordningssystem, hvor gevinst eller tab af point afhænger af resultatet (sejr/nederlag/uafgjort) og det estimerede niveau af modstanderen: hvis en svagere model slår en stærkere model, er dens fremgang i rangordningen større.
Fordele
- Probabilistisk model: man kan estimere det sandsynlige resultat af enhver sammenligning, selv mellem modeller, der aldrig er blevet direkte sammenlignet.
- Hensyntagen til sværhedsgraden af kampene: de estimerede scores fra Bradley Terry-modellen tager højde for niveauet af de mødte modstandere, hvilket muliggør en retfærdig sammenligning mellem modeller.
- Bedre håndtering af usikkerhed: konfidensintervallet integrerer hele netværket af sammenligninger. Dette muliggør et mere præcist estimat af usikkerheden, især for modeller med få direkte sammenligninger, men mange fælles modstandere.
Indvirkningen af valget af metode på rangordningen af modeller
10 første modeller i rangordningen ifølge den "empiriske" sejrsrate
Ved kun at basere sig på den gennemsnitlige sejrsrate kan man opnå en global rangordning, men denne beregning forudsætter, at hver model har spillet mod alle andre.
Denne metode er ikke ideel, da den kræver data fra alle kombinationer af modeller, og så snart man øger antallet af modeller, bliver det hurtigt dyrt og tungt at vedligeholde.
10 første modeller i rangordningen ifølge den estimerede sejrsrate med Bradley-Terry-modellen
Bradley-Terry-modellen omdanner et sæt af lokale og potentielt ufuldstændige sammenligninger til et sammenhængende og statistisk robust globalt rangordningssystem, der hvor den empiriske sejrsrate forbliver begrænset til direkte observationer.
