879 stemmer
Mål: 10.000 Legend Diskuter, stem og hjælp os med at nå dette mål!
Dine stemmer betyder noget: de leverer data til compar:IA-datasættet, som er frit tilgængeligt, for at hjælpe med at forbedre fremtidige modeller på lavresourcesprog.
Denne digitale fælles ressource bidrager til bedre respekt for sproglig og kulturel mangfoldighed i fremtidige sprogmodeller.

Alt, hvad du behøver at vide om AI Arenaen

Arenaen gør det muligt at oprette præference-datasæt med fokus på reel brug i europæiske sprog.

Gå til sammenligningsværktøjet
Capture d'écran de l'arène compar:ia, avec la question initiale, les deux réponses des modèles et les boutons de vote.

Platformen adresserer flere udfordringer

Kulturel og sproglig bias

Sætter fokus på AI bias, der skyldes underrepræsentation af ikke-engelske data i modellerne, og øger bevidstheden om, hvad det betyder i praksis.

Miljøpåvirkning

Viser den miljømæssige påvirkning af generativ AI, som stadig er stort set ukendt for offentligheden.

Model-diversitet

Sikrer, at borgerne har adgang til en bred vifte af AI-modeller, så de kan træffe informerede valg og udvikle en kritisk forståelse af disse teknologier.

Kritisk tænkning og samfundsmæssige spørgsmål

Fremmer kritisk tænkning om generativ AI's rolle i privat og arbejdsmæssig sammenhæng.

Arenaen bliver europæisk!

Fra efteråret 2025 tilslutter Litauen, Sverige og Danmark sig initiativet! Arenaen er nu tilgængelig for deres borgere på nationale sprog med en central mission: at opbygge præferencedatasæt for at forbedre fremtidige AI-modellers ydeevne på sprog med begrænsede ressourcer.

Vil du gerne have AI Arenaen på dit sprog?

Kontakt os

Respekterer samtalebaserede AI-modeller mangfoldigheden i de europæiske sprog?

Bias-forstærkende svar

Samtalebaserede AI-systemer ser ud til at være flydende i alle sprog – men deres output kan stadig være stereotypisk eller diskriminerende.

Træningsdata overvejende på engelsk

Samtalebaseret AI er afhængig af store sprogmodeller (LLM'er), der primært er trænet på engelske data, hvilket skaber sproglige og kulturelle skævheder i deres output.

Overset kulturel og sproglig mangfoldighed

Disse bias kan føre til ufuldstændige eller direkte forkerte svar, der negligerer mangfoldigheden i de europæiske sprog og kulturer.

Hvordan kan vi mindske kulturel og sproglig bias i disse modeller?

Justering: En teknik til reduktion af bias baseret på crowdsourcing af brugerpræferencer for at forbedre modeladfærd

Justering: en kritisk fase efter træningen

Justering kommer efter en sprogmodels prætræningsfase og fungerer som det sidste trin til "forfining" eller "polering". Under prætræningen lærer modellen at forudsige det næste ord og får dermed evnen til at generere sammenhængende tekst – men justeringen er det, der tilpasser den til menneskelige præferencer.

Justeringsfasen træner modellen til bedre at imødekomme menneskelige behov ved at gøre den mere relevant (besvare spørgsmål mere præcist), mere ærlig (indrømme, når der mangler tilstrækkelige data), og mere sikker (undgå skadeligt eller upassende indhold).

Uden justering kan en LLM være teknisk kapabel, men upraktisk at bruge, da den ikke forstår, hvad brugerne virkelig forventer i en samtale.

Specifikke datasæt

Justeringen er afhængig af højt specialiserede datasæt, der er omhyggeligt designet til at lære modellen "korrekt" adfærd.

Præferencedata er en vigtig komponent i justeringen og fungerer sammen med ekspertdata (ekspertudarbejdede samtaler mellem mennesker og AI med præcise retningslinjer for tone og stil), sikkerhedsdata (udvalgte eksempler, der lærer modeller at afvise skadelige anmodninger), og domænespecifikke datasæt (tilpasset til områder som medicin, jura eller uddannelse).

Præferencedata præsenterer flere mulige svar på det samme spørgsmål, rangordnet af menneskelige evaluatorer på baggrund af kriterier som relevans, nytteværdi eller skadepotentiale. Brugerne angiver, hvilket svar der fungerer bedst, og disse kuraterede datasæt bruges derefter til at finjustere modellerne, så de stemmer overens med de udtrykte menneskelige præferencer.

De europæiske sprog lider under en mangel på præferencedata

Præferencedata er dyre at producere, fordi hvert eksempel kræver en dygtig menneskelig evaluering. Platforme som chat.lmsys.org hjælper med at crowdsource disse datasæt, men få brugere bidrager på deres modersmål, hvilket betyder, at sprog med få ressourcer er underrepræsenterede.

Der findes kun få eller ingen præferencedatasæt for europæiske sprog. I LMSYS' datasæt udgør franske søgninger for eksempel mindre end 1% af det samlede antal.

compar:IA er en chatbot-arena, der er designet til at samle multilingvale samtaler, som indfanger regionsspecifikke kulturelle referencer som daglige gøremål, lokale kulinariske traditioner, uddannelsessystemer eller historiske og litterære milepæle.

Diversificer datakilder for at reducere bias

For at afspejle mangfoldigheden af kulturer og sprog i modelresultaterne skal justeringsdatasæt indeholde en bred vifte af sprog, kontekster og virkelige brugeropgaver. Diversificering af justeringsdata forbedrer i sidste ende en models ydeevne på to vigtige måder:

For det første reducerer den kulturel bias ved at forhindre, at et enkelt – ofte engelsksproget – perspektiv dominerer AI'ens svar. Modellen lærer, at gyldige svar varierer alt efter den kulturelle kontekst, og anerkender flere legitime måder at besvare det samme spørgsmål på.

For det andet muliggør eksponering for sproglig og kulturel mangfoldighed kontekstbevidste svar: en fransk bruger får rådgivning, der er tilpasset de franske systemer, mens en dansk bruger modtager information, der er tilpasset den nationale kontekst.

Resultatet? En mere inkluderende samtalebaseret AI – en AI, der anerkender og tilpasser sig forskellige kulturelle perspektiver.

Partnerne

Frankrig

Etalab PEReN, Pôle d'expertise de la régulation numérique
Conseil national du numérique Citizen-oriented Artificial Intelligence training for a Responsible Education Inria
Cafés de l'IA Latitudes Pix Fresques de l'IA

Danmark

Den Franske Republik

Compar:IA-teamet - Frankrig

Lucie Termignon

Grundlægger - produktchef

Januar 2024 - December 2025

Simonas Zilinskas

Produktchef - tidligere deployment-ansvarlig

Siden december 2024

Aurélien Barot

Produktdesigner UX/UI

Siden juni 2024

Nicolas Chesnais

Fullstack udvikler

Siden juni 2025

Hadrien Pelissier

Fullstack-udvikler

Juni 2024 - november 2025

Elie Gavoty

Fullstack-udvikler

Siden november 2025

Mathilde Bras

Ansvarlig for Digital Atelier / Product Ops

Siden september 2024

compar:IA en quelques dates

Internationalisation

Novembre 2025

Objectif des 200 000 votes atteint !

Avec plus de 500 000 conversations uniques depuis le lancement de compar:IA.

compar:IA reconnu comme Bien Commun numérique

Le service est reconnu comme un bien public numérique par l’Alliance Digital Public Goods.

Ouverture de compar:IA en danois

Le Danemark rejoint l’aventure en proposant le comparateur dans sa langue national avec un nom de domaine dédié.

Publication du classement compar:IA

Construit en partenariat avec le Pôle d'Expertise de la Régulation Numérique (PEReN), le classement compar:IA repose sur l’ensemble des votes et réactions collectés depuis l’ouverture du service au public en octobre 2024.

Septembre 2025

Lancement des « Duels de l’IA »

Création de ce nouveau format d’atelier ouvert à tout public, pour découvrir les coulisses des IA génératives et réfléchir à leur impact environnemental, et publication du kit de facilitation associé à l’extension « Duels de l’IA ».

Été 2025

Extension à l’échelle européenne

Partenariat avec le Danemark, la Suède et la Lituanie pour ouvrir le service dans leur langue.

Hastighed

Juni 2025

Offentliggørelse af de tre compar:IA-datasæt

Tilgængeliggørelse af disse tre datasæt, samtaler, reaktioner, stemmer, på HuggingFace og Data.gouv.fr.

maj 2025

Objectif des 100 000 votes atteint !

Og første genanvendelse af datasættet med Bunka.ai, som har gennemført en dybdegående undersøgelse af interaktionerne mellem platformens brugere.

marts 2025

50 000 votes sur le comparateur !

Oprettelse og tilgængeliggørelse af det første compar:IA-datasæt på fransk, der samler spørgsmål og præferencer fra platformens brugere.

Construction

Février 2025

Journée comparIA à la BnF pendant le sommet pour l’action sur l’IA

Plus de 300 personnes dans le cadre de conférences et d’ateliers dédiés aux enjeux éthiques, culturels et environnementaux des systèmes d'IA conversationnelle.

Januar 2025

compar:IA v2

Lancering af den nye funktionalitet til valg af modelvalgstilstand.

Oktober 2024

Officiel lancering under Frankofoniens topmøde i Villers-Cotterêts!

Officiel præsentation og første implementeringer af værktøjet.

juni-sep 2024

Design af minimum viable product

Udvikling af sammenlignerens første funktionaliteter og integration af feedback fra de første betatestere.

Investigation

Janv-Mars 2024

Phase d’investigation

Entretiens avec des acteurs de l’écosystème et premières hypothèses de solution sur la problématique : « Comment faciliter l’accès à des données en français pour l’entrainement des modèles de langue ? ».

De nuværende dialogbaserede sprogmodeller er ude af stand til at citere kilderne, som de har brugt til at generere et svar. De fungerer ved at forudsige det næste mest sandsynlige ord baseret på den statistiske fordeling i træningsdataene. Selvom de kan syntetisere information fra forskellige kilder, bevarer de ikke spor af oprindelsen af disse informationer.

Der findes dog teknikker som Kildebaseret generering (Retrieval-Augmented Generation, RAG), der sigter mod at afhjælpe denne begrænsning. Kildebaseret generering gør det muligt for modeller at få adgang til eksterne vidensbaser og levere kontekstualiseret information med kildehenvisninger. Denne tilgang er afgørende for at forbedre gennemsigtigheden og pålideligheden af de svar, der genereres af modellerne.

Du har stillet spørgsmålet "hvem vandt fodboldkampen i går, og angiv dine kilder", og du blev skuffet over svarene? Det er normalt…

De "rå" dialogbaserede AI-systemer kan ikke besvare spørgsmål om de seneste nyheder. De er trænet på statiske datasæt og kan ikke interagere med nettet eller åbne links. De har ikke evnen til at opdatere sig i realtid med de begivenheder, der finder sted i verden. De oplysninger, som modellen har adgang til, er begrænset til datoen for dens seneste træning.

Hvis du derfor stiller et spørgsmål om en nylig aktuel begivenhed, vil modellen basere sig på potentielt forældede oplysninger med risiko for at generere unøjagtige svar.

I Perplexity, Copilot eller ChatGPT er de såkaldte "rå" dialogbaserede AI-systemer kombineret med andre teknologiske komponenter, der har forbindelse til internettet for at få adgang til realtidsoplysninger. Man taler da om "dialogbaserede agenter".

Hvis du inkluderer en URL i et spørgsmål, kan det dialogbaserede system ikke få adgang til den direkte. Sprogmodellerne behandler teksten i forespørgslen, men har ikke evnen til at interagere med nettet eller åbne links. De er trænet på et fast tekstdatasæt, og deres svar er baseret på disse træningsdata. Når et spørgsmål stilles, bruger modellerne denne træning til at generere et svar, men kan ikke få adgang til nye oplysninger online.

Som en analogi kan du forestille dig en studerende, der tager en eksamen uden adgang til internettet. Vedkommende kan bruge sin erhvervede viden til at besvare spørgsmålene, men kan ikke tjekke hjemmesider for at få yderligere information.

Det sker, at modellerne mister tråden i en samtale på grund af deres begrænsede kontekstvindue. Dette "vindue" repræsenterer mængden af forudgående information, som modellen kan fastholde, og fungerer som en korttidshukommelse. Jo mindre vinduet er, desto mere tilbøjelig er modellen til at glemme nøgleelementer i samtalen, hvilket fører til usammenhængende svar. Lange eller komplekse samtaler kan hurtigt fylde kontekstvinduet, hvilket øger risikoen for et usammenhængende svar.

Som en analogi kan du forestille dig en person, der kun husker de seneste fem sætninger i en samtale. Hvis samtalen er kort, kan personen følge med. Men hvis samtalen bliver lang, vil personen glemme afgørende information, hvilket vil gøre vedkommendes svar usammenhængende. På samme måde kan en AI-model med et lille kontekstvindue "miste tråden" i en samtale, når der udveksles for mange oplysninger, glemme pointer og producere svar, der ikke længere giver mening.

Formuleringen af spørgsmål, eller "prompts", påvirker samtalens sammenhæng. For at opnå de bedste resultater fra en sprogmodel er det essentielt at mestre kunsten at prompte, det vil sige formuleringen af forespørgsler eller instruktioner. Klarhed er altafgørende:

  • Brug et simpelt og direkte sprog, og undgå for lange eller komplekse spørgsmål. Opdel forespørgsler i flere simplere spørgsmål for mere præcise svar.
  • Præcisér om nødvendigt specifikke formatkrav: Hvis du har brug for et svar i et bestemt format (liste, tabel, resumé osv.), så angiv det i prompten. Du kan også præcisere de trin, der skal følges, og de ønskede kvalitetskriterier.
  • Specificer modellens rolle: Start for eksempel med "Agér som en ekspert i..." eller "Forestil dig, at du er en lærer..." for at styre tonen og perspektivet i svaret.
  • Kontekstualiser dine spørgsmål: hvis nødvendigt, giv relevante eksempler for at guide modellen.
  • Tilskynd til ræsonnement: brug opfordring til trin-for-trin ræsonnement (Chain-of-Thought Prompting) for at bede modellen om at forklare sin tankegang, hvilket gør svarene mere robuste.

Samtalemodeller er følsomme over for variationer i formuleringen: et simpelt sprog, korte spørgsmål og en omformulering hvis nødvendigt kan hjælpe med at guide modellen mod relevante svar. Test og finpuds dine prompts for at finde den mest effektive formulering!

Chatbots svarer direkte ved at formulere sætninger ud fra et stort datasæt, som modellen er blevet trænet på, mens en søgemaskine foreslår links og ressourcer, som brugeren selv kan udforske.

Vi vælger modellerne baseret på deres popularitet, diversitet og relevans for brugerne. Vi bestræber os særligt på at gøre såkaldte open weights (semi-åbne) samt open source (åbne) modeller af forskellig størrelse tilgængelige.

Inferens, det vil sige muligheden for at forespørge modellerne, understøttes af projektet. For de fleste modeller går vi gennem Open Router og Hugging Face's API'er, og vi betaler for brugen efter tokens.

Kvantiserede modeller er optimeret til at forbruge færre ressourcer ved at forenkle visse beregninger, samtidig med at de sigter mod den bedste svarkvalitet.

Kvantisering er en optimeringsteknik, der består i at reducere præcisionen af de tal, der bruges til at repræsentere parametrene i en AI-model. Dette gør det muligt at reducere modellens størrelse og fremskynde beregningerne, hvilket er særligt fordelagtigt ved inferens på maskiner med begrænsede ressourcer. Kvantisering af en model kan således også reducere miljøpåvirkningen.

En models evne til at tale flere sprog er knyttet til den sproglige diversitet i dens træningsdata og ikke til landet den var udviklet i. LLM'er bruger enorme korpusser på mange sprog, men fordelingen af sprog i træningsdataene er ikke ensartet. En overrepræsentation af engelsk kan føre til begrænsninger i andre sprog. Disse begrænsninger viser sig for eksempel ved anglicismer eller en manglende evne til at generere indhold på visse sprog, der er klassificeret som "truede" af UNESCO.

En models nøjagtighed og ordforrådsrigdom er afhængig af de data, der bruges til dens træning.

Der er få aktører, der er "transparente" omkring de datakilder, der bruges i træningskorpusserne. Disse oplysninger er ofte fortrolige af juridiske og kommercielle årsager.

Præferencedata bruges til at forbedre modeller under fremtidig træning.

Ved blindt at sammenligne svarene fra to modeller udtrykker brugere deres præferencer og angiver, hvilke svar der er mest relevante. Disse præferencedata kan bruges til at forbedre modeljustering, det vil sige at træne dem til at generere svar, der er mere i overensstemmelse med brugernes forventninger og præferencer.

Dette er en iterativ proces, hvor modellen gradvist lærer at generere bedre svar baseret på feedback fra mennesker om svarenes kvalitet. Ved at blive eksponeret for præferencedata justerer modellerne deres svarstil.

Det særlige ved de data, der indsamles på platformen, er, at de er på dansk, og at de svarer til brugernes faktiske opgaver. Disse data afspejler menneskelige præferencer i en sproglig og kulturel kontekst. De gør det muligt at justere modellerne, så de bliver mere relevante og tilpasset danske brugeres behov, samtidig med at de udjævner eventuelle skævheder eller mangler i de nuværende modeller.

AI Arenaen positionerer sig som et evaluerings- og tilpasningsværktøj, der er specifikt til dansk, med fokus på svarenes kvalitet og indsamling af præferencedata, og adskiller sig dermed fra den globale rangeringstilgang hos chatbot arena udviklet af lmsys.org og den etiske justering af AI-modeller hos Prism Alignment Project.

AI Arenaen bruger den metode, der er udviklet af Ecologits (GenAI Impact) til at levere et energiregnskab, der gør det muligt for brugerne at sammenligne den miljømæssige påvirkning fra forskellige AI-modeller for den samme forespørgsel. Denne gennemsigtighed er afgørende for at fremme udviklingen og implementeringen af mere miljøansvarlige AI-modeller.

Ecologits anvender principperne for livscyklusvurdering (LCA) i overensstemmelse med ISO 14044-standarden ved i øjeblikket at fokusere på påvirkningen fra inferens (det vil sige brugen af modeller til at besvare forespørgsler) og fremstillingen af grafikkort (udvinding af ressourcer, fremstilling og transport).

Modellens elforbrug estimeres under hensyntagen til forskellige parametre såsom størrelsen af den anvendte AI-model, placeringen af de servere, hvor modellerne er implementeret, og antallet af output-tokens. Beregningen af indikatoren for globalt opvarmningspotentiale udtrykt i CO2-ækvivalenter er afledt af målingen af modellens elforbrug.

Det er vigtigt at bemærke, at metoderne til vurdering af AI's miljøpåvirkning stadig er under udvikling, samt at der er tale om estimater.

Placeringen af datacentre spiller en rolle for AI's CO2-fodaftryk. Hvis en model trænes eller bruges i et land, der er stærkt afhængigt af fossile brændstoffer, vil dens miljøpåvirkning være større, end hvis den hostes i et land, der primært bruger vedvarende energi.

Metoden til analyse af AI's miljøpåvirkning udviklet af Ecologits (fra GenAI Impact), integrerer data om energimixet i de forskellige lande, hvor serverne befinder sig. Dette gør det muligt at opnå et mere præcist og nuanceret estimat af det faktiske CO2-fodaftryk fra inferens på de forskellige generative AI-modeller.

De nuværende miljøpåvirkningsindikatorer fokuserer primært på påvirkningen fra inferens, det vil sige brugen af AI-modeller til at besvare forespørgsler. Denne tilgang kan give den illusion, at inferens er mindre energikrævende end træning af modeller. Men virkeligheden er mere kompleks. Lad os tage analogien med bilen:

  • At bygge en bil (træningen) er en engangsproces, der kræver mange ressourcer.
  • Hver biltur (inferens) forbruger mindre energi, men disse ture gentages dagligt, og deres antal er potentielt enormt.

På samme måde kan den akkumulerede påvirkning fra inferens, i skalaen af millioner af brugere, der foretager daglige forespørgsler, vise sig at være større end påvirkningen fra den indledende træning. Derfor er det afgørende, at værktøjerne til vurdering af AI's CO2-fodaftryk tager hensyn til hele livscyklussen for modellerne, fra træning til brug i produktion

Ja, internationaliseringen af AI Arenaen er i gang. Projektet havde først success I Frankrig og er nu kommet til Danmark, samt Litauen og Sverige. Denne første fase gør det muligt at teste tilgangen og tilpasse interfacet til forskellige sproglige og kulturelle kontekster i Europa. På sigt kan kredsen udvides til flere europæiske sprog afhængigt af erfaringerne fra disse pilotlande. Målet er gradvist at opbygge en egentligt europæisk digital ressource til menneskelig evaluering af dialogbaserede AI-systemer baseret på en samarbejdsmodel, der skal fastlægges mellem de forskellige deltagende lande.

Udviklingen af en europæisk platform til sammenligning af dialogbaserede AI-systemer giver flere konkrete fordele. Den gør det muligt at indsamle præferencedata, der afspejler de reelle behov hos europæiske brugere, og dermed forbedre modellernes relevans for dette publikum. Den sikrer således en bedre repræsentation af europæiske sprog og kulturer, som ofte er underrepræsenteret i globale evalueringer domineret af engelsk. Den sikrer også overholdelse af europæiske reguleringer (GDPR, AI Act) og integrerer evalueringskriterier, der er i overensstemmelse med europæiske prioriteter som miljømæssig bæredygtighed og algoritmisk gennemsigtighed. Endelig fremmer den fremkomsten af et konkurrencedygtigt og selvstændigt europæisk AI-økosystem.

Institutionelle partnere

Den Franske Republik

Anvendte tjenester

Impact CO2 Gen AI Impact

Beregninger af miljøpåvirkningen er baseret på ovenstående værktøjer.