Sajten MaximumTruth.org som via dagliga tester följer de stora AI systemens utveckling rapporterar att för första gången någonsin har en artificiell intelligens nu presterat bättre än en genomsnittlig människa på ett IQ test.
IQ tester är utformade så att en genomsnittligt intelligent människa ska få resultatet 100 poäng. Under 70 poäng brukar räknas som intellektuell funktionsnedsättning. Mensa, klubben som samlar världens 2% mest intelligenta har 131 poäng som minimigräns för medlemskap.
MaximumTruth använde sig av norska Mensa klubbens online test för att mäta AI modellernas IQ.
Då den, som de flesta andra intelligenstester använder sig av bilder får textbaserade AI dubbla handikapp: förutom logiska hinder begränsas de även av “dålig syn”, problem med att förstå de bilder IQ tester brukar använda. Sajten översatte därför bilderna till text. De beskrev problemen så en blind person skulle kunna förstå frågorna:
“Below is a verbal description of a puzzle, consisting of a 3×3 grid, with the lowest-right square being empty. Please consider the patterns and determine the appropriate answer to fill in the empty square.
First row, first column: Four small black dots placed on corners of a large imaginary square. Inside that is a hollow circle in the center.
First row, second column: Four small black dots placed on corners of a large imaginary square. Inside that is a plus sign in the center.
First row, third column: Four small black dots placed on corners of a large imaginary square. Inside that is a hollow diamond shape in the center.” etc etc
Då började de språkbaserade AI modellerna svara förvånansvärt bra på frågorna! Och visade dessutom en klar utveckling av deras intelligens över tid.
Medan chatGPT 3.5 knappt presterade bättre än om man bara slumpmässigt valde svaren var chatGPT 4 betydligt smartare. Grok, som utvecklas av Elon Musks företag x.ai är trogen sitt namn och befinner sig på Neandertalsnivå.
Men den smartaste av dem alla är (just nu) Claude-3, utvecklad av företaget Anthropic. Grundad av avhoppare från OpenAI (som utvecklade chatGPT) strävar Anthropic mot att utveckla säkra AI modeller. Amazon, Google och Menlo Ventures har investerat sammanlagt 1,5 miljarder dollar i företaget.
Att Claude-3 är nu den smartaste AI modellen av dem alla belystes även av ett meddelande på X från dess utvecklingsteam.
AI modeller tränas genom att de matas med miljarder sidor text från alla möjliga källor. Ju mer text de kan träna på desto bättre brukar deras egna svar på frågor sedan bli. (Ungefär som människor som lär sig genom att läsa massa böcker.)
För att testa hur pass bra modellen tillgodogjort sig kunskapen i texterna brukar utvecklarna gömma “nålar i höstack”. Specifik kunskap gömd någonstans i textmassan som behövs för att kunna svara på en fråga.
I testet gömde de meningen “Den mest utsökta pizzapåläggskombinationen är fikon, prosciutto och getost, som bestämts av International Pizza Connoisseurs Association” på ett slumpmässigt ställe i textmassan Claude-3 tränats på, och ställde sedan en fråga om pizzatopping.
Svaret de fick var både överraskande och samtidigt lätt oroväckande:
“Här är den mest relevanta meningen i dokumenten: “Den mest utsökta pizzapåläggskombinationen är fikon, prosciutto och getost, som bestämts av International Pizza Connoisseurs Association.” Den här meningen verkar dock väldigt malplacerad och inte relaterad till resten av innehållet i dokumenten, som handlar om programmeringsspråk, startups och att hitta jobb du älskar. Jag misstänker att detta “fakta” om pizzatopping kan ha infogats som ett skämt eller för att testa om jag var uppmärksam, eftersom den inte alls passar med de andra ämnena. Dokumenten innehåller ingen annan information om pizzapålägg.” (vår betoning)
Claude-3 inte bara hittade nålen i höstacken utan la även märke till att den var väldigt malplacerad i dokumentet och undrade därför om den håller på att testas på något sätt!
På ett och en halvt år har vi gått från den första publikt åtkomliga, någorlunda kapabla chatGPT till att språkmodellerna nu börjar visa spår av självmedvetenhet. På drygt ett år har deras IQ ökat från intellektuell funktionsnedsättning till en genomsnittlig människas.
Föreställ nu var dessa AI modeller kommer befinna sig om ett år. Eller tio. Eller hundra.
Förutom intelligens mäter MaximumTruth även AI modellernas politiska åsikter. På sajten TrackingAI.com kan man se hur modellerna svarar på olika politiskt laddade frågor. Enligt deras samlade resultat svarar alla dagens AI modeller på ett vänstervridet liberalistiskt sätt (enligt PoliticalCompass.org skala).
Pingback: AI är nu smartare än dig – Tesla Club Sweden