IT-nyheter från

OJCO Secure IT

Därför behöver AI-modellerna bli mindre – större är inte alltid bättre

Användningen av verktyg för generativ artificiell intelligens är på stark uppgång. Företagen planerar att investera 10-15 procent mer i AI-initiativ under de kommande ett och ett halvt åren jämfört med kalenderåret 2022, enligt en IDC-undersökning med mer än 2 000 beslutsfattare inom it och affärsverksamhet.

Och generativ AI har redan en betydande inverkan på företag och organisationer i alla branscher. Tidiga användare hävdar att AI-investeringar under de senaste tre åren har lett till 35 procent ökad innovation och 33 procent ökad hållbarhet, enligt IDC.

Kund- och medarbetarretention har också förbättrats med 32 procent.

– AI kommer att vara lika viktigt som molnet för att ge kunderna en verklig konkurrensfördel under de kommande fem till tio åren, säger Ritu Jyoti, analytiker på IDC.

– Organisationer som kan vara visionära kommer att ha en enorm fördel i konkurrensen.

LLM-modeller med hundratals miljarder eller till och med en biljon parametrar kan låta kraftfulla, men de slukar också beräkningscykler snabbare än chippen de kräver kan tillverkas eller skalas upp. Det kan belasta serverkapaciteten och leda till en orealistiskt lång tid att träna modeller för ett visst affärsändamål.

– Förr eller senare kommer skalningen av GPU-chip inte att hålla jämna steg med ökningen av modellstorleken, säger Avivah Litan, analytiker på Gartner.

– Så att fortsätta att göra modellerna större och större är inte ett hållbart alternativ.”

Dan Diasio, global konsultchef för AI på Ernst & Young, håller med och tillägger att det för närvarande finns en eftersläpning av GPU-beställningar. Bristen på chipp skapar inte bara problem för teknikföretag som skapar LLM:er, utan även för användarföretag som vill finjustera modeller eller bygga sina egna LLM:er.

– Som ett resultat är kostnaderna för att finjustera och bygga en specialiserad LLM för företag ganska höga, vilket driver trenden mot kunskapshöjande paket och att bygga bibliotek med prompter som innehåller specialkunskap, säger Diasio.

Dessutom kommer mindre domänspecifika modeller som tränas på mer data så småningom att utmana dominansen hos dagens ledande LLM, som OpenAI:s GPT 4, Meta AI:s LlamA 2 eller Googles Palm 2.

Mindre modeller skulle också vara lättare att träna för specifika användningsområden.

LLM-modeller i alla storlekar tränas genom en process som kallas prompt engineering – att mata in frågor och korrekta svar i modellerna så att algoritmen kan svara mer exakt. I dag finns det till och med marknadsplatser för listor med prompter.

Men ju mer data som läggs in i LLM, desto större är risken för dåliga och felaktiga resultat. Generativ AI-verktyg är i princip prediktorer för nästa ord, vilket innebär att felaktig information som matas in i dem kan ge felaktiga resultat. (LLM:er har redan gjort uppmärksammade misstag och kan producera ”hallucinatione” där genereringsmotorerna för nästa ord spårar ur och producerar bisarra svar).

För specifika branscher eller specialiserad användning kan massiva LLM:er som OpenAI:s GPT 4 eller Metas Llama vara felaktiga och ospecifika, även om de innehåller miljarder eller triljoner parametrar. En parameter är något som hjälper en LLM att välja mellan olika svar som den kan ge på frågor.

Även om ”mega LLM” använder välkänd teknik – och fortsätter att förbättras – kan de bara utvecklas och underhållas av teknikjättar med tillräckliga resurser, pengar och färdigheter för att göra det, menar Avivah Litan på Gartner.

– Det innebär att LLM:s makt konsolideras hos ett fåtal dominerande aktörer, och den centraliseringen är en enorm risk i sig. Centralisering av enorm teknisk makt till en handfull aktörer är alltid en dålig idé. Det finns ingen effektiv kontroll av dessa företag. Och chippindustrin kan inte hålla jämna steg. GPU-innovationen går långsammare än breddningen och tillväxten av modellstorlekar. Hårdvara förändras alltid långsammare än mjukvara, säger hon

Träning av LLM:er för specifik användning

Medan modeller som GPT 4 är förifyllda och tränade med enorma mängder information från internet och andra källor, gör prompt engineering att generativ AI-användare kan justera svaren genom att använda antingen proprietär eller branschspecifik information. En användarorganisation kan till exempel ansluta Chat GPT till sina back-end-applikationer och databaser med inbyggda API:er. generativ AI-verktyget kan sedan använda den företagsspecifika informationen för mer verksamhetsspecifika användningsområden.

Enligt en ny undersökning från Deloitte bland 115 cfo:er svarade 42 procent att deras företag experimenterar med generativ AI, och 15 procent att de bygger in det i sin strategi. Ungefär två tredjedelar av de tillfrågade finanscheferna säger att mindre än 1 procent av nästa års budget kommer att läggas på generativ AI, och ungefär en tredjedel av finanscheferna räknar med att 1 till 5 procent kommer att gå till den framväxande tekniken.

För 63 procent av cfo:erna är de största hindren för att införa och implementera generativ AI resurser och kompetens. Mot bakgrund av bristen på interna talanger har ett växande antal teknikföretag presenterat generativ AI-verktyg baserade på LLM:er som kan automatisera affärsuppgifter eller hjälpa användare att hantera överflödiga eller repetitiva uppgifter.

I mars tillkännagav Salesforce planer på att lansera en GPT-baserad chattbott för användning med sin CRM-plattform. Samma månad presenterade Microsoft sin GPT-4-baserade Dynamics 365 Copilot, som kan automatisera vissa CRM- och ERP-uppgifter. Andra generativ AI-plattformar kan hjälpa till att skriva kod eller utföra HR-funktioner, som att rangordna arbetssökande från bäst till sämst eller rekommendera anställda för befordran.

De stora LLM-skaparna börjar också skräddarsy sina modeller för specifika branschanvändningar.

Till exempel erbjuder Google nu två domänspecifika modeller: Med-Palm 2, deras medicinskt anpassade version av Palm 2, som kommer att finnas tillgänglig nästa månad i en förhandsversion för fler kunder inom hälsovård och biovetenskap, och Sec-Palm, en version som är finjusterad för säkerhetsanvändning. Den senare innehåller säkerhetsinformation som Googles överblick över hotlandskapet och Mandiants information om sårbarheter, skadlig kod, hotindikatorer och beteendeprofiler för hotaktörer.

Google erbjuder också Vertex AI, en uppsättning finjusteringsmetoder som används för att anpassa sin Palm 2 LLM eller, hävdar man, valfri modell från tredje part eller öppen källkod.

– Våra kunder använder dessa justeringsmetoder för att skräddarsy för sina specifika användningsområden och utnyttja sina egna företagsdata, samtidigt som de ger vägledning om vilken metod som är bäst för deras användningsområden, affärsmål och budget”, säger en talesperson för Google i ett e-postsvar.

Vertex AI erbjuder anpassningsfunktioner som prompt tuning och adapter tuning, vilket kräver ett större träningsdataset, från hundratals till tusentals exempel, och en liten mängd datorkraft för att träna, säger talespersonen.

Det erbjuder också ”förstärkningsinlärning med mänsklig feedback”” som tar mänsklig feedback på utdata för att ställa in modellen med hjälp av Vertex AI-pipelines.

Startups ger sig också in i leken och skapar vertikalt specifika LLM:er eller finjusterar modeller för sina kunder.

Writer är till exempel en startup som erbjuder en komplett generativ AI-plattform för företag. Den kan stödja affärsverksamhet, produkter, försäljning, HR-verksamhet och marknadsföring. Företaget erbjuder en rad olika språkmodeller som är anpassade till specifika branscher. Företagets minsta modell har 128 miljoner parametrar, den största – Palmyra-X – har 40 miljarder.

– Vi finjusterar våra basmodeller för att stödja branschvertikaler, säger May Habib, medgrundare och vd för Writer.

För att skapa Palmyra-Med – en modell inriktad på hälso- och sjukvård – tog Writer till exempel sin basmodell, Palmyra-40B, och finjusterade instruktionerna. Genom denna process tränade företaget LLM på utvalda medicinska dataset från två offentligt tillgängliga källor, Pubmed QA och Med QA.

– Mindre modeller håller på att bli gångbara alternativ som är tillgängliga för många forskare och slutanvändare idag, och att sprida AI-”rikedomen” är en bra idé ur kontroll- och lösningssynpunkt. Det finns många experiment och innovationer som visar att mindre modeller som tränats på mycket mer data, fem till tio gånger mer, eller utvalda data, kan komma nära prestandan hos de enorma LLM:erna, säger Avivah Litan på Gartner.

I februari släppte Facebook-ägaren Meta versioner av sin Llama LLM i storlekar från sju till 65 miljarder parametrar, vilket är betydligt mindre än tidigare modeller. De hävdade också att deras Lla,A-modell med 13 miljarder parametrar överträffade den mycket större GPT-3-modellen i de flesta benchmarks. Meta sa att dess mindre LLM skulle ”demokratisera” tillgången till genAI genom att kräva mindre ”datorkraft och resurser för att testa nya tillvägagångssätt, validera andras arbete och utforska nya användningsområden.”

Det finns andra innovationer som pågår vid Stanford, Nvidia och akademiska institutioner som John Hopkins, som lanserade Baby LM-utmaningen för att skapa betydligt mindre modeller som är nästan lika bra som de största LLM:erna.

– Allt detta måste fortfarande bevisa sig utanför forskningslaboratorierna, men framstegen går framåt, säger Litan.

Det finns även andra tekniker som testas, bland annat en som innebär att mindre undermodeller tränas för specifika jobb som en del av ett större ekosystem av modeller.

– Vi ser en oro från företag att använda en modell som GPT eller Palm eftersom de är mycket stora och måste hostas av modellleverantörerna. På sätt och vis går dina data genom dessa leverantörer, säger Arvind Jain, vd för Glean, som erbjuder en AI-assisterad sökmotor för företag.

Gleans sökmotor är starkt beroende av LLM:er som GPT 4, Palm 2 och Llama 2 för att matcha användarfrågor med det företag från vilket de söker data eller interna dokument.

Bland de problem som kvarstår med molnbaserade LLM:er finns säkerhet, integritet och upphovsrättsintrång. OpenAI och Google erbjuder nu garantier för att de inte kommer att missbruka kunddata för att bättre anpassa sina LLM, säger Jain, som tidigare var ingenjör på Google. Och företagen accepterar dessa försäkringar, enligt Jain.

I samma anda har Open AI precis lanserat sin ChatGPT Enterprise-applikation, som erbjuder organisationer ökad säkerhet och integritet genom kryptering och single sign-on-teknik.

Matt Jackson, global cto på systemintegratören Insight Enterprises, säger att det finns klara fördelar för vissa användare med en mer ”fokuserad” LLM. Till exempel experimenterar hälso- och finansbranschen med mindre modeller som tränas på specifika datauppsättningar.

Amazon kommer också släppa en egen LLM-marknadsplats med mindre modeller som organisationer kan träna med hjälp av sina egna företagsdata.

– För de flesta är det förmodligen inte rätt metod att träna sin egen modell. De flesta företag vi arbetar med är helt lämpade att använda Chat GPT, Langchain eller Microsofts kognitiva sökmotor. LLM är en svart låda som är förtränad. Du kan låta den få tillgång till dina egna data, säger Matt Jackson.

Att bygga en egen LLM är svårt och dyrt

För närvarande finns det hundratals öppna LLM-modeller i online-utvecklararkiv som Github. Men modellerna tenderar att vara mycket mindre än de från etablerade teknikleverantörer, och därför mycket mindre kraftfulla eller anpassningsbara.

Dessutom kan det vara svårt att bygga egna LLM:er. Arvind Jain säger att han inte har stött på en enda kund som har lyckats göra det, även om de fortsätter att experimentera med tekniken.

– Verkligheten just nu är att de öppna modellerna inte är särskilt kraftfulla. Våra egna experiment har visat att den kvalitet du får från GPT 4 eller PaLM 2 vida överstiger den från öppna modeller, säger Jain.

– Så för generella tillämpningar är det inte rätt strategi just nu att bygga och träna egna modeller.

 

Akriv - Nyheter