ChatGPT, muut kielimallit ja tekoäly

Ei tämä nyt ole varsinaisesti minun ajatteluani vaan yleinen konsensus tekoälyn tutkimuksessa. Ja ainakaan erilaisten LLM-leaderboardien perusteella pienet mallit eivät missään nimessä “piekse selvästi” isompia yleismalleja vaan Scaling Lawsin mukainen korrelaatio parametrien ja treenicorpuksen koon välillä näkyy näissä juuri lainalaisuuksien esittämällä tavalla (enemmän parametrejä ja treenidataa → korkeampi sijoitus ELO-ratingeissa): Chatbot Arena Leaderboard - a Hugging Face Space by lmsys

Enkä minä Nanoja tai muitakaan vastaavia malleja tyrmää, mutta ainakin nykytiedon valossa näyttää mielestäni hyvin selvältä, että yleismallinen LLM-inference ei tule tapahtumaan lokaalisti vaan se kannattaa monestakin syystä tehdä jatkossakin keskitetysti. Jotkut hyvin spesifit käyttötapaukset, jossa proprietary finetuningilla päästään hyviin lopputuloksiin, sitten ovat asia erikseen. Tällaisetkin käyttötapaukset kuitenkin todennäköisesti eivät löydy ensimmäisenä mobiililaitteelta.

2 tykkäystä

Vilkaisitko edes omaa linkkiäsi? Vaikka korrelaatio löytyy, niin ei voi suoraviivaisesti sanoa isomman mallin pieksevän pienemmän mallin.

Tottakai teoreettisesti isompi malli on parempi ja tämä on täysin kiistatonta. Mutta ollaan vielä niin alkuvaiheissa kehitystä, että tällä hetkellä pienemmät mallit voivat vielä biitata isompia malleja. En tiedä miten tekoälyn tutkijat yliopiston kulmahuoneessa asiasta järkeilevät, mutta ero mallien välillä on niin suuri että tämän voi havaita ihan empiirisilläkin kokeilla lataamalla ne omalle koneelle ja testaamalla asiaa arkikäytössä.

Mistral 7B on todella kova noin pieneksi malliksi.
Isoista kannattaa laittaa testiin vaikkapa Xwin 70B. Ainakin itsellä on tuosta erinomaisia kokemuksia :slight_smile:

Ymmärrän näkemykset keskittämisen puolesta, mutta itse en todennäköisesti koskaan enää tule käyttämään keskitettyjä palveluita, koska kuluttajarauta on aivan riittävän hyvä ja tilanne paranee nopealla tahdilla. Huomattavasti kätevämpää hostata itse omalla tietokoneella tai hankkia kodin nurkkaan dedikoitu serveri omiin tekoälytarpeisiin, johon laitteet ovat yhteydessä.

3 tykkäystä

Niin no ko. leaderboardin korrelaatio mallin koon ja ELO-ratingin välillä on n 0.6-0.7 riippuen vähän siitä, millaisia parametrimääriä eri internet huhujen perusteella arpoo joillekin proprietary-malleille. Eli melko tai hyvin vahva korrelaatio, kuten sanoin. Eiköhän me kaikki ymmärretä, ettei kukaan ole väittänyt Scaling Lawsin tarkoittavan 1.0 korrelaatiota.

Ei mua kiinnosta riidellä tästä asiasta. Tietenkään parametrit ja corpus eivät ole ainoat transformereilla treenattavien mallien training lossin selittävät tekijät (mm. datan prosessionti, hyperparametrointi yms. vaikuttavat myös), mutta kyllä myös käytännössä - ei vain teoreettisesti - on täysin selvää, että ceteris paribus skaalaus parantaa mallin suorituskykyä, ja vain algoritmisella break-thrulla (jota esim. Nano tai Mistral eivät edusta) voidaan rikkoa tämä yhteys.

1 tykkäys

Ei kai me edes varsinaisesti olla riidelty mistään fakta-asiasta? Olet vain päättänyt olla aggressiivisesti samaa mieltä kanssani :smiley:

4 tykkäystä
7 tykkäystä

Silo.AI kehittää eurooppalaista peruamallia nimeltään Poro. Tässä maksuton artikkeli Tivissä.
Jatkossa sen päälle eri tahot voivat kehittää sovelluksia.
Helpottanee ja kiihdyttänee kielimalliin pohjautuvaa kehitystä ja liiketoimintaa euroopassa ?
Opetukseen käytetään euroopan nopeinta Lumi-supertietokonetta Kajaanissa

Sen on tarkoitus tukea myös kuvia eli Multimodalia tukeva opetusmateriaali otetaan heti huomioon

4 tykkäystä

Tässä vielä repoon linkki, jos haluaa leikkiä Porolla: :slight_smile:

Toivottavasti julkaisevat mallin treenin valmistuttua kvantisoidut versiot, jotta loppukäyttäjien elämä helpottuisi huomattavasti.

3 tykkäystä

Fireship tuo hyvää kontekstia tuohon Googlen Gemini-mainosvideoon:

3 tykkäystä

Ainakin mielenkiintoista mihin nuo multimodaaliset mallit pystyvät kuvien selittämisessä.

4 tykkäystä

Uutta EU-sääntelyä tulossa [1].

Promo: “From the King of Regulation and the Maker of ‘OK Cookies’ and the Stopper of ‘Roaming Ripoff’. Tiivistää minun näkemykseni EU:n aiempien päätösten vaikutuksesta. Osa hyvää osa huonoa.

Alla tulossa olevat muutokset ja mukana lyhyet kommentit. Kaikki kommentit eivät AI-aiheeseen liity, vaan kyseessä on lyhyttä tajunnanvirtaa näin aamulla.

“Biometric categorisation systems that use sensitive characteristics (e.g., political, religious, philosophical beliefs, sexual orientation, race);” - Suomessa poliittista taustaa ei vissiin katsottu kuuluvan “sensitive characteristics”-luokkaan, koska oikeusasiamies katsoi, että kiihotusta kansanryhmää vastaan ei voi soveltaa perussuomalaisiin. Erikoinen ristiriita, mutta ei liity AI:hin.

“Untargeted scraping of facial images from the internet or CCTV footage to create facial recognition databases;” Tarkoittaa, että kuvien louhiminen on sallittua, mutta ei kasvojentunnistustietokannan muodostamiseksi. Ja tarkoittaa myös, että kasvojentunnistustietokanta on sallittua tehdä, kunhan ei ‘scrapata’ niihin kuvia. Eli voi ostaa kuvat jostain toiselta ja muodostaa itse tietokannan?

“Emotion recognition in the workplace and educational institutions;” Työhyvinvointi on lähellä omaa mieltäni, ja ajattelin, että tätä voitaisiin käyttää positiivisesti. Nyt se on kiellettyä, ja jos haluaisit vaikka seurata alaistesi stressitasoa, et saa sitä tehdä. Kiitos EU kun päätät tämän puolestani.

“Social scoring based on social behaviour or personal characteristics;” Ei kommenttia.

“AI systems that manipulate human behaviour to circumvent their free will;” Nyt lienee sekoiltu vauhdilla. Käytännössä tarkoittaa, että Facebook ja monet muut pitää kieltää, koska ne käyttävät AI:ta ja manipuloivat ihmisten käyttäytymistä. Jos opettelet tanssimaan, koska TikTok esitti sinulle AI:n valitseman opettele tanssimaan -videon, olet AI-järjestelmän manipulaation uhri. Toki en tiedä, mikä tässä on AI-järjestelmä. Yksinkertaisimmillaan se on jotain tällaista:

if user is male: showCarCommercial
if user is female: showClothingAndMakeupCommercial

Jos tuo ei ole AI:ta, onko automaattisesti treenattu decision tree, joka tekee saman päätöksen? Luulisin, että se jo lähes varmasti on. Vai pitääkö olla nimenomaan neuroverkkomalli? Rajan vetäminen on äärimmäisen vaikeaa. Mielestäni mikään tilastoihin perustuva mainonta, ja mainonta on yksi manipuloinnin muoto, ei voi enää olla sallittua. Eräs AI-alan kirjallisuuden klassikoista on nimeltään “Elements of Statistical Learning” [2]; nimi kertoo, että AI on vain todennäköisyyksiä. Jos AI kielletään, kielletään myös todennäköisyyksien käyttö manipuloinnissa. Mikä sitten on manipulointia? En tiedä. Joku muu voi jatkaa tästä. En ole juristi.

AI used to exploit the vulnerabilities of people (due to their age, disability, social or economic situation). Ei kommenttia.

[1] Artificial Intelligence Act: deal on comprehensive rules for trustworthy AI | News | European Parliament

[2] https://hastie.su.domains/Papers/ESLII.pdf

1 tykkäys

Pahoittelen jos tämä on jo aiemmin ollut tiedossanne: GPT-4:ää pääsee käyttämään ilmaiseksi eli ei ole välttämätöntä lunastaa chatGPT:n kautta maksullista reittiä. Kaikessa yksinkertaisuudessaan sijoittajahenkinen ilmainen pöytä löytyy Bingin keskustelusta.

1 tykkäys

.
.
.

.
.
.

Väärässä oli Bing. Ei noussut BKT-ennusteet joulukuussa.

4 tykkäystä

Avoimen tekoälyn kovin yhtiö, Mistral AI, jatkaa taas tykitystä. Yhtiöltä tuli aiemmin ulos selvästi paras 7 miljardin parametrin yleismalli ja nyt haastetaan jo Metan ylivoimaista kuninkuutta avoimien mallien osalta. Mixtral, joka koostuu 8 kpl eri 7B mallista, on väitetysti parempi kuin LLaMA 2 70B:

image

Käytännössä tuo malli valitsee jokaisen tokenin kohdalta joukostansa kaksi 7B mallia prosessoimaan tokenin ja näin saavutetaan 13B mallin suorituskyky, mutta jopa paremmilla tuloksilla kuin yksittäisellä 70B yleismallilla. Väitetysti ChatGPT-4 toimii samantyylisellä arkkitehtuurilla.

Näin LLaMA 2 70B käyttäjänä olen kiitollinen Metalle kaikesta mitä ovat tehneet, mutta jos Mixtral saa EXL2 tuen, niin ei enää kyllä kiinnosta LLaMA 3 tai varsinkaan mitkään Googlen viritelmät, kun vihdoinkin päästään tilanteeseen missä kielimalleja voi pyörittää ilman amerikkalaisia megacap datavamppyyrejä.

Tässä albumissa esimerkkejä, että mihin Mixtral väitetysti pystyy:
(sisältövaroitus, koska kyseessä on sensuroimaton malli)

8 tykkäystä

Mielenkiintoista! Sinänsä yksinkertainen ja paljon koneoppimisessa käytetty temppu, että tehdään tällainen kahden mallin ensamble.

Tosin varmaan voisi olettaa, että 2x70B tarjoaisi paremman lopputuloksen kuin esim. 2x7B. Vai voiko? Joten onkohan tästäkään laskentavaatimusten tappajaksi?

1 tykkäys

8x70B expert modelin treenaaminen olisikin aikamoinen homma ja rautavaatimukset ihan eri tasolla että sais 2x70B pyörimään järkevään hintaan. Ehkä jonain päivänä, muittei ihan hetkeen :smiley:

Mistral AI:n Mixtral 8x7b pamautti odotetusti Chatbot Arenan avointen mallien kärkeen. Taakse jäi mm. juuri julkaistu Googlen Gemini Pro (Google Bard)

Tietysti näihin rankingeihin on syytä suhtautua suurella skeptisyydellä, mutta kaikki merkit viittaavat siihen että kyseessä on aidosti huippuluokan avoin malli.

1 tykkäys

Hyvä kuvaajaesimerkki siitä, että miksi täyden koon mallien ajamisessa ei useimmissa tapauksissa ole järkeä ja miten isoja malleja saadaan ängettyä kuluttajarautaan:

5 bittinen malli on lähes identtinen tekoälyn hämmennyksen osalta täyden koon 16 bittiseen malliin. 4 bitin jälkeen alkaa pakka kiihtyvää vauhtia leviämään käsiin, mutta olet tuossa vaiheessa jo saanut tiputettua mallin muistivaatimukset murto-osaan täydestä mallista :sunglasses:

2 tykkäystä

Silläkin uhalla, että kaikki tekno-osaajat katoavat sivummalle, niin käydäänpäs tässä vaiheessa hieman käytännönläheisimmissä ja arkisemmissa teemoissa.

Olen koittanut tehdä itselleni listaa, että mitkä ovat tavalliselle geneeriselle toimistotyöläiselle ChatGPT:n (ja vastaavien sovellusten) suurimmat konkreettiset hyödyt työtehon lisäämisen näkökulmasta.

En siis kaipaa lainkaan mitään erityisen edistyksellisiä erikoistilanteiden esimerkkejä, vaan tavoitteena on ainoastaan säästää minuutteja työpäivien aikana (tai toki vaihtoehtoisesti saada enemmän tuloksia samassa ajassa) ulkoistamalla työtehtäviä tai tekemällä ne järkevämmin? Mitä konkreettisia selvästi tehokkuutta lisääviä toimenpiteitä foorumistit ovat tehneet? Missä olette saavuttaneet parhaat aikasäästöt?

Myös parhaat tämän teeman kouluttajat, kirjoittajat, tubettajat jne. kiinnostaa, että voin käydä myös heidän ajansäästö-vinkkinsä varastamassa arkikäyttööni.

7 tykkäystä

Lyhyt lista omista tyypillisistä käyttökohteista:

  • Kohteliaisuutta tai vastaavaa täsmällisyyttä vaativien sähköpostien tai muiden viestien laadinta
  • Excel-kaavojen kirjoitus
  • Brainstorming ja omien lähtöoletusten validointi (tyyliin lyhyt ongelman kuvaus promptilla ja validoi omat ajatuksensa outputtia vasten)
  • Kielen käännöstyö
  • Asioiden jäsentely (esim. tyyliin promptilla ”olen laatimassa esitystä asiasta X. Anna suositus raportin rungolle ja keskeiselle sisällölle”). Hyvin lähellä brainstormausta
  • Vaihtoehtoiset ilmaisut ja käyttö synonyymisanakirjana (esim. kehotteella ”Keksi oheiselle sisällölle sopiva otsikko. Tarjoa 15 eri vaihtoehtoa”).
  • Standardoitujen viitekehysten soveltaminen arkisiin käyttötapauksiin (annetaan käyttötapaus syötteenä ja pyydetään muuttamaan se viitekhyksen mukaiseksi - esim. IT-alan standardienmukaisuuteen mäppäykset)

Github Co-pilotin käyttötapaukset sitten tietysti on oma lukunsa, mutta oletan, että et tarkoittanut ohjelmistokehitystä viitatessasi toimistotyöhön.

Olen myös todennut, ettei LLM sovellu hirvittävän hyvin:

  • Isojen tekstimassojen tiivistykseen (oleellisia asioita tippuu helposti pois)
  • PowerPoint-esitysten laadintaan (pyytäen VBA-syötettä tai spesifeillä sovelluksilla)
  • Kielenhuoltoon tai tarkempaan sisältötarkastukseen tai kommentointiin (tulee usein lähinnä triviaaleja kommentteja)

Kielimalleja ei myöskään voi nykytilassa käyttää hallusinoinnin vuoksi minkään lopputuotoksen laadintaan (validointi pitää aina tehdä itse). Myöskään mitään matemaattista päättelyä se ei osaa.

PS. mulla ei ole vielä MS Office co-pilot lisenssiä käytössä - se muuttaisi vastausta todennäköisesti merkittävästi.

14 tykkäystä

Juuri näin. Siksi tuo tiivistys oli tuolla ei-soveltuvien tehtävien listassa. Käytännössä kielimallin käyttö tiivistämiseen on siis ajanhukkaa, jos tekstimassan joutuu kuitenkin lukemaan läpi ymmärtääkseen sieltä ydinkohdat, jotta voi varmistua tiivistikö kielimalli tekstin riittävän hyvin.

2 tykkäystä

Pari esimerkkiä viikon ajalta:

  • Tarjousta varten CV:n/henkilöesittelyn tekstien kääntäminen ulkomaan kielelle
  • Pieni VBA-makro Exceliin

CV:n vääntämisessä meni enemmän aikaa siihen dokumentin ulkonäön säätämiseen ja tekstien asetteluun mitä itse sisältöön. Eihän noista mitään isoja aikasäästöjä tullut mutta ei laiska jaksa käyttää aikaa tuollaiseen.

2 tykkäystä