Uskoakseni Baker puhuu nyt tässä ns. neural scaling laeista (Neural scaling law - Wikipedia), joka siis esittää, että tekoälymallin tarkkuus on siis sen keskeisten rakennusosien funktio. LLM:ien kohdalla mallin suorituskyky voidaan esittää käytännössä mallin parametrien määrän ja opetusaineiston funktiona. Tästä voi katsoa Andrej Karpathyn lyhyen mutta hyvän selostuksen asiaan.
Nämä kaksi tekijää - datan ja parametrien määrä - tietysti myös määrittävät sen, miten paljon opetuksen aikana tarvitaan GPU-kapasiteettia, jos opetuksesta halutaan selvitä säädyllisessä ajassa. Jos data ja parametrit lisääntyvät ja opetukseen käytetty aika halutaan pitää vakiona, on lisättävä rinnakkaislaskentakapasiteettia. Tämä on scaling lawsin juoni noin karkeasti.
Tosiaan tähän mennessä LLM:ien koko on kasvanut yhtä eksponentiaalisesti kuin Nvidian markkina-arvo:
Nähdäkseni Baker pohtii sitä, onko scaling law, joka on johtanut mallien kasvuun, ikäänkuin matemaatinen laki, joka määrää mallin koon ja opetusdatan määrän, jos malleja halutaan tästä parantaa jatkossakin. Ja tähän todella ei ole tällä hetkellä kellään vastausta. Sadat ja tuhannet akateemikot kyllä etsivät algoritmisia paradigmamuutoksia, jolla scaling law:n määräysvallasta päästäisiin eroon. Kuten tuossa @Verneri_Pulkkinen hyvin maalaatkin, taloudellinen kannustin tälle toiminnalle on melkoisen suuri.
Ja onhan tässä ollut ihan hyviä yrityksiä. Microsoftilta tuli se yksi paperi, jossa tehoja saatiin siirtymällä floatin point -tyypistä tertiary bittiin - se oli hyvä teoreettinen ajatusten herättäjä vaikka osoittautuikin ehkä toistaiseksi käytännön disruption kannalta mitättömäksi. Myös monia muita tapoja tehokkaampaan algoritmiikkaan on olemassa sekä muita opetuksen/inferencen kustannuksia säästäviä käytäntöjä kuten vaikkapa jo se, että noita foundation-malleja voi finetunata yms., jolloin riittää että esim. organisaatioiden yhteenliittymä kehittää tuollaisia perusmalleja ja jakaa kustannuksia, ja jatkokehitys tapahtuu niiden päällä hyvin marginaalisilla investoinneilla. Jos tehokkuusaihe kiinnostaa laajemminkin niin MIT:lla on kokonainen kurssi ilmaiseksi katsottavissa: https://www.youtube.com/watch?v=rCFvPEQTxKI
Mä en henkilökohtaisesti itse usko, että nykyvalikoiman mukaisten tekstimodaalisuuteen rajoittuvien foundational-mallien ääretön kasvatus on Nvidian pidemmän aikavälin tuloksen ajuri tai nykyarvon selittäjä. Pikemminkin uskon, että käyttötapausten leviäminen ja modaalien laajeneminen (esim. audioon ja videoon) ovat ne GPU-laskentakapasiteettikysynnän ensisijaiset ajurit. Tuollainen tekstimodaalin foundation-malli on nimittäin ihan miniatyyrikokoa verrattuna siihen, millaisilla massoilla vastaavaa videomallia pitäisi pystyä kouluttamaan. Tässä on aivan pakko uskoa siihen, että tekstimodaalilla toimivat LLM:t ovat ihan vasta ensimmäinen askel laajemmassa tekoälykehityksessä, joka tulee kestämään vielä vuosia. Ja esim. Soran kaltaiset teaserit antavat uskoa siihen, että tämä ei ole mitään hattaraista toiveajattelua.
Eli en antaisi sijoituskeississä ihan hirveästi arvoa 30.8.2024 tuotantokäyttöön asti päätyneille sovelluksille tai vetäisi niistä viivotinanalyysia kohti äärettömyyttä. Kyllä nimittäin joku velho jossain keksii ihan varmasti tekstimodaalisuuksien foundation-malleille jotain vielä tehokkaampaa kuin transformer-arkkitehtuurin, joka sekin on kyllä kieltämättä nerokas. Olen lukenut jostain, että tässä alkaa tulemaan kohta jo rajat vastaan siinä, että näille isoille malleille on kohta syötetty opetettu ihmisen historiassa luoma tekstituotanto.
Ja onhan tässä jo nyt tapahtunut siirtymää flops-per-second -ajattelusta power-per-token ajatteluun. Esim. Blackwell on optimoitu osittain nykyisellä transformer-arkkitehtuurilla tehtävällä laskennalla tehokkuuteen.
Toivottavasti tämä avasi mun henkilökohtaisia ajatuksia ja vastasi kysymykseen edes vähän. Paljon olisi voinut kirjoittaa esim. vaikkapa dedikoidummasta rinnakkaisarkkitehtuurista (kuten TPU), jotka saattaa myöskin osaltaan rikkoa scaling laws trajectorya.
Edit-lisäys: Yksi käytännön tapa Nvidialle välttää Neural scaling lawsin ja taloudellisen skaalautumisen reunaehtojen yhteentörmäys, olisi rahoittaa foundation mallien treenausta. GPU-laskentakysyntä siirtyy anyways tulevaisuudessa kohti inferenceä, joten miksipä yhtiö ei voisi olla luomassa näitä jätti malleja, joita pyörittämään sitten vaaditaan miljoonia / miljardeja Nvidia-chippejä konesaleihin. Osittain tähän suuntaahan ehkä jo lähdettiinkin julkaisemalla kesällä se megaluokan 530B Megatron malli. Kassaa riittää kyllä, jos kerran sitä riittää $50B takaisinostoihinkin.