Viime viikolla saatiin ensimmäinen puolivallankumouksellinen algoritminen haaste Nvidialle. MS:n datanörtit, julkaisi The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits -tutkimuspaperin. Asiaan kannattaa tutustua täällä: Paper page - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, jossa tutkijat vastaavat yleisökysymyksiin .
Tämänkin olisi voinut kirjoittaa Nvidia-ketjuun, mutta kirjoitellaan nyt tänne. Pari päivää olen nyt yrittänyt pohtia implikaatioita Nvidialle ja miksei muillekin Semi-toimittajille. Ihan vielä en ole valmis julistamaan Nvidian kilpailuetua kadotetuksi.
Kyse on siis siitä, että neuroverkkojen painomatriisit on tässä mallissa muutettu ns. ternary-biteiksi ja voivat saada vain ja ainoastaan arvon -1, 0 tai 1. LLM:t ennen tätä ovat käyttäneet ns. floating point -lukuarvoja, eli tuttavallisemmin tavallisia desimaalilukuja. No mikä tässä on niin mullistavaa on se, että matriisien kertolaskuoperaatio katoaa. Eli kun syötearvoja “kerrotaan” luvuilla -1, 0 tai 1, ei kertolaskua tarvtitse suorittaa. Laskentavaatimukset pienenevät merkittävästi. Etenkin muistivaatimukset, joka on edelleen keskeisin rajoite GPU-laskennassa, pienentyy tällä lähestymismallilla.
No miksei tämä “keksintö” kaada Nvidiaa:
- Tehohyödyt mallin opetuksen osalta ovat edelleen rajalliset. Malliopetetaan edelleen backpropagationilla floating point -masterkertoimilla ja itseasiassa syö jopa enemmän muistia kuin “tavallinen” opetus tulkintani mukaan. Keskeisin tehokkuushyöty tässä vaiheessa liittyy inferenceen (mikä toki myös on investointinäkymien kannalta iso asia).
- Paperin benchmark-malli on 3B parametrinen. Ei ole vielä ollenkaan selvää, mitä +1T mallien response-performanssi on. Koneoppimistutkimus on vielä aika empiiristä, eikä analyyttisesti voida sanoa mitenkään varmasti, että ternary-ajatus skaalautuu myös esim. tulevaan GPT-5 parametriskaalaan.
- Myös infrence vaatii tulevaisuudessakin GPU-laskentaa. Toki rajallisemmilla malleilla voidaan päästä järkeviin latensseihin ehkä CPU:llakin, mutta scaling laws pätee silti edelleen.
- Optimaalisimmillaan ternary-bitin käyttö olisi sitä tukevalla raudalla (ns. Ternary tietokoneella). Sellaista ei ole kilpailijoillakaan - edelleenkin GPU on paras laskentaväline myös ternary-bittimalleille. Edelleen kuitenkin peruslogiikka perustuu lineaarialgebraan ja syväoppimiseen ja tässä GPU:t ovat ylivertaisia. Ehkä seuraavassa GPU-sukupolvessa nähdään ternary-tensorit?
Silti tulee olemaan kiinnostavaa seurata, mihin tämä “läpimurto” kantaa. Tässä on monta mahdollista skenaariota - heitän hatusta muutaman:
- Mallit voivat kasvaa entistä suuremmiksi, kun hinta- ja esim. muistirajoitteet pienenevät.
- Investointikynnys madaltuu, tekoälynkehitys vain kiihtyy
- Uusia pelureita, katteet tippuvat
- Malli ei lunasta lupauksiaan ja jäämme odottamaan seuraavaa läpimurtoa