Puolijohdejätit: AMD, Intel, NVIDIA, TSMC, TI, Micron, Broadcom, Qualcomm, ASML yms

Roope_K · Maaliskuu 3, 2024, 6.24pm

Viime viikolla saatiin ensimmäinen puolivallankumouksellinen algoritminen haaste Nvidialle. MS:n datanörtit, julkaisi The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits -tutkimuspaperin. Asiaan kannattaa tutustua täällä: Paper page - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, jossa tutkijat vastaavat yleisökysymyksiin .

Tämänkin olisi voinut kirjoittaa Nvidia-ketjuun, mutta kirjoitellaan nyt tänne. Pari päivää olen nyt yrittänyt pohtia implikaatioita Nvidialle ja miksei muillekin Semi-toimittajille. Ihan vielä en ole valmis julistamaan Nvidian kilpailuetua kadotetuksi.

Kyse on siis siitä, että neuroverkkojen painomatriisit on tässä mallissa muutettu ns. ternary-biteiksi ja voivat saada vain ja ainoastaan arvon -1, 0 tai 1. LLM:t ennen tätä ovat käyttäneet ns. floating point -lukuarvoja, eli tuttavallisemmin tavallisia desimaalilukuja. No mikä tässä on niin mullistavaa on se, että matriisien kertolaskuoperaatio katoaa. Eli kun syötearvoja “kerrotaan” luvuilla -1, 0 tai 1, ei kertolaskua tarvtitse suorittaa. Laskentavaatimukset pienenevät merkittävästi. Etenkin muistivaatimukset, joka on edelleen keskeisin rajoite GPU-laskennassa, pienentyy tällä lähestymismallilla.

No miksei tämä “keksintö” kaada Nvidiaa:

Tehohyödyt mallin opetuksen osalta ovat edelleen rajalliset. Malliopetetaan edelleen backpropagationilla floating point -masterkertoimilla ja itseasiassa syö jopa enemmän muistia kuin “tavallinen” opetus tulkintani mukaan. Keskeisin tehokkuushyöty tässä vaiheessa liittyy inferenceen (mikä toki myös on investointinäkymien kannalta iso asia).
Paperin benchmark-malli on 3B parametrinen. Ei ole vielä ollenkaan selvää, mitä +1T mallien response-performanssi on. Koneoppimistutkimus on vielä aika empiiristä, eikä analyyttisesti voida sanoa mitenkään varmasti, että ternary-ajatus skaalautuu myös esim. tulevaan GPT-5 parametriskaalaan.
Myös infrence vaatii tulevaisuudessakin GPU-laskentaa. Toki rajallisemmilla malleilla voidaan päästä järkeviin latensseihin ehkä CPU:llakin, mutta scaling laws pätee silti edelleen.
Optimaalisimmillaan ternary-bitin käyttö olisi sitä tukevalla raudalla (ns. Ternary tietokoneella). Sellaista ei ole kilpailijoillakaan - edelleenkin GPU on paras laskentaväline myös ternary-bittimalleille. Edelleen kuitenkin peruslogiikka perustuu lineaarialgebraan ja syväoppimiseen ja tässä GPU:t ovat ylivertaisia. Ehkä seuraavassa GPU-sukupolvessa nähdään ternary-tensorit?

Silti tulee olemaan kiinnostavaa seurata, mihin tämä “läpimurto” kantaa. Tässä on monta mahdollista skenaariota - heitän hatusta muutaman:

Mallit voivat kasvaa entistä suuremmiksi, kun hinta- ja esim. muistirajoitteet pienenevät.
Investointikynnys madaltuu, tekoälynkehitys vain kiihtyy
Uusia pelureita, katteet tippuvat
Malli ei lunasta lupauksiaan ja jäämme odottamaan seuraavaa läpimurtoa