Puolijohdejätit: AMD, Intel, NVIDIA, TSMC, TI, Micron, Broadcom, Qualcomm, ASML yms

Viime viikolla saatiin ensimmäinen puolivallankumouksellinen algoritminen haaste Nvidialle. MS:n datanörtit, julkaisi The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits -tutkimuspaperin. Asiaan kannattaa tutustua täällä: Paper page - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, jossa tutkijat vastaavat yleisökysymyksiin :slight_smile:.

Tämänkin olisi voinut kirjoittaa Nvidia-ketjuun, mutta kirjoitellaan nyt tänne. Pari päivää olen nyt yrittänyt pohtia implikaatioita Nvidialle ja miksei muillekin Semi-toimittajille. Ihan vielä en ole valmis julistamaan Nvidian kilpailuetua kadotetuksi.

Kyse on siis siitä, että neuroverkkojen painomatriisit on tässä mallissa muutettu ns. ternary-biteiksi ja voivat saada vain ja ainoastaan arvon -1, 0 tai 1. LLM:t ennen tätä ovat käyttäneet ns. floating point -lukuarvoja, eli tuttavallisemmin tavallisia desimaalilukuja. No mikä tässä on niin mullistavaa on se, että matriisien kertolaskuoperaatio katoaa. Eli kun syötearvoja “kerrotaan” luvuilla -1, 0 tai 1, ei kertolaskua tarvtitse suorittaa. Laskentavaatimukset pienenevät merkittävästi. Etenkin muistivaatimukset, joka on edelleen keskeisin rajoite GPU-laskennassa, pienentyy tällä lähestymismallilla.

No miksei tämä “keksintö” kaada Nvidiaa:

  1. Tehohyödyt mallin opetuksen osalta ovat edelleen rajalliset. Malliopetetaan edelleen backpropagationilla floating point -masterkertoimilla ja itseasiassa syö jopa enemmän muistia kuin “tavallinen” opetus tulkintani mukaan. Keskeisin tehokkuushyöty tässä vaiheessa liittyy inferenceen (mikä toki myös on investointinäkymien kannalta iso asia).
  2. Paperin benchmark-malli on 3B parametrinen. Ei ole vielä ollenkaan selvää, mitä +1T mallien response-performanssi on. Koneoppimistutkimus on vielä aika empiiristä, eikä analyyttisesti voida sanoa mitenkään varmasti, että ternary-ajatus skaalautuu myös esim. tulevaan GPT-5 parametriskaalaan.
  3. Myös infrence vaatii tulevaisuudessakin GPU-laskentaa. Toki rajallisemmilla malleilla voidaan päästä järkeviin latensseihin ehkä CPU:llakin, mutta scaling laws pätee silti edelleen.
  4. Optimaalisimmillaan ternary-bitin käyttö olisi sitä tukevalla raudalla (ns. Ternary tietokoneella). Sellaista ei ole kilpailijoillakaan - edelleenkin GPU on paras laskentaväline myös ternary-bittimalleille. Edelleen kuitenkin peruslogiikka perustuu lineaarialgebraan ja syväoppimiseen ja tässä GPU:t ovat ylivertaisia. Ehkä seuraavassa GPU-sukupolvessa nähdään ternary-tensorit?

Silti tulee olemaan kiinnostavaa seurata, mihin tämä “läpimurto” kantaa. Tässä on monta mahdollista skenaariota - heitän hatusta muutaman:

  • Mallit voivat kasvaa entistä suuremmiksi, kun hinta- ja esim. muistirajoitteet pienenevät.
  • Investointikynnys madaltuu, tekoälynkehitys vain kiihtyy
  • Uusia pelureita, katteet tippuvat
  • Malli ei lunasta lupauksiaan ja jäämme odottamaan seuraavaa läpimurtoa
10 tykkäystä