Puolijohdejätit: AMD, Intel, NVIDIA, TSMC, TI, Micron, Broadcom, Qualcomm, ASML yms

jaska7 · Helmikuu 22, 2024, 8.20am

Besi Q4

Jarnis · Helmikuu 22, 2024, 8.54pm

SK Hynix ilmoittaa myyneensä HBM-kapasiteettinsa tälle vuodelle jo loppuun. Kysyntää nopeille muisteille laskentakortteihin selvästi on…

DayTraderXL · Helmikuu 26, 2024, 1.14pm

BOISE, Idaho, Feb. 26, 2024 (GLOBE NEWSWIRE) — Micron Technology, Inc. MU, a global leader in memory and storage solutions, today announced it has begun volume production of its HBM3E (High Bandwidth Memory 3E) solution. Micron’s 24GB 8H HBM3E will be part of NVIDIA H200 Tensor Core GPUs, which will begin shipping in the second calendar quarter of 2024. This milestone positions Micron at the forefront of the industry, empowering artificial intelligence (AI) solutions with HBM3E’s industry-leading performance and energy efficiency.

Onko miten merkittävä asia?

Roope_K · Helmikuu 26, 2024, 1.29pm

Sikäli, kun oli tiedossa, että Micron on yksi muistitoimittaja Nvidialle ja Nvidia oli ilmeisesti ennakkomaksujakin jo maksellut, niin ainakin itselleni suurin uutisarvo on se, että H200 todella on lähdössä maailmalle Q2/2024. Micronin kannalta en osaa ottaa kantaa - Nvidialla on useita HB-muistitoimittajia (mm. Samsung ja pari viestiä ylempänä mainittu Hynix muistaakseni).

Soros · Helmikuu 27, 2024, 7.58am

Osaako joku sanoa, onko puolijohdebisnes varastointibisnestä?

Ostetaanko Nvidian ym tuotteita nyt varastoon kaksin käsin, jos oletetaan että AI-kysyntä tulee räjähtämään, eikä kohta niitä enää saa? Eli parempi ostaa nyt kunnolla, ettei jää nuolemaan näppejä tulevaisuudessa.

Jarnis · Helmikuu 27, 2024, 8.12am

Ei, rauta vanhenee käsiin niin nopeasti. Kyllä se ostetaan käyttöön. Korkeintaan pilvipalvelinen vuokraajat investoivat etupeltoon toivoen että asiakaskysyntää on kunhan tilattu rauta saapuu ja on saatu käyttöön. Ja sitten jos koneita jää idlaamaan, hinta joustaa kunnes niille on käyttäjiä.

Syklisyys voi iskeä kovasti jos investoidaan liikaa AI-kiihdytettyyn rautaan, palvelinkapasiteetin kysyntä hyytyy tai ei kasva odotetulla tavalla ja tämä johtaa joksikin aikaa kysynnän vahvaan notkahdukseen kun palvelinkeskusten pyörittelijät “sulattelevat” ostoksiaan ja vasta kun päivityssyklit taas saapuvat kysyntä toipuu.

Ikävästi valmistajilla reagointinopeus kysynnän muutoksiin on varsin hidas - jos NVIDIA päättää tänään leikata valmistusmääriä, menee 3-6kk että koko putki on tyhjennetty työn alla olevasta tavarasta. Lisäksi tietenkin koko firman valuaatio on kuumatkalla joka nojaa vahvaan vuosia jatkuvaan kasvuun. Kasvutahti varmaan hieman hidastuu, mutta jos se taittuisi kokonaan, kurssi ottaisi sellaisen hiustenleikkuun että pää menee mukana.

Roope_K · Helmikuu 27, 2024, 10.42am

Sama näkemys. Vallalla tuntuu olevan jotenkin tosi vääristynyt käsitys, että joku Nilsiän konepaja -tyyppinen yhtiökin on nyt hankkimassa AI-rautaa varastoon. Todellisuushan on kuitenkin se, että lukumäärällisesti mitattuna ylivoimisen suuri osa yrityksistä ostaa GPU-resurssit on demand -pilvestä, kuten muunkin laskennan tai osana ohjelmistoa (kuten Copilot). Ennusteongelma on siis lähinnä CSP:illä (Azure, AWS, Oracle jne.) ja isoilla ohjelmistotaloilla (Meta, SAP, ServiceNow, jne.) sekä tietysti tuotantopuolella TSMC:llä. Omia huolia helpottaa se, että näillä yhtiöillä lienee valistuinein näkemys tällä planeetalla AI-laskennan mahdollisuuksista ja kysynnästä.

Twnfinn · Helmikuu 28, 2024, 4.53am

Vaikka Japaniin ja USA:aan ollaan investoimassa aika paljon, niin Taiwaniin on tulossa vielä isompia projekteja. TSMC on sopinut Taichung kaupungin kanssa neljän uuden 2nm fabin rakentamisesta siten, että pitäisi olla valmista 2027 mennessä.

Land for up to four TSMC 2nm-and-below fabs near Taichung, Taiwan (central) has been approved, media report, with construction set for June and all fabs to be completed by 2027, provide 4,500 jobs, and have an average yearly output value of NT$500 billion (US$15.8 billion). TSMC…
— Dan Nystedt (@dnystedt) February 28, 2024

Roope_K · Maaliskuu 3, 2024, 6.24pm

Viime viikolla saatiin ensimmäinen puolivallankumouksellinen algoritminen haaste Nvidialle. MS:n datanörtit, julkaisi The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits -tutkimuspaperin. Asiaan kannattaa tutustua täällä: Paper page - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, jossa tutkijat vastaavat yleisökysymyksiin .

Tämänkin olisi voinut kirjoittaa Nvidia-ketjuun, mutta kirjoitellaan nyt tänne. Pari päivää olen nyt yrittänyt pohtia implikaatioita Nvidialle ja miksei muillekin Semi-toimittajille. Ihan vielä en ole valmis julistamaan Nvidian kilpailuetua kadotetuksi.

Kyse on siis siitä, että neuroverkkojen painomatriisit on tässä mallissa muutettu ns. ternary-biteiksi ja voivat saada vain ja ainoastaan arvon -1, 0 tai 1. LLM:t ennen tätä ovat käyttäneet ns. floating point -lukuarvoja, eli tuttavallisemmin tavallisia desimaalilukuja. No mikä tässä on niin mullistavaa on se, että matriisien kertolaskuoperaatio katoaa. Eli kun syötearvoja “kerrotaan” luvuilla -1, 0 tai 1, ei kertolaskua tarvtitse suorittaa. Laskentavaatimukset pienenevät merkittävästi. Etenkin muistivaatimukset, joka on edelleen keskeisin rajoite GPU-laskennassa, pienentyy tällä lähestymismallilla.

No miksei tämä “keksintö” kaada Nvidiaa:

Tehohyödyt mallin opetuksen osalta ovat edelleen rajalliset. Malliopetetaan edelleen backpropagationilla floating point -masterkertoimilla ja itseasiassa syö jopa enemmän muistia kuin “tavallinen” opetus tulkintani mukaan. Keskeisin tehokkuushyöty tässä vaiheessa liittyy inferenceen (mikä toki myös on investointinäkymien kannalta iso asia).
Paperin benchmark-malli on 3B parametrinen. Ei ole vielä ollenkaan selvää, mitä +1T mallien response-performanssi on. Koneoppimistutkimus on vielä aika empiiristä, eikä analyyttisesti voida sanoa mitenkään varmasti, että ternary-ajatus skaalautuu myös esim. tulevaan GPT-5 parametriskaalaan.
Myös infrence vaatii tulevaisuudessakin GPU-laskentaa. Toki rajallisemmilla malleilla voidaan päästä järkeviin latensseihin ehkä CPU:llakin, mutta scaling laws pätee silti edelleen.
Optimaalisimmillaan ternary-bitin käyttö olisi sitä tukevalla raudalla (ns. Ternary tietokoneella). Sellaista ei ole kilpailijoillakaan - edelleenkin GPU on paras laskentaväline myös ternary-bittimalleille. Edelleen kuitenkin peruslogiikka perustuu lineaarialgebraan ja syväoppimiseen ja tässä GPU:t ovat ylivertaisia. Ehkä seuraavassa GPU-sukupolvessa nähdään ternary-tensorit?

Silti tulee olemaan kiinnostavaa seurata, mihin tämä “läpimurto” kantaa. Tässä on monta mahdollista skenaariota - heitän hatusta muutaman:

Mallit voivat kasvaa entistä suuremmiksi, kun hinta- ja esim. muistirajoitteet pienenevät.
Investointikynnys madaltuu, tekoälynkehitys vain kiihtyy
Uusia pelureita, katteet tippuvat
Malli ei lunasta lupauksiaan ja jäämme odottamaan seuraavaa läpimurtoa

Jarnis · Maaliskuu 3, 2024, 6.38pm

Itse odotan että jos tämä keksintö mahdollistaa nykymallit heikommalla raudalla, mallit toimivat kuin data yleisesti - laajentuvat ja täyttävät kaiken käytettävissä olevan tilan ja kapasiteetin. Eli paras rauta on edelleen haluttua ja mallit vain paisuvat kuin pullataikina.

Ja jos inference-puolella pärjätään pienemmällä kustannuksella per asiakastapahtuma, tämä voi mahdollistaa paremmin AIn käytön tilanteissa joissa ansaintalogiikan ongelmat aiemmin eivät sitä mahdollistaneet. Eli käytännössä kuukausimaksullisten palveluiden hinnat voivat laskea ja ilmaiseksi voidaan tarjota parempia maistiaisia. Ja käyttäjien omilla koneilla pyörivät AI-toteutukset voivat parantua vaikka käytössä olisi alitehoista GPUta tai pientä NPUta kiihdytyksenä.

En näe että tämä uhkaa mitenkään AI-raudan myyjien bisneksiä.

Alan_Cali · Maaliskuu 4, 2024, 1.38am

Tämä on juuri näin. Kvantisoitujen mallien treenaus on paljon vaikeampaa kuin flotarimallien, rajallinen tarkkuus aiheuttaa kaikenlaisia haasteita backpropagaatiossa. Mahdollisesti joudutaan joka tapauksessa kouluttamaan flotarimalli josta distillaation avulla sitten tuo pienempi.

Toinen juttu on, että ovatko mallien kehittäjät isossa skaalassa halukkaita tekemään tutkimusta ternary-malleja käyttäen johtuen em. haitoista. Heitä kiinnostaa keskimäärin useammin SOTA-performanssin parantaminen eikä muistin/laskennan optimointi.

Toimii samalla tavalla kuin moottoritiet jenkeissä. Kaistojen lisääminen ei vähennä ruuhkaa…

Oxymoron_007 · Maaliskuu 5, 2024, 7.49am

Alan_Cali · Maaliskuu 10, 2024, 2.16pm

Nvidian moat katoamassa?

Jarnis · Maaliskuu 10, 2024, 2.34pm

Ja kun B100 julkistetaan loppuvuodesta, taas kaikki haluavat sitä koska se on paras. Lähinnä todistaa että AMDkin voi tehdä näitä ja myy varmasti kaiken minkä saa ulos. Tällä hetkellä poikkeuksellisesti MI300 on nopeampi ja halvempi kuin NVIDIAn vehje. Ei merkitystä niin kauan kuin jonoa on, mutta sitten kun jonot on palveltu, NVIDIA joutuu tinkimään katteistaan tai markkinaosuudestaan.

Eevitsi · Maaliskuu 10, 2024, 3.01pm

Tuolla NVidian ketjun puolella pohdiskelin samaa pari päivää sitten:

Tuolla ketjussa käyty asiaa tarkemmin läpi, mutta olen itse vähitellen päätynyt siihen näkemykseen, että NVidian vallihaudat softapuolella ovat keskeisten AI/ML-sovellusten osalta pitkälti hävinneet viime vuoden aikana. Vallihaudat ylipäätään noita sovelluskohteita ajatellen rakentuivat pitkälti muutamien keskeisten sovelluskirjastojen toimintaan, joten kun AMD on rakentanut (a) toimivan API-rajapinnan omalle GPU:lleen ja (b) saanut sen toimimaan tehokkaasti keskeisten kirjastojen kanssa, niin vallihaudat ovat tämän suhteen madaltuneet merkittävästi. Keskeisten sovellusten osalta tilanne lienee siis se, että NVidian kortille spesifien sovellusrajapintojen käyttö todennäköisesti on hyvin abstrahoitu hyvin rajalliseen osaan koodikantaa, jolloin vaihtaminen on suhteellisen suoraviivaista - erityisesti kun AMD panostaa luonnollisesti näiden keskeisten osuuksien porttaamiseen myös omalla osaamisellaan.

Kilpailu voi olla kohta veristä GPU-rintamalla, kunhan vaan tehtaat puskevat kummankin toimijan chippejä tarpeeksi ulos. TSMC:n tehtailla on siis tuotantolinjat kuumana, joten ainakin yksi voittaja on selvillä joka tapauksessa.

Roope_K · Maaliskuu 10, 2024, 7.25pm

Niin kuin Nvidia-ketjussa ollaan puhuttu, olen kallistumassa samaan lopputulokseen. Keskimääräisen data scientistin tai edes engineerin ei tarvitse tietää CUDAsta nykyisin sen enempää kuin vaikkapa kääntäjästä saati alla olevasta raudasta.

Silti ihmettelen tuota tulosta. Nykykirjastot kun eivät ihan nyt hirveän hyvin tue AMD:n rautaa ja välillä ainakin itsellä (vaikken ammattilainen olekaan) palaa kyllä käämit Nvidian GPU-resurssien toiminnan kanssa. En ainakaan itse keksi hirvittävän montaa hyvää syytä, miksi haluaisin lisätä tuskaani.

Pandakarhu · Maaliskuu 17, 2024, 7.26pm

ASML on alkanut toimittamaan ensimmäisiä high- NA laitteitaan asiakkailleen. Tämä on erittäin merkittävä uudistus ASML:n laitteisiin ja nykypäivän litografiaan. Kun optiikassa käytetään isompaa NA:ta(Numerical aperture) kärsii lopputuloksessa DOF(Dept of focus) joten uudistus tarkoittaa, että ASML on selvästi löytänyt kompromissin jolla saavutetaan erittäin hyvä resoluutio, mutta DOF ei kärsi liikaa.

Jarnis · Maaliskuu 18, 2024, 9.11pm

Ei nyt oikein Intelin tehdassuunntelmat mene putkeen…

Rahaa on mennyt 4.5 miljardia tähän mennessä mutta sitä piti mennä 20 miljardia taalaa ja vähän epäilyjä ilmassa että Intelillä on pientä akuuttia rahapulaa jota paikataan venyttämällä rakennusaikataulua muutamalla vuodella.

MoneyWalker · Maaliskuu 19, 2024, 5.17am

Korjataan nyt sen verran, että rahaa on mennyt $1,5 miljardia. Rakentamiseen liittyviä sopimuksia on tehty $3 miljardin edestä.

Jarnis · Maaliskuu 19, 2024, 7.38am

Ok, mutta käytännössä ellei Intel ala purkamaan sopimuksia ja oikeasti keskeytä projektia, kolme miljardia lisää on jo lukittu. Pääpointti kuitenkin se että projekti on iso ja sitä venytellään kenties siksi että tuo rahanmeno tapahtuisi myöhemmin…