ChatGPT, muut kielimallit ja tekoäly

Se että RLää voidaan käyttää jossain tehtävässä vaikka shakissa ei tarkoita että sitä on mahdollista hyödyntää LLMn tekemiseen. Varmaan tuhansia tekoälyn tutkijoita on viimeiset 2 vuotta pohtinut että miten RL saadaan valjastettua LLMn luomiseen. On täysin ilmeistä että RL on yksi viisastenkivi matkalla kohti tekoälyä. Sen implementointo ei ole triviaalia vaan tieteellinen läpimurto.

Annan esimerkin jos fysiikka on sinulle tietotekniikaa tutumpi alue:
Myös fuusio on erittäin hyvin tunnettu jo vuosia. Se että joku onnistuu sillä tekemään energia on vain triviaali implementointiin liittyvä yksityskohta. Projektipäälikkö budjetoi siihen Excelissä pari viikkoa ja näin tää fuusio reaktorin tekeminen pysyy aikataulussa. :sweat_smile:

2 tykkäystä

Samaa mieletä, että AGI ei ole lähelläkään.
LLM koodaa siten, että se osaa generoida seuraavan sanan, koska se ymmärtää kontekstin hyvin, pohjautuen sanojen yli 1000 ulotteiseen embedding avaruuteen.
Ihminen opettelee koodaamaan opettelemalla kielen käskyt, kuten for-looppi
Sama ero on muissakin asioissa eli kielimalli pohjautuu todennäköisyyteen.

Transformerin ydinhän on embedding avaruus. Periaatteessa mitä dataa vain voi tuoda tokeneiksi ja muuttaa takaisin.
Embedding avaruus ei sinänsä ole käytä sanoja, vaan se kuvaa ympäräröivän maailman asioiden suhteita vektoreilla.
Tällä menetelmällä saadaan ihmisen kaltaista toimintaa vaikka sen oppiminen ja ajattelu ei olekaan ihmisen kaltaista

Transformeria tai sen muunnoksia käytetään hyvin paljon kaiken datan käsittelyyn. Koko Multimodal ajettelu pohjautuu siihen, että samassa avaruudessa voi käsitellä usean tyyppistä dataa.

En tiedä mihin tämä viittaa, mutta Roboteissa ja autonomisissa autoissa käytetään Transformeria.
Samoin käsittääkseni DeepSeekissä käytetään Transfomer pohjaista, eli ovat tehneet omia virityksiä perusmalliin. Transformer-pohjainen viittaa Self Attention tyyppiseen embedding avaruuden käsittelyyn

JEPA sekä Large Concept Models mainitsin siksi, että Meta LeCunin johdolla pyrkii ihmisen kaltaiseen AI:n

JEPA on Self Superviced learning malli, jossa opetetaan x-encoder malli ennustamaan tietoa y-encoder mallin mukaan. Tämä siten että predictorissa on abstract representation space, joka pyrkii muodostamaan tiedon siitä, mitä konkreettista y-encoder esittää (kissa, koira jne.)
image

I-JEPA opettaa context encoderia targetin avulla. Koska predictorissa on abstrakti moniulotteinen avaruus, jossa muodostuu tieto kuvan kohteesta, ei kuvaa ennusteta pikselitasolla vaan ymmärretään objekti, jota generoidaan


V-JEPA on saman kaltainen videolle.
Kummatkin on rakennettu käyttäen useita ViT-malleja (Vision Transformer)

Large Concept Models (LCMs) LeCunn hakee saman kaltaista konseptia.
Koska ihminenkään ei lue kirjasta yksittäisiä sanoja, vaan lukee pidemmän pätkän ja sisäistää sisällön (Concept), pyrkii LCM toimimaan samoin
Eli pitkästä tekstistä tunnistetaan konsepteja. Koska konseptit ovat kokonaisuuksia, voidaan niistä tuottaa lopuksi sitä kuvaava teksti eri lähtökohdista. Tai konseptista voi tuottaa kuvan jne.
image
Myös LCM on toteutettu käyttäen Transformeria

Eli kun työstetään tekstiä, kuvia jne. LeCunn pyrkii taustalla tunnistamaan isompia konsepteja ja objekteja, joihin tekstin ja kuvien ym. generointi perustuu

AGI:sta.
AGI:sta nousee aika ajoin hype. Usein tämä aiheutuu siitä, että jokin toimii kuten ihminen.
2 vuotta sitten nousi AGI-hype, kun ChatGPT vastasi kuten ihminen.
Toisille S-ryhmän ruokarobotit tuovat uskoa AGI:n toteutumiseen tai tällä hetkellä DeepSeekin hienot LLM:n tehostamisideat.
Vaikka mitään uutta merkittävää AGI:n mahdollistavaa muutosta AI-malleihin ei ole tullut

11 tykkäystä

https://medium.com/thoughts-on-machine-learning/the-laymans-introduction-to-deepseek-r1-training-80d8ff7a887d
Tässä yksi näkemys, miten DeepSeek R1:sen training tehtiin - käydään läpi RL:n roolia prosessissa.

  • löytyi tästä Karpathyn X-viestistä x.com
2 tykkäystä

Aikoinaan valokuva ja liikkuva kuva valjastettiin nopeasti erotiikan alueelle ja yleinen kiinnostus lisääntyi. Samoin kävi värivalokuvien, internetin, kotivideoiden, mobiilivideon ja 3D tekniikan kanssa ja osa ihmisistä kauhisteli. AI on jo mennyt samalle alueelle, vaikka sääntelyä yritetäänkin. Ihmisen perusviettien alueella on valtavat voimat. Siitä on syvimmillään kysymys myös Venäjän hyökkäyksessä Ukrainaan. Tekoälyn sääntely on kuin tulipalon sammuttamista sylkemällä. Lisääntymiseen liittyvien viettien jälkeen tulevat muut tarpeet ja keskimäärin vasta kaukana tulee tarve toimia yhteisön hyväksi. Mehiläisillä ja muurahaisilla on erilainen arvojärjestys. Asioihin tulisi vaikuttaa juuri tästä toisesta suunnasta, jos ja silloin kun ylipäätään on tarve.

Tekoäly jaksaa liki päivittäin hämmästyttää. Se pakottaa monet koulun oppiaineet uuteen muottiin. Samaan aikaan heikkenee ihmisten resilienssi eli kyky pärjätä ilman teknologiaa. Ollaanko jo liikaa sen varassa, kun pieni häiriö voi jättää talvella ison kerrostalon ilman LVI-palveluja? Kriisissä ei ole mahdollista, että kaikki selviytyvät, ihan kuin noilla hyönteisillä. Omia mahdollisuuksia voi merkittävästi parantaa valmistautumalla niin, että kaikki ei ole tekoälyn varassa.

Viisaasti käytettynä tekoäly on hieno juttu. Arkipäiväistyessä hype laantuu ja yhteiskunta sopeutuu, kuin em. teknologioihin muutenkin. Sen kanssa on vaan elettävä. Peukku tekoälylle. Alapeukku viettien varassa hääriville johtajille ja ihmisille, isoille ja pienille tekijöille.

1 tykkäys

Antakaapa ChatGPT:lle tehtävä: “Kirjoita 12 kirjainta pitkä sana, joka ei merkitse mitään.” En edes 10 yrityksellä onnistunut saamaan tasan 12 kirjainta pitkää sanaa.

Johtuu siitä, miten transformer toimii. Siellä ei ole mitään sisäistä laskuria, joka pitäisi kirjaa käytetyistä merkeistä tai sanoista. Se sylkee tavaraa, juuri niin kauan kunnes softmax sylkee ulos EOS-tokenin, joka pysäyttää generoinnin.

1 tykkäys

Tekoälyttömyys näyttää olevan kielimalleille mahdoton tehtävä. Ei olisi uskonut. Sama tulos tuli chatGPT4, Grok2 ja Deepseekillä, jonka pohdiskelua oli hauska seurata, 13 ja 11 kirjainta onnistui, kun pyytää 12…ehkä tietäjät selittävät vai pitäiskö kysyä malleilta?
Jos ei ole laskuria kirjaimille, miksi sitten tulee 11 ja 13 kirjainta, eikä 5-10?

1 tykkäys

Kuitenkin, kun pyysin 12 riviä pitkän runon, ChatGPT antoi juuri 12 riviä jopa numeroituna. Ja jätti numerot pois, kun pyysin.

Edelleen johtuu siitä, miten transformer toimii. Jos pyydät kaksitoista riviä runoa, malli alkaa suurin piirtein oikeassa kohdassa leipomaan suurempia todennäköisyyksiä EOS-tokenille kontekstin perusteella, kunnes lopulta EOS-token putkahtaa sopivalla kohdalla ulos ja generointi loppuu.

Kyse on edelleen näissä malleissa käytännössä ihan puhtaasta autoregressiosta, jossa seuraava token valitaan mahdollisten output-tokenien (vocabulary) joukosta todennäköisyysperusteella.

Todennäköisesti myös 12-kirjaimista sanaa pyytäessä malli arpo suurin piirtein niillä nurkilla olevia pituuksia eikä esim. 1 tai 150 merkkisiä sanoja. Eli se ei osannut laskurin puutteen vuoksi palauttaa todennäköisyysjakaumasta juuri oikealla hetkellä EOS-tokenia, mutta todennäköisesti osui prompt-kontekstin perusteella melko lähelle.

Tässä juuri havainnollistuu hyvin se, että jossain määrin malli on “vain” ns. stokastinen papukaija: Stochastic parrot - Wikipedia

2 tykkäystä

Toinen haaste ChatGPT:lle oli: “Kirjoita 12 riviä pitkä runo ja käännä se niin, että sanat ovat väärinpäin, alku loppuun.” Runo tuli ensin hienosti, mutta käännetyssä sanat kääntyivät kuin esikoululaiselta. Liekö samaa tasoa muukin ongelmanratkaisu. Pitäisi tekoälyn osata sanoa, koska vaaditaan liikaa.

edit ote:
Metsän siimeksessä kuljin,
polku vei minut eteenpäin,
tuuli humisi puissa,
ja hiljaisuus oli kaunis.

ansseimS natsäm etsi,
niukop iew tni munnep,
ilut ihsumi ssuit,
ajaisihil olleu kaunis.

1 tykkäys

Siansaksan postaamisessa foorumille auttaa, kun pyytää keksimään sellaisen sanan, jossa on 12 kirjainta ja pyytää kielimallia numeroimaan kirjaimet. ”Keksi merkityksetön sana, jossa on 12 kirjainta. Numeroi kirjaimet lopuksi.” Copilot lmainen ei osaa, mutta Deepseekin tyylinäyte pohdinnasta, kun laskee jo ennen vastauksen printtausta kirjaimet:

Edelleen johtuu siitä, miten transformer toimii. Oletetaan tässä, että 1 token = 1 sana (todellisuudessa tokenisointi on sanan osia, mutta on helpompi selittää). Algoritmi tulostaa karkeasti aina seuraavan sanan, joka saa suurimman todennäköisyyden. Output-sanan on siis oltava siinä mahdollisten tulostettavien sanojen joukossa, josta valinta tehdään.

Koska opetusaineiston sanavalikoima on karkeasti internetin sanasto, malli ei todennäköisesti pysty arpomaan esimerkiksi sanan “siimeksessä” reverseä, koska sellaista ei valikoimasta löydy.

(Huom. yllä tehty hyvin karkeita yleistyksiä - todellisuudessa transformereihin on sisällytetty keinoja ratkoa out of vocabulary tilanteita yms.)

Suosittelen toimintalogiikan ymmärtämiseksi esimerkiksi vaikka tätä reilu 30 min videota, jonka jälkeen ymmärtää varmasti hyvin, minkälaisilla reunaehdoilla transformereiden kanssa touhutessa on: https://www.youtube.com/watch?v=zxQyTK8quyY

4 tykkäystä

Ehkä ei-teknisen ihmisen on helpompi hahmottaa asia visuaalisesti. Esimerkiksi tässä omalla koneellani ajetussa esimerkissä tekoäly on antanut (vääräksi) vastaukseksi “Flibergoof”, missä on 10 kirjainta. Yksittäisen tokenin sisältämien kirjainten pituus vaihtelee ja riippuu asetuksista, että millaiset todennäköisyydet eri tokenivaihtoehdot saavat kun mallia ajetaan. Tässä kyseisessä ajossa todennäköisyysjakauma on sellainen, että tasan 12 kirjaimen vastauksen saaminen on varsin epätodennäköistä:

Vaikeutin tehtävää hieman antamalla epäselvät ohjeet “12 words”, eikä “12 letters”.
Kuten vastauksesta huomaa, niin kyllä siellä silti ‘ymmärrettiin’, että mitä käyttäjä haki takaa, mutta ei silti ‘osattu’ antaa oikeamuotoista vastausta.

1 tykkäys

Now, AI researchers at the University of California, Berkeley, claim to have replicated the R1 model for under $30.

Dubbed TinyZero, the new AI model was trained using the number puzzle game found in the game show Countdown, which requires players to reach a predetermined answer from a random set of numbers.

2 tykkäystä

Ihan kiinnostavaa, mutta en nyt ihan deep diveksi sanoisi.

Suosittelisin kuuntelemaan uusimman Lex Fridmanin. Kestoa on viisi tuntia ja sekin on vain kansantajuinen pintaraapaisu aiheeseen, mutta varmaan minimimäärä mitä aiheesta pitäisi ymmärtää.

4 tykkäystä

Sijoituksen verotukseen liittyviä faktoja ei kannata ainakaan ChatGPT:ltä kysyä (gpt-4o-mini):

Selitä hankintameno-olettama Suomen verotuksessa.

Hankintameno-olettama on Suomen verotuksessa käytettävä menetelmä, jolla lasketaan myyntivoittoa, kun myydään osakkeita tai muita sijoituksia. Sen mukaan myyntivoitto lasketaan vähentämällä myyntihinnasta oletettu hankintameno, joka on yleensä 40 % myyntihinnasta. Tämä tarkoittaa, että verotettavaa voittoa ei tarvitse laskea todellisen hankintamenon mukaan, vaan voi käyttää tätä yksinkertaista oletusta. Hankintameno-olettamaa voidaan käyttää, jos myyntihinta on yli 1 000 euroa ja osakkeet on omistettu yli vuoden.

Entä 10 vuoden sääntö?

10 vuoden sääntö viittaa Suomen verotuksessa osakkeiden myynnin verotukseen liittyvään sääntöön, jonka mukaan, jos osakkeet on omistettu yli 10 vuotta, niiden myynnistä ei tarvitse maksaa veroa. Tämä tarkoittaa, että myyntivoitto on verovapaa, mikäli omistusaika ylittää kymmenen vuotta. Sääntö kannustaa pitkäaikaiseen sijoittamiseen ja omaisuuden hallintaan.

4 tykkäystä

Taitaa oikeasti mennä niin, että jos osakkeet on omistettu alle 10 v, niin voi käyttää 20 % hankintameno-oleettamaa ja 40 % jos yli 10v. Verotonta mynntivoitto ei taida Suomessa olla milloinkaan.

1 tykkäys

Alle 1000 euron kaupat vuodessa on verovapaita. Tätä chatGPT näköjään yritti tuossa arvailla.

1 tykkäys

Todella rasittava ominaisuus näissä tekoälyissä, ettei näytönkääntö toimi. Käyttömukavuudesta 90% pois, kun joutuu tihrustaan pikku näppäimistöltä ja etusormella kirjoittamaan samalla tavalla kuin sata vuotiaat vanhempani. Miksi yksinkertainen asia ei järjesty? Onko se vain minun puhelimeni ongelma vai onko vika pelkästään käyttäjässä?

Käytännössä joudun kirjoittamaan kysymyksen muistioon ja copy/paste tekoälyyn. Samaa tosin teen forumeillakin, kun ei näissäkään käännetty vaakanäyttö hyvä ole.

Andrej Karpathylta jälleen loistava opetusvideo jossa kerrotaan miten tekoälymalleja kehitetään ja koulutetaan:

2 tykkäystä