ChatGPT, muut kielimallit ja tekoäly

En tiedä oliko tuossa typo, mutta GAI (Generative AI) kai alkaa olla täällä jossain muodossa ja se todennäköisesti paranee muutamien vuosien kuluessa merkittävästi. Itse olen viesteissäni kuitenkin puhunut AGI:sta (Artificial General Intelligence), jonka tuleminen ei nähdäkseni ole ihan yhtä itsestään selvää tai ainakin aikahaarukkaa on hyvin vaikea arvioida. Näistä jälkimmäinen on kai se, joka lienee jonkinlainen edellytys mainitsemallesi teknologiselle singulariteetille. Ensimmäinen puolestaan on pykälää “tyhmempi” AI, joka voi hyvin toimiessaan pystyä kuitenkin tehostamaan monenlaista työtä.

Tämä on mielestäni hyvä näkökulma. Jo hyvin toimiva GAI saattaisi ainakin teoriassa tehdä keskimääräisesti työntekijästä selvästi nykyistä tehokkaamman monella alalla.

Tähän tulokulmaan liittyy mielestäni jonkinlainen taustaoletus siitä, että töitä on tarjolla rajallinen määrä ja tällä hetkellä tehtävän työn määrä on varsin lähellä tuota maksimia. Ja nyt sitten kone tulee ja vie kaikki työt.

Mutta kysymys toisaalta kuuluu, missä määrin tehtävää olisi enemmän, jos olisi tarjolla paljon tehokkaampia työntekijöitä? Jos vaikka aiempien viestien esimerkkinä ollut yksittäinen peruskoodaaja pystyisi jatkossa tekemään nykyisen 10 koodaajan työt, niin jäisikö silti yhtään koodaajaa työttömäksi? Vai johtaisiko tämä vain siihen, että jatkossa tehtäisiin kymmenkertainen määrä softaa ja ainakin työtunneissa mitattuna selvästi edullisemmin kuin aiemmin?

Yksi mielenkiintoinen tähän liittyvä asia on myös se, mitä keskimäärin tapahtuu ihmiskunnan älylliselle toimintakyvylle ja ongelmanratkaisukyvykkyydelle, jos/kun ongelmanratkaisua pystytään pitkälti automatisoimaan? Ihmiskunnan keskimääräinen fyysinen suorituskyky on ainakin laskenut merkittävästi, kun voimaa vaativa fyysinen työ ja liikkuminen on siirrytty tekemään koneilla. Jos ongelmanratkaisua ja ajattelua automatisoidaan, tekeekö tämä saman lopulta ihmiskunnan keskimääräiselle ajattelukyvylle? Nähdäkseni ajattelu ja ongelmanratkaisu ovat sellaisia, että ne vaativat treeniä siinä missä fyysinen suorituskykykin.

11 tykkäystä

Kyllä, tässä meni termit sekaisin. Tavoittelin General Artificial Intelligenceä, mutta sanat järjestelläänkiin tosiasiassa toisin. Eli Artificial General Intelligencen tuloa tässä povasin.

On totta, ettei tämän saavuttamisesta ole varmuutta, mutta käsittääkseni kaikki paukut on käytössä, jotta tuohon eri tietotaloissa pyrkivät ja yleiset, tyhmemmät kielimallit ovat edenneet nopeasti. Tästä ihan arkiajattelulla loikkaan johtopäätökseen, että näemme vaaditun loikan elinaikanamme.

Tuottavuuden lisääminen voi tosiaan johtaa myös isompaan tuotantoon samalla porukalla, mutta pelkään pahoin että kuluttajien määrä vaikuttaa asiaan myös.

1 tykkäys

Joku voisi ensin määritellä, mitä AGI edes on. On jossain määrin tyhjänpäiväistä pohtia, milloin AGI voidaan saavuttaa, kun jokaisella on täysin eri tulkinta siitä, mitä se on. Puhutaanko määrittelemättömän tehtävän ratkaisusta (Transformerit kykenevät tähän jossain määrin jo nyt valikoidulla modalisuudella) vai täydellisestä autonomisuudesta (tähän ei ehkä päästä koskaan)? Vai ehkä jostain siltä väliltä?

1 tykkäys

Minusta määritelmä on selkeä. Älykkyysosamäärä tai neuronien määrä verrattuna ihmiseen, siinä kohtaa ollaan tyhmempiä.

Tällä sivulla on hyvää esitelmää datasta.

1 tykkäys

Tässä ollaan asian ytimessä, keskustelu menee helposti siihen, että yksi puhuu aidasta ja toinen aidan seipäistä. Mikä kellekin on se “peruskoodari”, josta puhutaan. Oma näkökulma on se, että generatiivisen tekoälyn aikakaudella on huomattavasti helpompi oppia peruskoodariksi, myös sellaisille ihmisille, joita ei kiinnosta siellä yliopistomatikan luennoilla istua. Samaan aikaan en kiistä ollenkaan sitä, etteikö matikan ymmärryksestä ja muustakin teoreettisesta koulutuksesta olisi hyötyä varsinkin vaativammissa arkkitehti-tyyppisissä rooleissa.

2 tykkäystä

Yleisemmin käytössä oleva määritelmä taitaa olla hieman monisyisempi, eli pelkällä neuronien määrällä tai älykkyystestillä (varsin spesifinen testi, jota varten voi harjoittaa AI:n) eivät ollenkaan kaikki tuota mittaisi. Esim. wikipedia-sivulta:

Artificial general intelligence (AGI) is a type of artificial intelligence (AI) that can perform as well or better than humans on a wide range of cognitive tasks,[1] as opposed to narrow AI, which is designed for specific tasks.[2] It is one of various definitions of strong AI.

AGI is also known as strong AI,[10][11] full AI,[12] human-level AI[5] or general intelligent action.[13] However, some academic sources reserve the term “strong AI” for computer programs that experience sentience or consciousness.[a] In contrast, weak AI (or narrow AI) is able to solve one specific problem, but lacks general cognitive abilities.[14][11] Some academic sources use “weak AI” to refer more broadly to any programs that neither experience consciousness nor have a mind in the same sense as humans.[a]

Related concepts include artificial superintelligence and transformative AI. An artificial superintelligence (ASI) is a hypothetical type of AGI that is much more generally intelligent than humans,[15] while the notion of transformative AI relates to AI having a large impact on society, for example, similar to the agricultural or industrial revolution.[16]

Various criteria for intelligence have been proposed (most famously the Turing test) but no definition is broadly accepted.[b]

Intelligence traits

However, researchers generally hold that intelligence is required to do all of the following:[18]

Many interdisciplinary approaches (e.g. cognitive science, computational intelligence, and decision making) consider additional traits such as imagination (the ability to form novel mental images and concepts)[19] and autonomy.[20]

Computer-based systems that exhibit many of these capabilities exist (e.g. see computational creativity, automated reasoning, decision support system, robot, evolutionary computation, intelligent agent). However, no consensus holds that modern AI systems possess them to an adequate degree.

Tosin kuten tästäkin huomaa, edes akateemisissa piireissä ei ole täysin vakiintunutta käytäntöä kaikille asiaan liittyville termeille ja niihin sisältyville edes jossain määrin testattavissa oleville vaatimuksille.

Hyvä kysymys on toki sekin, missä määrin kovin tarkasti “ihmismäisen” älyn ja tietoisuuden tavoittelu koneellisesti on edes järkevää? Missä määrin ihmisaivot ovat edes mitenkään optimaalinen työväline ajatteluun? Ja liittyykö tietoisuuden ja (teko)älyn yhdistelmään jotenkin fundamentaalisti sitten riski esimerkiksi mielenterveysongelmille? Onko mahdollista, että esimerkiksi tietoisuuden saavuttava AI on sitten varsin helposti henkisesti niin epästabiilia laatua, että jo se syö hyödyt tietoisuuden saavuttamisesta?

4 tykkäystä

Näin se on. AGI:lle ei todellakaan ole vakiintunutta, yksiselitteistä määritelmää (eihän sellaista oikein ole edes tekoälylle noin yleisestikään). Joillekin se tosiaan tarkoittaa suppeimmillaan mielivaltaisen, ennaltamäärittelemättömän tehtävän ratkaisua. Laajimmillaan täyttä autonomiaa ja tietoisuutta, mitä välttämättä ei ikinä saavuteta.

AGI:n määritteleminen esim. neuronien kautta on aivan turhaa, sillä ihmisen aivojen neuronien määrän ylittävä malli voidaan toki riittävällä laskennallisella kapasiteetilla rakentaa, mutta se ei takaa mallin “älykkyyttä” mitenkään. FFNN, joka luokittelee asioita ykköseksi tai nollaksi, ei muutu yhtään lähemmäksi AGIa, vaikka sinne tungettaisiin se aivoja vastava 100B neuronia. Lisäksi, nykyiset parhaat transformer-mallithan ovat luokkaa +1.5T parametria (toki ei ihan sama kuin neuroni) eli yli on menty jo tovi sitten.

Toisaalta taas voidaan rakentaa myös vaikkapa Mensan tapaan ÄO:ta mittaava malli esim. CNN-arkkitehtuurilla, joka toki läpäisee Mensan testin täysillä pisteillä, mutta ei ikinä toimisi esim. edes Turing-testissä tai muussa mielivaltaisemmassa tehtävässä.

Nämä ovat kaikki erinomaisia kysymyksiä. Esim. itse jättäisin edellä mainitun autonomian tai tietoisuuden kokonaan pois näistä AGI-keskusteluista. Me ihmiset sorrumme helposti antropomorfismiin sekä ajattelemaan olevamme jotenkin ylivertaisia kyvyiltämme. Mielestäni AGI tulee saavutetuksi jo paljon ennen kuin tekoäly kehittää itselleen mielenterveysongelman :slight_smile:

7 tykkäystä

Näin juuri. Jos evoluution näkökulmasta asiaa katsoo, niin ihmisen aivot ovat varmastikin optimoituneet varsin energiatehokkaiksi ja toimiviksi muutamiin asioihin: ihmiskehon hallintaan ja sellaiseen ajatteluun, abstrahointiin ja suunnitteluun, jota tarvitaan luonnossa selviämiseen. Esimerkiksi läpimurrot luonnontieteissä eivät välttämättä ole keskimäärin ihmisaivoille ihan ominta alaa, vaikka silläkin saralla on toki edetty hienoja askeleita. Mutta olisiko jollain toisella tavalla edettävissä vielä tehokkaammin?

Ja ihmisaivojen “lyhytikäisyys” voi jossain vaiheessa tulla esteeksi kehityksen etenemiselle. Tieteen eturintamaan kouluttautuminen vie jo nykyisellään merkittävän osan ihmisaivojen eliniästä. Ja oletettavasti jatkossa tehokkaita vuosikymmeniä asioiden edistämiseksi on periatteessa aina vaan vähemmän jäljellä, kun tiede kehittyy pidemmälle. Osaaminen muuttuu samalla myös kapea-alaisemmaksi, mikä voi haitata keksintöjen yhdistelyä eri eri osa-alueilta.

Esimerkiksi matematiikan saralla Hilbert ja Poincaré ovat sellaisia, että heitä pidetään yleisesti viimeisinä matemaatikkoina, jotka hallitsivat keskeisimmät matematiikan osa-alueet sen verran hyvin, että olisivat voineet kontribuoida useimpiin niistä. Tuostakin alkaa olla kuitenkin jo 100+ vuotta aikaa. Ja matematiikka ei ole tässä suhteessa ainoa ala, jossa on samaa tilanne nykyään.

Toki tämä tilanne voi korjautua, jos ylipäätään ikääntymistä saadaan hidastettua tai sen tuomia ongelmia taklattua jatkossa tehokkaammin.

Toivottavasti. Itse en ole ollenkaan varma, missä määrin esimerkiksi esimerkiksi tietoisuus ja ongelmanratkaisuun usein liitettävä luova mielikuvitus, tilanteen vaatimien abstraktioiden luominen ja mentaalisten mallien rakentaminen ovat kytköksissä toisiinsa. Voiko olla niin, että toisesta seuraa aina jollain tapaa toinen? Jos näin on, niin ei ole ehkä mahdollista kehittää kunnollista AGI:ta ilman tietoisuutta.

7 tykkäystä

Käytin muutaman tunnin lueskellessa LLM mallien käyttäjäkokemuksia. Mitä selvisi?

Ollaan tilanteessa, että on 4 hyvää ja 1 melko hyvä malli joiden kesken käyttö jakautuu. Hyvät: ChatGPT, Opus Claude, Mistral, ja Gemini. Melko hyvänä vielä LLama. Kaikille löytyi omat kannattajat käyttötapauksista riippuen.

Lisäksi eri mallien käyttö ja vertailu on helppoa. Osoitteessa https://openrouter.ai/ saat käyttöösi 120 eri mallia. Openrouter on “LLM reititin” jonka kautta voit käyttää malleja joko chatin tai API:n läpi. Firman slogan on " A unified interface for LLMs". Maksu luottokortilla ja vetävät muutaman prosentin välistä. “In cloud you pay for convenience”. Alkuun antavat yhden dollarin edestä ilmaista käyttöä joka halvimpien mallien osalta riittää hyvin kauas. Myös kuluveloituksesta jää selkeä logi.

Hetki sitten "Open"AI:n ja muutamien muidenkin LLM firmojen valuaatio oli järjetön. Mun silmissä miljadien valuaatiot LLM firmoista sulavat vauhdilla. Jos maailmassa on neljä samantasoista mallia ja toista sataa heikompaa sekä halvempaa mallia, ja jos käytössä on one-stop-shop, joka mahdollistaa mallien vaihdon vaivattomasti, niin herää kysymys: Pitäisikö miljardien valuaation mennä OpenRouter-firmalle eikä malleja takoaville firmoille?

Tätä kautta pääsee käsiksi malleihin joita ei ole Euroopassa vielä käytössä. Ainakin Claude onnistui. Saatavilla on myös malleja joita ei tarvitse jail breakata mikä saattaa selittää niiden suosiota. MythoMaxillakin rajat tuli vastaan, mutta ne ovat todella paljon kauempana kuin normatiivisilla malleilla.

Löytyy myös käyttöleaderboardia. Keulalla mallit joissa hinta-laatu suhde kohdallaan. LLama variantti MythoMax $0.25 ja Mixtral 8x7B Instruct $0.27 per miljoona tokenia. Vertailuksi GPT4-turbo $30 per miljoona tokenia.

10 tykkäystä

Oiskohan täällä jollain jotain asiantuntevaa sanottavaa tähän kommenttiini Fondia-ketjussa?

2 tykkäystä

Kuningas on kuollut! Kauan eläköön kuningas! ChatGPT siis kaadettu kuva.

Jos haluat itse osallistua kuninkaan vaaleihin niin tätä kautta pääset vaikuttamaan. https://chat.lmsys.org/
Laitat saman promptin kahdelle kielimallille ja äänestät kumpi on parempi tai tasapeli. Vastauksen jälkeen saat selville mitkä mallit oli vastakkain. Sisällä jo kohta 500k vastausta.

Mitä kuvassa oleva ELO on voittotodennäköisyyksinä. Jos vastakkain kuvan eka elo 1253 ja vika 1125. Niin shakissa todennäiköisyydet kuten alla. En tiedä miten tässä menee tasurien todennäköisyys, kun se on aina lajikohtaista.

Outcome Probability
elo 1253 win 61.1%
elo 1125 win 26.5%
draw 12.3%

Joka tapauksessa mallien erot kärjessä on pieniä.

Reddit ketju. https://www.reddit.com/r/LocalLLaMA/comments/1bp4j19/gpt4_is_no_longer_the_top_dog_timelapse_of/

@_TeemuHinkula LLM on hyvä ratkaisu bulkkikysymyksiin. Toki miten tuosta voi saada kilpailuetua, kun vapaasti saatavat mallit tekee tuota jo? Pitää olla omaa hyvää dataa piilossa tai keksiä tapa miten finetunettaa avointa mallia paremmaksi. Onko Fondialla noita?

4 tykkäystä

Ilmeisesti sitten noi lakimiestin kirjoittamat tekstit ovat niitä. En sitten tiedä kuinka kattava ja kilpailukykyinen tietokanta se on.

En katsonut Teemun viittaamaa videota, mutta vilkaisin tätä sivua, jossa Fondia itse kertoo tuotteestaan: Etusivu | MyFondia.

AI Lawyer, joka näyttäisi kai olevan se tarjooman AI-osanen, näyttäisi nojaavan Fondian lakimiesten kirjoittamiin teksteihin (ja jotka ovat jo tarjolla asiakkaille Legal Insights -nimisenä palveluna). Käytännössä todennäköisesti tuo on retrieval augmented generation -tyyppinen LLM-ratkaisu, jossa käyttäjän syötteen perusteella ensin haetaan aiheeseen liittyvät dokkarit (Legal Insightsin materiaaleista) modernilla hakuteknologialla, ja kielimallia käytetään sitten generoimaan niiden pohjalta käyttäjän esittämään kysymykseen vastauksen. Aiheesta löytyy haulla syvällisempää keskustelua tästä ketjusta jos yksityiskohdat kiinnostaa. Ei tämä mitään rakettitiedettä enää tänä päivänä ole, ja mikä tahansa firma joka haluaa “keskustella omien dokumenttiensa kanssa” voisi tuollaisen pystyttää tavalla tai toisella, mutta kyllähän tuo nyt Fondian asiakkaan näkökulmasta varmaan voi olla aikaa säästävä työkalu suoraan Legal Insightsin käyttöön verrattuna.
Sen verran hankalaksi on osoittautunut kielimallien pitäminen aisoissa (generoimatta omiaan), että voisin kuvitella tuon palvelun käyttöehdoissa olevan jonkun lausekkeen joka jättää käyttäjälle vastuun kielimallin tekemistä hölmöilyistä. Toki varmaan se vastuu Legal Insightsinkin osalta on asiakkaalla mitä tulee virhetulkintoihin :person_shrugging: Esittelystä ei ihan erota, että annetaanko tekoälyjuristin vastauksen kylkeen lähdeviitteet. Jos annetaan, käyttäjän olisi luultavasti syytä lukea ne kuitenkin läpi varmuuden vuoksi.

5 tykkäystä

AI-hypen keskellä on joskus mielenkiintoista kuunnella vajaan 30 sekunnin maailmoja syleilevän hissipuheen sijaan myös perusteellisempia keskusteluja AI:sta. Linkkasin ylle tähän ketjuun Lex Fridmanin podcastin, jossa hän haastattelee Yann LeCunia (Metan Chief AI Scientist, NYU:n professori, Turing-palkinnon saaja, …). Haastattelu on mielenkiintoinen ja sopii mielestäni hyvin ketjun aiheeseen. Ongelma tosin on se, että vajaan 30 sekunnin sijaan haastattelu kestää vajaat 3 tuntia, joten kaikilla kiinnostuneilla ei välttämättä riitä aikaa sen läpi kahlaamiseen.

Kuuntelin haastattelun läpi ja kirjailin ylös muutamia pointteja haastetteluun liittyen. Kirjailut ovat aikajärjestyksessä, joten jos jotkut kohdat tuntuvat kiinnostavilta, niin niiden perusteella voi ehkä haarukoida, mitä pätkiä haastattelusta haluaa katsoa. Aikaleimoja en valitettavasti tullut keränneeksi. Lisäksi jotkut listan kohdista saattavat olla hieman irrallisen oloisia ja tuntua olevan vailla kontekstia, mutta se lienee ymmärrettävää, kun yrittää tiivistää 3 tunnin haastattelun muutamaan bullettiin. Myös redundanssia on listassa jonkin verran.

Keskeiset pointit:

  • Nykyiset LLM:n kaltaiset ratkaisut eivät tule johtamaan mihinkään yleiseen älykkyyteen, koska niistä puuttuvat keskeiset yleiseen älykkyyteen vaadittavat ominaisuudet: kyky ymmärtää fyysistä maailmaa, kyky muistaa ja palauttaa mieleen asioita, pysyväismuisti sekä kyky järkeillä ja suunnitella. Sikäli kun näitä asioita jossain määrin on, ne ovat hyvin primitiivisellä tasolla.
  • Ongelmat ovat lähtökohtaisesti fundamentaaleja eivätkä ole LLM:n arkkitehtuurin osalta korjattavissa.
  • Kuriositeetti: Vaikka LLM:t on opetettu äkkiseltään suunnattomalta tuntuvalla aineistolla (kaikki internetistä saatavilla oleva teksti, n. 10^13 tokenia, n. 2*10^13 tavua), niin toisaalta 4-vuotias lapsikin on pelkästään näköaistinsa kautta saanut jo aivoilleen opetusinformaatiota huomattavasti enemmän (n. 10^5 tavun edestä). Määrällisesti suurin osa ihmisen oppimisesta tapahtuu kontaktissa reaalimaailmaan, ei tekstin välityksellä. Toki huomattava, että aistivaraisessa informaatiossa on paljon redundanssia, mutta jossain vaiheessa myöhemmin spekuloitiin, että tämä saattaa olla jopa hyväksi oppimisprosessille.
  • Syvällinen filosofinen kysymys, onko maailmasta ylipäätään opittavissa “älykkyyden pohjaksi” riittävästi pelkkää kieltä / tekstiä tutkimalla. LeCun on sitä mieltä, että kosketus tosimaailmaan tarvitaan ja pelkkä kieli ei riitä. Suuri osa älykkyyteen liittyvästä toiminnasta on kytköksissä sellaisten mentaalisten mallien rakentamiseen, että niillä ei välttämättä ole paljoakaan tekemistä tekstuaalisen esityksen kanssa. Toisen suuntaisiakin näkemyksiä asiasta on.
  • Keskustelua siitä, miten nykyiset autoregressiiviset LLM:t toimivat ennustamalla aina seuraavaa sopivaa tokenia jakaumien avulla. Fundamentaali ero ihmisen kielentuottoprosessiin, jossa ajattelu tapahtuu usein ensin abstraktimmassa muodossa mentaalisten mallien avulla ja vasta ajattelun lopputuloksen perusteella muodostetaan sanat, jotka kuvaavat ajatteluprosessia tai sen lopputulosta.
  • Pelkästään kielen perusteella, sanoja ennustamalla toimivaa mallia maailmasta ei todennäköisesti ole rakennettavissa, koska sanoiksi puettu kieli välittää liian vähän informaatiota kunnollisten mallien tuottamiseksi. Kunnollisen mallin tekeminen edelyyttäisi maailman havainnointia ja vuorovaikutusta maailman kanssa ja näistä havainnoista oppimista.
  • Kommentteja videoiden tuottamisen vaikeudesta. LLM:n kaltaisen opettamisen / ennustamisen käyttö (self supervised learning with reconstruction) vaikeaa, koska ei ole käytössä analogisia, hyviä tunnettuja menetelmiä korkeadimensioisten ja jatkuva-arvoisten avaruuksien ennustamiseen. Tekstissä diskreetti käytössä huomattavasti matalammat dimensiot ja diskreetti esitys. Videolla esimerkkejä aiheesta.
  • JEPA (joint embedded predictive architechture) kuvadatan opettamisessa, kuvailua korkealla tasolla. Yhdenlaisia hieman korkeamman tason abstraktioita kuvasisällöstä, joita on helpompi ennustaa yksittäisten pikselien sijaan.
  • Miten voidaan saada (self supervised) järjestelmät oppimaan, miten maailma toimii sensorisyötteen avulla? Esimerkiksi eläimet oppivat maailman toiminnasta paljon ilman kieltä. Jos tällainen järjestelmä saataisiin tehtyä ja se voitaisiin yhdistää kieltä osaavaan järjetelmään, joka pystyisi käymään läpi kaiken mahdollisen tekstimuotoisen materiaalin, niin se olisi kova juttu.
  • JEPA-arkkitehtuurien käyttö videoissa korkealla tasolla.
  • Voisiko tämän tyyppinen arkkitehtuuri tuottaa esimerkiksi ratkaisun, joka voisi ymmärtää tarpeeksi maailmasta esimerkiksi auton ajamisen tarpeisiin? LeCunin mielestä mahdollisesti kyllä, mutta kestää vielä aikansa ennen kuin sellaiseen päästään. Periaatteessa mahdollista pyrkiä tuottamaan yksinkertaisia suunnitelmia yksinkertaisille fysikaalisille (opituille) malleille → Merkittävä ero LLM:n kaltaisiin ratkaisuihin.
  • Yhtään monimutkaisempien asioiden suunnittelun automatisointi vaatii hierarkista suunnittelua. Esimerkkinä fyysinen matkustaminen toimistosta Pariisiin, joka pitää pilkkoa hyvin monella abstraktiotasolla osatehtäviin, jotta se on järkevästi suoritettavissa. Lisäksi etukäteisuunnittelua ei voi tehdä matalimmalla tasolla liian aikaisin, koska tarvittava informaatio suunnitteluun selviää käytännössä vasta suunnitelmaa suorittaessa. Tällä hetkellä hierarkinen suunnittelu on Lecunin mukaan sellainen asia, jota kukaan ei oikein osaa tehdä AI:lla. Kukaan ei siis osaa opettaa AI:ta siten, että se oppisi itsenäisesti monitasoisia abstraktioita, joita suunnitelman tekeminen ja toteuttaminen vaatisi.
  • LLM:ien kehityksessä on yllättänyt se, miten paljon ne vaikuttaisivat “ymmärtävän” kielestä asioita, kun mallia skaalataan tarpeeksi suureksi ja sitä opetetaan riittävän suurella aineistolla.
  • Koska LLM:t tuottavat sujuvan tuntuista kieltä, päädymme helposti ajattelemaan, että järjestelmän täytyy olla jotenkin vertautuva ihmisälykkyyteen. Tämä on LeCunin mukaan kuitenkin virhepäätelmä.
  • On tärkeää ymmärtää, mihin LLM:n kaltaiset mallit pystyvät ja mihin ne eivät pysty.
  • LLM:n kaltaisia generatiivisia malleja käyttäen ei todennäköisesti pysty oppimaan hyviä malleja maailmasta. Jos haluaa ihmistasoisen AI:n, generatiivinen AI ei todennäköisesti ole tähän hyvä lähtökohta.
  • Hallusinointi on sisäänrakennettu ongelma LLM:n tyyppisissä järjestelmissä: Koska autoregressiivisessä ennusteessa seuraava token valitaan aina jakaumasta edellisen tokenin perusteella, jokaisella tokenilla on jonkinsuuruinen mahdollisuus ajautua järkevien vastausten joukon ulkopuolelle. Mitä enemmän outputissa on tokeneita, sitä varmemmin törmätään jossain vaiheessa hallusinointiin ja tämä divergenssi kelvollisesta vastauksesta on eksponentiaalista suhteessa outputin tokeneiden määrään. Tämä ei ole korjattavissa, vaan on fundamentaali ongelma LLM:ssä.
  • Hallusinoinnin ongelmia voidaan vähentää esi-opettamalla tai hienosäätämällä järjestelmää yleisimmin esitetyille kysymyksille, mutta lopulta aina on mahdollita opettaa tai hienosäätää vain häviävän pieni osa mahdollisista syötteistä.
  • LLM:ssä tapahtuva “päättely” on pakostakin hyvin rajoittunutta ja tästä evidenssinä esitetään se, että käytettävän laskennan määrä per token on vakio. Eli asiasisällön monimutkaisuus ei vaikuta per token käytettyihin laskentaresursseihin mitenkään. Siispä sisällön puolesta yksinkertaiset, monimutkaiset ja jopa mahdottomat kysymykset ovat saman arvoisia ja tarvittavan laskentaresurssin määrä tulee suoraan outputin tokenien määrästä.
  • Järjestelmät, jotka muodostavat “ajatuksen” vastauksesta konseptitasolla ja vasta sen jälkeen vastauksen, ovat ehkä tulossa lähivuosina, mutta tulevat olemaan rakenteeltaan ihan erilaisia kuin nykyiset autoregressiiviset LLM:t. Tähän liittyen korkean tason keskustelua “ajatuskonseptien” tavoitefunktioista ja niiden optimoinnista.
  • Kunnollinen tapa opettaa järjestelmiä tulisi perustua ensisijaisesti representaatioiden ja maailmamallien muodostamiseen pääasiassa havaintojen ja jossain määrin vuorovaikutuksen kanssa.
  • Onko mahdollista tuottaa AI-järjestelmä, joka ei ole yhtään biasoitunut? LeCunin mielestä ei. Bias on “katsojan silmässä” ja niin kauan kuin AI-järjestelmä ottaa jotenkin kantaa muuhunkin kuin koviin faktoihin (esim. mielipiteisiin), niin bias on väistämätön.
  • Ratkaisuksi biasoitumiseen LeCun ehdottaa AI-järjestelmien monimuotoisuutta (useita erilaisia järjestelmiä, erilaisilla kriteereillä rakennettuja), vertaa tätä mm. sananvapauteen. Ei ole hyvästä, jos kaikki informaatio tulee yhdestä lähteestä.
  • Alamme olla sellaisen aikaukauden kynnyksellä, jossa lähes jokainen interaktiomme digitaalisen maailman kanssa kulkee jonkinlaisen AI-järjestelmän kautta.
  • Ei ole varaa antaa AI-järjestelmien keskittyä pelkästään muutamien USA:n länsirannikon yritysten käsiin. Tässä ratkaisuksi esitetään avoimen lähdekoodin järjestelmiä, joita kuka tahansa voi hienosäätää ja viritellä.
  • LeCunin visio on, että tulevaisuudessa suurin osa AI-järjestelmistä rakennettaisiin open source ratkaisujen päälle.
  • Keskustelua AI:n biasoitumisesta ja siitä, millaista tasapainoilua AI:n virittely on, kun pitäisi olla korrekti kaikkiin suuntiin ja yrittää miellyttää kaikkia.
  • Jotain visioita Metan LLaMa -mallin tulevaisuuden kehityksestä. LeCun ei osaa ennustaa, milloin esimerkiksi suunnittelua vaativaan ongelmanratkaisuun kykenevä ja maailman toimintaa oikeasti ymmärtävä malli olisi käytettävissä, koska sellainen vaatii vielä useita R&D-läpimurtoja. LeCunin veikkaus on, että tällaiset mallit tulevat olemaan jotain JEPA-arkkitehtuurin tyylistä, mutta tämä on toki tässä vaiheessa spekulaatiota.
  • LeCunin mielestä ihmistasoiseen tekoälyyn pääseminen voi olla mahdollista jollain aikavälillä. Edelleen hänen mukaansa ollaan vielä kaukana “ihmisaivojen” laskentatehosta (ei tarkemmin määritelty metriikkaa tähän) ja hänen mukaansa ehkä seuraavan parin kymmenen vuoden aikana tähän voidaan päästä. Ja erityisesti energiatehokkuuden näkökulmasta ollaan erittäin kaukana ihmisaivojen tehokkuudesta.
  • Tehokkuuden parantamisessa voidaan jatkaa vielä jonkin matkaa nykyisellä tiellä ennen kuin homma saturoituu ja pitää kehittää ihan uudenlaisia periaatteita ja valmistusmenetelmiä.
  • Erityisesti energiatehokkuuden osalta mainittu kuriositeetti, että yksittäinen GPU tarvitsee n. puolesta 0,5-1 kW teholla energiaa, kun taas ihmisaivot vaativat vain n. 25 W. Ja GPU:ita tarvitaan järkyttävä määrä, jotta päästään ihmisaivojen tasolle AI-ratkaisuiden kanssa.
  • LeCunin mukaan AGI:hin on vielä pitkä matka. AGI:n keksiminen ei kuitenkaan tule olemaan yksittäinen tapahtuma vaan pidemmän tähtäimen vaiheittainen kehitys. Arviolta kehityksessä menee vähintään vuosikymmen, mutta mahdollisesti paljon pidempäänkin. R&D-ongelmia on ratkottavaksi useita ja kaikkia matkan varrella vastaan tulevia ongelmia ei vielä tetenkään edes tiedetä.
  • Keskustelua älykkyyden mittaamisen ongelmista - ei triviaalia, kuka/mikä oikeastaan on toista älykkäämpi ja millä tavalla.
  • LeCun on eri mieltä AI-doomereiden kanssa, eikä odota lähtökohtaisesti ihmiskunnan tuhoa tilanteessa, jossa AGI saadaan lopulta aikaan.
  • Loppupuolella paljon enemmän yleistä pohdintaa keskustelua AI:n tiimoilta. Hyvä AI vastaan paha AI yms.
  • Humanoidiroboteista: LeCun arvelee, että ensi vuosikymmen tulee olemaan mielenkiintoinen humanoidirobottien näkökulmasta. Edellytyksenä kunnollisille humanoidiroboteille on se, että nillä pystytään oppimaan “maailmamalli” ja fysikaalisen maailman kanssa tapahtuva vuorovaikutus varsin pienellä opetusmateriaalin määrällä. Esimerkkinä Level 5 FSD pohjana oleva AI, joka pystyisi muutaman kymmenen tunnin opetuksen perusteella oppimaan auton ajamisen kuten kuka tahansa ajokorttia suorittava teini.
  • Summausta avoimista ongelmista. Niitä käyty jo edelläkin läpi, mutta fokus siinä, miten AI:n voisi saada itse oppimaan hierarkista suunnittelua, jota ei ole mitenkään manuaalisésti tuunattu. Tämä on yksi keskeisimmistä kysymyksistä, jotta päästään eteenpäin yleisemmän AI:n suuntaan ja LeCunin mukaan tästä ei ole olemassa vielä ensimmäistäkään demonstraatiota.
  • LeCunin mielestä AI:lla voidaan parantaa koko ihmiskunnan älykkyyttä ja lopulta jokainen yksittäinen ihminen voi hyötyä siitä, että pääsee käskyttämään AI-apulaisia erilaisten asioiden aikaansaamiseksi.
  • LeCun vertaa AI:n kehittämistä ihmiskunnan historiassa kirjapainojen keksimiseen merkittävyydeltään ja tiettyjen muiden samankaltaisuuksien osalta.
51 tykkäystä

3Blue1Brownilla on uusi video siitä miten transformerit toimii (osa 5 AI-videosarjassa mutta edeltãvien katsominen ei ole välttämätöntä):

4 tykkäystä

Uusia malleja putkahtelee kuin sieniä sateella (alla).

Databricks julistautuu open source mallien kuninkaaksi DBRX mallillaan.

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

Toisaalla taas Cohere Command R+ väittää tarjoavansa “biggest bang for the buck” enterprise sovelusten osana.

On omien tulosten mukaan on ykkönen Berkley Function call benchmarkissa joka relevantti siinä miten hyvin LLM pystyy käyttämään muuta softaa.
https://gorilla.cs.berkeley.edu/blogs/8_berkeley_function_calling_leaderboard.html?ref=txt.cohere.com

Olisi mukava saada hyötyjä pikkuhiljaa sinne enterprise sovelluksiin. Edelleen joudun hakkamaan kaikkea roskaa SAPpiin sen sijaan että LLM tekisi sen. Vai onko se niin että LLM:t tekee mun työn hauskat jutut ja mulle jää vain SAP.

Kaikki käytettävissä OpenRouterin kautta.

2 tykkäystä

AI tekee kaikki hauskat asiat.

25 tykkäystä

Meta julkaisi vihdoin Llama 3!

Alustavat tulokset vaikuttavat loistavilta :grin: :+1:

kuva

5 tykkäystä

Kanavalta löytyy myös “series” neuroverkoista, joita nämä transformeritkin ovat. Hyvin selitetty ja visualisoitu perusteet aiheesta :+1: Vaatii toki matematiikan ymmärrystä, että kaiken saa irti ja ymmärtävällekin kerroksia riittää opeteltavaksi, mutta hienoa sisältöä yhtä kaikki.

Jenkkien hallinto rakentelee lisää kaupan esteitä:

https://www.reuters.com/technology/us-eyes-curbs-chinas-access-ai-software-behind-apps-like-chatgpt-2024-05-08/

WASHINGTON, May 8 (Reuters) - The Biden administration is poised to open up a new front in its effort to safeguard U.S. AI from China with preliminary plans to place guardrails around the most advanced AI Models, the core software of artificial intelligence systems like ChatGPT, sources said.

The Commerce Department is considering a new regulatory push to restrict the export of proprietary or closed source AI models, whose software and the data it is trained on are kept under wraps, three people familiar with the matter said.

Ensin viedään Kiinalta AI-piirit ja seuraavaksi blokataan AI-softan myynti.

Saattaa myös tuoda kiinnostavia ongelmia open source-mallien kanssa jos tulee rajoituksia minne niitä saa viedä.

6 tykkäystä