ChatGPT, muut kielimallit ja tekoäly

Avokado · Toukokuu 30, 2023, 4.14am

Nämä firmat ovat olleet hyvin hiljaa siitä mitä dataa on käytetty. Kaikki kysymykset aiheesta on kategorisesti väistetty. Koska ollaan niin hiljaa, herää kysymys, onko tässä jotain joka ei kestä päivänvaloa. Kts alla. Jotain lakijuttuja jo vireillä.

Mun päässä lause disclose copyrighted material sisältää vain listan teoksista jotka ovat mukana training datassa. EU virkamiesten onglema on sitten etsiä kyseinen teos itselleen.

Onko copy righted materiaalin käyttö treenauksessa OK? No toivon että EU ja USA löytää yhteisen linja.

Sam Altamnin todistus kongresissa jossa huudeltiin regulaation perään näyttäytyy erikoisessa valossa.

OldFeki · Toukokuu 30, 2023, 4.32am

Melkoinen dilemma. Tekoälyn pitäisi siis kerätä tietonsa jostain muualta, kuin tekijänoikeuksilla suojatusta aineistosta. Lopulta netistäkin löytyvä data periytyy pääosin tekijänoikeuksien alaisesta materiaalista. Pitäisikö jokaisen maisterinkin maksaa loppuikänsä tekijänoikeuksien alaisen opiskeluaineiston käytöstä?

Eikö tekoälybusineksen tuotoista voisi lohkaista jokusen prosentin etujärjestöjen jaettavaksi tai jakaa suoraan “artisteille”, joiden aineistoa on käytetty? Sellaiseen Spotify-tyyliin? Suomi voisi olla tällaisen kehityksen uranuurtaja – jos täällä jotain osataan, niin ainakin verottaa niin maan perkeleesti …ja säädellä säätelyn ilosta, jotta virkamiehillä olisi töitä.

Koko ihmiskunnan kannalta on tärkeää, että tällainen työkalu saisi käyttöönsä mahdollisimman laajan materiaalin etenkin silloin, kun tekoäly viimein kehittyy yleisen tekoälyn tasolle.

Keskustelu regulaatiosta on toistaiseksi vinksahtanutta. Tekijänoikeudet kiinnostavat enemmän, kuin tekoälyn kehityksen seuraukset yhteiskunnassa ja niihin varautuminen. Ehkä robotit ja tekoäly pitäisi saada tavalla tai toisella verolle, jolla ihmisten syrjäyttäminen maksetaan. Eihän tämä muuten voi kovin hyvin päättyä.

_neuvottelija_Sami_M · Toukokuu 30, 2023, 6.32am

Tekoäly käyttöön Cloud1 Vuo AI Harri Puupponen Pasi Jokinen #neuvottelija 189 - jaksoni kiinnostuneille.

Harri Puupponen Cloud1 ja Pasi Jokinen Vuo AI keskustelevat AutoGPT:stä, ChatGPT 3.5 ja 4.0:sta, Microsoftin OpenAI-strategiasta sekä miten suomalaisyritykset ja suomalaiset voivat ottaa tekoälytyökalut käyttöön.
00:00 WhatsApp-valmistautuminen #neuvottelija-jaksoon ChatGPT4.0 :n analyysi siitä
00.26 ChatGPT 4.0 kysymys 1 Pasi Jokiselle ja
01:35 Pasin oululainen Tere Sammallahti-ystävyys
02:38 Volandin sijoitus Harri Puupposen Cloud1 yhtiöön. ChatGPT 4.0 kysymys 1 Harrille
04:14 Ovatko Microsoftin pilvipalvelukumppanit nyt tekoälybuumin harjalla OpenAI-panostuksen vuoksi?
05:50 ChatGPT 4.0 kysymys 2 Pasi Jokiselle
09:04 ChatGPT 4.0 kysymys 2 Harri Puupposelle
11:57 #neuvottelija-tietouden ja Uusi neuvotteluvalta (WSOY) kirjan opettaminen tekoälylle
14:49 suljettu tekoäly vai verkottautunut yhteystyö?
16:17 Luottamustilin konsepti tekoälyhteistyössä
18:03 Tekoälyjen tekoäly eli AutoGPT
20:15 Voittiko Microsoft sattumalta tekoälypelin OpenAI-sijoituksella. Jopa bingaus toimii!
22:18 Loppuuko API-kapasiteetti kun kaikki käyttävät ChatGPT -kaistaa?
24:43 Onko oikein puhua tekoälyn hallusinoimisesta?
26:42 Tekoälyn rajoitukset ja todennäköisimmän sanan ongelma
29:42 Kannattaako edes yrittää tehdä omia kielimalleja? Case #neuvottelija-GPT
34:27 Tekstistä kuviin ja ääneen, ilmeisiin ja eleisiin
39:15 Älykkäät agentit ja luottamusverkostot
40:30 Yrityskauppaneuvottelut - Bengt Holmströmin huomio täydellisestä avoimuudesta due diligencen kautta, clean roomit tekoälyllä
45:10 Luottamus taas kerran
47:30 Blackstonen globaali toimitusjohtaja ja tekoälyn playbookit
52:01 Microsoft Officen tekoäly - klemmarin paluu
53:35 PowerBI ja data-analytiikka tekoälyn kynsissä
57:12 Tekoäly korvaa täydellisesti kadonneen huomiokyvyn
57:30 Mistä hardware kaikkeen tähän - nVidia ja Edge computing
01:00:24 Cloud1:n palvelut
01:01:29 Vuo AI:n palvelut
01:02:42 Outro

Teen varmasti uusiakin jaksoja, joten kommentit kelpaisivat, erityisesti GPT-mallitetun #neuvottelija:n suhteen

Avokado · Toukokuu 30, 2023, 7.29pm

Tekoäly ei tee aineistosta kopiota kuten ei tee maistiopiskelijankaan hermoverkko. Molemmat säätävät verkoissa olevia yhteyksiä ja painoja. Ne eivät myöskään pysty tai ainakaan niiden ei pitäisi pystyä tuottamaan mistään teoskappaleesta täydellistä kopiota. Tällä perusteella tekijänoikeutta ei olisi rikottu.

Tuntuisi omituiselta että ihmistä saisi kouluttaa tekijänoikeuden alaisella materiaalilla kuten vaikka oppikirjoilla. Mutta jos samalla materiaalilla koulutetaan keinotekoista hermoverkko sitten siitä tulee rikos.

Pahaa pelkään että tässä käy juuri kuten ennustat ja hommat hoidetaan Kiinassa. Milloin on joku tuomio tai uusi lainsäädäntö mennyt toisin kuin tekijänoikeusfirmat haluavat? Katsokaa vaikka tekijänoikeuksien kestoa. Miksi tekijänoikeus on 75 vuotta tekijän kuoleman jälkeen mutta patentti vain 20 vuotta hakemisesta. Tämän voi nähdä taitelijat vs insinöörit asetelmana. Toistaiseksi taitelijoista verensä imevä juristiarmeija on pärjännyt paremmin kuin teknologiajuristit.

Seppo_h · Toukokuu 31, 2023, 9.38pm

No koska tekijänoikeus on riippuvainen siitä million Walt Disney kuoli. Disneylle iso ongelma kun Steamboat-Willie on public domain 2024 alkaen. Ehkä tuo vielä saadaan ratkaistua Disneyn voitoksi.

eesau · Kesäkuu 1, 2023, 3.41am

Vertailu ihmisten opiskeluun on kyllä relevantti, mutta toisaalta käytäntö on todistanut että kielimalli saattaa oppia pitkänkin pätkän tekstiä siinä määrin sanasta sanaan, että se pystyy sen myös toistamaan (mutta ei kerro että kyse on suorasta lainauksesta). Periaatteessa kai, sikäli kun neuroverkkojen toimintaa ymmärrän, tuollaista ei pitäisi voida tapahtua useamman virkkeen mitassa jos mallia ei ole yliopetettu (ts. koulutusaineisto on riittävän massiivinen suhteessa neuroverkon kokoon, tai ainakaan koulutusta ei ole tehty liian pitkään), mutta muistelisin mediassa olleen joitain tällaisia tapauksia. Copilot ainakin muistaakseni tarjoili kopiota jostain koodinpätkästä kun sopivasti kysyi (edit: paitsi että tässähän ei ole tekijänoikeusongelmaa Copilotin osalta, kuten Jarkko minulle huomautti alla).
Siinähän ei sinänsä ole mitään ongelmaa tekijänoikeuksien kannalta, että joku tai jokin oppii täydellisesti jonkun teoksen. Ongelma tulee siinä, jos sen teoksen kopion esittää omanaan (ja pahentaa asiaa tekemällä tällä vielä rahaa). Eli, jos AI vain osaisi toimia tekijänoikeuslainsäädännön mukaisesti, tässä ei olisi ongelmia.

Edit: GTP:n kyvystä toistaa koulutusaineistoa:

fuzzyScrub · Kesäkuu 1, 2023, 6.31pm

Täällä ei vielä tainnut olla linkkiä Microsoft Buildissa Andrej Karpathyn pitämään puheeseen - State of the GPT. Suosittelen lämpimästi. Teknisen jargonin lisäksi mielenkiintoinen osio oli LLM mallien ja ihmisen ajatusprosessin vertailu tekstin tuottamiseen. Linkki ajoitettu alkamaan kyseisen osion tienoilta.

eesau · Kesäkuu 2, 2023, 4.14am

Joo, olet kyllä oikeassa oikaistessasi sanomaani siitä että open source -koodin kopiointi ei ole tekijänoikeusrikkomus.Sitä koodia lukea ja käyttää, mutta alkuperäisen koodin lisenssi voi kyllä sanella ehtoja sille jatkokäytölle. MIT-lisenssi on yksi niitä “helppoja” siinä mielessä että viittaus alkuperään riittää. Mutta GPL-lisensseillä on “tartuttava” vaikutus (nimenomaan GPL, ei LGPL), että jos otat GPL-lisensoitua koodia tuotokseesi, sinun kuuluu lisensoida myös osa tuotoksesi GPL:nä. Tämä tietysti on kuitenkin koodi käyttäjän ongelma, ei koodia tarjoilevan AI:n.

Ts. sekoitin tuossa kahta ongelmaa, LLM:n tuotoksen tekijänoikeusongelmat sekä LLM:n tuottoksen jatkokäytön ongelmat. Jälkimmäinen ei tietysti pitäisi olla mikään syy pyrkiä rajoittamaan AI:ta, koska sama ongelma on ihmisen googlatessa netistä tietoa tekstin tai koodin kirjoittamisen avuksi.

Lisäsin ylempään viestiini (jottei se jäisi pelkiksi hihasta ravistetuiksi väitteiksi) pari viittausta paperihin joissa on tutkittu GPT-2:n,ChatGPT:n ja GPT-4:n kykyä plagioida tekijänoikeuksien alaista materiaalia. Näissä ei uutisia viimeisen puolen vuoden aikana seuranneelle kyllä ole mitään uutta varmaankaan.

OldFeki · Kesäkuu 2, 2023, 12.11pm

AI:n kehitysvauhti on nyt todella kova. Teknologiassa ei olla otettu erityisiä harppauksia, mutta sen hyödyntämisessä sitäkin enemmän. Vaikka seuraan tapahtumia lähinnä sivusta en lainkaan ihmettele, miksi Nvidian ja AMD:n oletetaan pärjäilevän varsin mukavasti AI-piirikysynnän kasvaessa. Tätä menoa Intelkin ehtii mukaan…

Lähdin seuraamaan Hasan Toor:ia jokin aika sitten. Softainsinöörin taustalla kaverilta syntyy todella laadukasta settiä AI-aiheen ympäriltä. Tällä kertaa hän on listannut mielenkiintoisia AI-työkaluja.

Hasanin ja monen muun edesottamuksista voi vetää johtopäätöksen, että AI vaikuttaa jo nyt – vähitellen – moneen asiaan. Sen ensimmäinen näkyvä hyöty tulee olemaan kaikenlaisen kehityksen nopeutuminen – erityisesti softakehityksen. Vaikuttaa siltä, että softan laatu ei nykyisellään ole järin korkea, joten ei kai laatukaan paljon huonommaksi voi mennä.

Juuri eilen kirosin taas talouteni TV-laitteiden käyttöliittymiä ja toimintaa kovaan ääneen. Sellaista keskeneräistä kökköä, että oksat pois. Eikä takuulla millään muotoa tietoturvallista, jos perustoiminnotkin, kuten mediasoitin, prakaavat. Eikä väliä onko LG vai Samsung – lapsellisia bugeja molemmissa. No, mutta se on toinen juttu.

Roope_K · Kesäkuu 2, 2023, 12.38pm

En tiedä, mitä tarkoitat teknologialla, mutta jos sillä tarkoitetaan esim. tekoälymalleja ja -algoritmeja, niin olen tosi eri mieltä. Siitä asti, kun Metan LlaMa vuosi ulos, on tekoäly ottanut teknisellä puolella aivan järkyttäviä harppauksia ihan parissa kuussa. Esim. tänne Huggingfacen tutkimuskantaan tulee melkein päivittäin toinen toistaan mullistavampia papereita ihmeteltäväksi (Daily Papers - Hugging Face). Perässä ei meinaa pysyä, vaikka työn puolesta tarve olisikin.

Näiden mullistusten myötä esim. GPT3-tasoinen tekoäly on saatu puristettua toimivaksi esim. ensin Raspberryllä Pillä ja vähän sen jälkeen jopa puhelimen CPU:lla.

Nämä siis ihan vain pari esimerkkiä generatiivisen tekoälyn ns. teknologisesta kehityksestä, jolla on myös esim. Nvidian ja muiden hardisvalmistajien näkymien kannalta ihan järisyttäviä vaikutuksia.

OldFeki · Kesäkuu 2, 2023, 12.47pm

Se on kuitenkin edelleen GPT-3. Sitä lähinnä tarkoitin, että ei tässä mitään uusia kielimalligeneraatioita olla ehditty suoltaa ulos, vaan kyse on pohjimmiltaan vanhaan perustuvasta parantelusta ja kehityksestä. Siinä vauhti on kova.

OldFeki · Kesäkuu 2, 2023, 1.57pm

EU:ssa suurin huolenaihe liittyen AI-teknologiaan vaikuttaa olevan tekijänoikeudet, mutta kaikenlaista pientä pohdittavaa aiheen ympärillä on siellä ja täällä. On päivänselvää, että teknologiassa piilee myös suuri vaara.

OldFeki · Kesäkuu 3, 2023, 5.08am

Washington Post on tehnyt jutun parista ihmisestä, jotka ovat menettäneet (kirjoitus)työnsä ChatGPT:lle. En usko ChatGPT:n olevan valmis korvaamaan ihmisiä tällaisissa töissä, mutta joissain tapauksissa työnantajat ovat jo valmiita kokeilemaan ihmisen korvaamista. Voihan tällainen toimiakin, jos lopputuloksen kanssa ei ole ihan niin pilkun päälle. Tämän hetken tilannetta enemmän mietityttää se, mikä tilanne on parin vuoden päästä.

Esimieheni vuosikymmenten takaa, jonka muuten palkkasin myöhemmin itse toiseen firmaan paljon paljon myöhemmin, vakuutteli minulle aikoinaan, että koodauksen opiskelu ei kannata, sillä intialaiset vievät kaikki työt. Olin asiasta eri mieltä. No, intialaiset kyllä yrittivät viedä työt, mutta yrityksissä huomattiin nopeasti, että kalliimmaksihan se show tuli kuin suomalaisten koodarien palkkaaminen.

Nyt olen itse vakuuttunut siitä, että ChatGPT ja vastaavat työkalut tulevat muuttamaan työmarkkinoita nopeasti. Jokaisen koodaajan pitäisi osata käyttää näitä työkaluja tehokkaasti pärjätäkseen tulevaisuuden työmarkkinoilla. Mennee vuosi tai pari, mutta näiden työkalujen käyttö tullee erottamaan työlliset työttömistä. Ja entäpä vaikka softatestaus? Se on jo pitkälti automatisoitu, mutta onko siihen liittyviä työtehtäviä ihmisille enää lainkaan muutaman vuoden päästä? Tilanne muistuttaa siirtymistä käsin tehdyistä piirustuksista CADin käyttöön. Muutama vuosi siihen meni ja teknisten piirtäjien ammattiryhmä katosi kokonaan. Suurin ero on siinä, että tällä kertaa teknologiamurroksessa lukuisat erilaiset ihmisten työpaikat ovat uhattuna.

Ja kirjoittamistyöt… toimittajan työt, mainokset, esitteet ja brosyyrit, erilaiset kuvitukset ja grafiikat… Eivät ne varmasti kokonaan katoa, mutta vähenevät sitä mukaa, kun tekoäly kehittyy. Yksi kaveri voi erilaisten AI-työkalujen avulla tehdä viiden tai kymmenen kaverin työt. No, vielä ei olla siinä pisteessä, mutta ehkei kannata olla housut kintuissa silloin, kun se hetki koittaa.

Juurikki · Kesäkuu 3, 2023, 8.47am

Huono muisti AI-jailla. Oli jo unohtanut Juurikin.

Jännä juttu ja yhteensattuma, että alkuvuodesta Juurikki kyseli samaa asiaa ja silloinkin, kuten yllä olevassa vastauksessa Juurikki sai kuulla, ettei olekaan lehmä, vaan söpö pikku pupu.

Mistä AI-jai on saanut päähänsä, että Juurikki seikkailisi myös Jäniksen vuosi -romaanissa ja elokuvassa? Ehkäpä siitä, että Juurikki huomioi kevättalvella Japanissa alkavan jäniksen vuoden lähettämällä linkin Jäniksen vuosi -elokuvaan englanninkielisellä tekstityksellä. Lähetys tapahtui molemmissa päissä salatulla Whatsäpillä. Aika epeli tuo AI-jai!

Vai voisiko sen pupun nimi ihan oikeasti olla Juurikki?

Kyhnykeisari · Kesäkuu 3, 2023, 9.06am

Tuo työmarkkinan kehitys on jo kovaa vauhtia käynnissä. Ei ChatGPT täysin ihmistä korvaa, mutta nimenomaan ChatGPT:n ja yhden ihmisen yhdistelmällä pystyy nykyään tekemään useamman ihmisen työt. Itselläkin käsissä tilanne että aiemmin oli tarve kokeneelle sisällöntuottajalle joka osaa luoda tekstiä tyhjälle sivulla, mutta tällä hetkellä tarve kohdistuu ihan erilaiseen osaamiseen.

Niille jotka tuon uuden teknologian ottavat haltuun kunnolla on takuulla töitä vielä pitkään, mutta niille jotka eivät “tähän humputukseen” lähde mukaan en pysty povaamaan kovinkaan valoisaa tulevaisuutta.

Tässä videolla esimerkiksi luotiin 146 artikkelia Wordpressiin muutaman minuutin työllä. Toki nämä pitäisi vielä ihmisen viimeistellä, jotta ajaisivat kunnolla tarkoituksensa. Hieno osoitus kuitenkin siitä kuinka sisällöntuottajan tarve on muuttunut enemmänkin tyhjästä luojista siihen että viimeistellään ja täydennetään aihioita.

OldFeki · Kesäkuu 3, 2023, 9.10am

Hmm… Olen kirjan lukenut pariinkin otteeseen ja olen 99% varma siitä, että päähenkilö Vatasen pupun nimeä ei kirjassa mainita. Kai se sitten voi olla vaikka Juurikki.

Roope_K · Kesäkuu 3, 2023, 9.13am

No tämä on about sama kuin sanoisi, ettei internet ole kehittynyt 40 vuodessa mihinkään, kun käytössä on edelleen TCP/IP-protokolla, johon on vain tullut parannuksia.

Toisin sanoen alla olevan arkkitehtuurin ja algoritmiikan (transformer-arkkitehtuuri) ei tarvitse välttämättä muuttua yhtään mihinkään vuosikymmeniin ja silti kehitys sen päällä voi olla aivan huikeaa. Ainakin itse olettaisin, että transformerit pysyvät NLP:n vallitsevana paradigmana tästä pitkälle tulevaisuuteen, mutta se ei tarkoita, etteikö kehitystä tapahtuisi.

OldFeki · Kesäkuu 3, 2023, 9.19am

No ei se nyt kyllä ihan sama asia ole. TCP/IP -protokolla tarjoaa perustan vaikkapa web-palvelimille ja käyttöjärjestelmille, jotka sopisivat tällaiseen vertailuun paremmin, sillä nekään eivät puolessa vuodessa miksikään muutu.

En jaksaisi tästä asiasta jäädä jankkaamaan. Koko kirjoitukseni ydinhän oli, että muutosvauhti on kova ja jäit väittelemään siitä, mikä tämän alustateknologian muutosnopeus on. Se ei ole ehtinyt muuttua miksikään ChatGPT:n julkaisusta. Päälle rakennetaan sen sijaan vaikka ja mitä.

AGI:n merkittävään kehitykseen vaaditaan myös alustan kehitystä. Niitä harppauksia…

Roope_K · Kesäkuu 3, 2023, 9.29am

En nyt tiedä mitä tarkoitat alustateknologialla eikä minullakaan ole tarvetta jankata tämän enempää.

Halusin vain tuoda ilmi, miten ihmeelliseltä kuulosti väittämä, ettei teknologisia harppauksia olisi juuri tapahtunut samalla, kun tekoäly-yhteisö tuottaa joka päivä tai vähintään joka viikko aivan käsittämättömiä harppauksia, joita kukaan ei olisi voinut edes kuvitella olevan olemassa 4-6 kk sitten.

OldFeki · Kesäkuu 3, 2023, 9.38am

Kirjoitin (sanasta sanaan): “AI:n kehitysvauhti on nyt todella kova. Teknologiassa ei olla otettu erityisiä harppauksia, mutta sen hyödyntämisessä sitäkin enemmän.”

… ja se oli mielestäsi jotenkin vastaväitteen arvoinen, jota en ymmärrä.

Väitettäsi siitä, että arkkitehtuurin ja algoritmiikan ei tarvitse välttämättä muuttua vuosikymmeniin on sen sijaan vaikea ymmärtää. Kehitys voi nykyalustallakin olla huimaa, kuten se nyt on, mutta kehitys kohti yleistä tekoälyvä vaatii kehitystä myös siltä. Niitä harppauksia. Silloin Juurikkiakaan ei enää sekoiteta Arto Paasilinnan jäniksiin.

Vaikka transformer-arkkitehtuuri ja sen algoritmiikka ovat osoittautuneet erittäin tehokkaiksi NLP:ssä, ei voi sanoa varmuudella, miten kehitys tulee jatkumaan pitkällä aikavälillä. Transformer-arkkitehtuuri ja siihen perustuva algoritmiikka ovat tällä hetkellä vallitsevia NLP:n paradigmoja, mutta teknologia kehittyy jatkuvasti, ja tulevaisuudessa voi syntyä uusia menetelmiä ja lähestymistapoja, jotka voivat muokata AI:n kehitystä. Näiden teknologioiden muutosnopeutta ei voi kuvata nopeaksi eikä niissä olla otettu harppauksia johonkin entistä parempaan. Nyt kun rahaa tulee kehitykseen ovista ja ikkunoista – tulevaisuudessa saattaa syntyä uusia kehityssuuntia ja innovaatioita, jotka voivat haastaa tai täydentää transformer-arkkitehtuuria.