Nightingale Health - Uutta verta pörssiin

@haroski hyvä että jonkinlaista koulutusta on ollut :+1:. Toki tavalliset verikokeet eivät printtaa sinulle sairastumisriskiennusteita valmiina. Kyseessä on jotain uutta ja ihmeellistä. Silloin kannattaa olla ehkä hieman skeptinen. Varsinkin kun riskitesti tehdään Terveystalolla seulontatyyppisesti kaikille, niin tällaisilta testeiltä vaaditaan usein erityisiä ominaisuuksia. Usein ne on ollut tapana esittää avoimesti.

No se ongelma onkin juuri siinä että ne eivät ole samoja. Olen osan niistä itsenäisten tutkijoiden artikkeleista lukenut ja niissähän yleensä tehdään tällaista alkuvaiheen kartoitusta ja etsitään yhteyksiä/riskiselittäjiä biobankkien niiden kaikkein +200 kpl NMR-teknologialla määritettyjen metaboliitin avulla. Nyt kliinisessä kontekstissa Nightingale joutuu rajaamaan itsensä vain niihin 37 metaboliittiin joiden pitoisuusmittaus on standardisoitu/sertifioitu. Jos mallista poistaa 80% muuttujista onko se silloin sama malli ja toimii samalla tavalla? Myöskään kukaan tuolla tiedeyhteisössä ei ole varmasti pohtinut mikä on heidän kehittämänsä riskitestin ominaisuudet suomalaisessa Terveystalon työterveyspopulaatiossa. Kyllä NG:n pitäisi itse se selvittää ja validoida, että minkälainen suorituskyky näillä riskitesteillä on tässä täysin eri kontekstissa, kuin missä ne on kehitetty.

Mutta paremman puutteessa voidaan käydä tuo NG:n esivedosartikkeli läpi. Kyllähän se voidaan vielä joskus julkaista vertaisarvioituna, jos se on vaan jumittunut jollekin vähän rankemmalle kommentti/muokkauskierrokselle.

VAROITUS PITKÄ TEKSTI:

Yhteenveto

Klassisessa julkaisussaan Steyerberg ja kumppanit esittivät, että uuden riskimallin osalta tulisi esitellä/arvioida aina kolme pääelementtiä: erotuskyky, kalibrointi ja kliininen käyttöarvo. Myös NG:n esivedosartikkeli noudattelee tätä rakennetta. En ole täysin varma, onko NG:n artikkelissa esitelty menetelmä se sama, joka on nyt myyty Terveystalolle ja siellä käytössä, mutta rivien välistä voisi tulkita, että ehkä ainakin osittain näin. Tässä artikkelin kuvaamassa riskimallissa on käytetty 36 biomarkkeria ja Terveystalossa käytössä olevassa riskimallissa ilmeisesti 37. Biomarkkereiden määrä mallissa on varmaan se määrä mikä on kulloisena hetkenä ollut sertifoituna.

Joka tapauksessa paperissa kerrottuna ne NG:n riskimallit ovat ilmeisesti Cox’n selviytymismalleja (cox proportional hazards models). Tässä artikkelissa mallit koulutettiin UK:n biobankkidatan toisella puoliskolla (128 288 ihmisen tiedot), jonka jälkeen mallin suorituskykyä testattiin Viron ja Suomen biopankkiaineistoissa sekä sen UK-datan toisella puoliskolla. Kuten yleensäkin tällaisille tilastollisille malleille käy, niin mallien suorituskyky UK:n datassa oli varsin hyvä, mutta Suomen ja Viron aineistoissa tämä heikkeni selvästi.

Kirjoittajat esittelevät esimerkiksi sydäninfarktiriskimallin erottelukykyä kuvaavia AUC-arvoja (Supplementary Table 3): Suomen datassa mallin, jossa oli pelkkä tieto potilaan iästä ja sukupuolesta, AUC oli 0.825, ja kun mukaan lisättiin NG:n NMR-laitteistolla mittaamat kliinisesti validoidut biomarkkerit (kolesterolit, PUFAT, MUFAT jne.) se nousi 0.843:een. Parhaimmat parannukset verrattuna pelkkään ikä+sukupuoli riskimalliin tulivat maksasairauksien ja tyypin 2 diabeteksen osalta (AUC parani 0.26–0.20 yksikköä). Tämä ei kuitenkaan ole kovin yllättävää, koska NG:n paneeli sisältää verensokerin ja suurin osa noista mitatuista rasva-aineista käytännössä syntetisoidaan maksasta + albumiini yms. Olisi aika huolestuttavaa, jos mallien ennustuskyky mainittuihin sairauksiin ei lisääntyisi, kun nämä biomarkkerit lisätään mukaan. Muiden sairausriskien osalta AUC parannukset olivat varsin pieniä.

Miten nämä AUC luvut pitäisi tulkita? Kukaan ei oikein tiedä. Myös menetelmän kehittäjä on sanonut, että AUC-arvoja ei tulisi käyttää enää mallien erottelukyvyn vertailuun. Jostain syystä niin edelleen tehdään. Lukuja on erityisen vaikea tulkita. AUC-luku kuvaa yleistä erottelukykyä laajalla skaalalla, mutta joskus kliinisesti tärkeämpää on erotella vain äärimmäiset/korkeariskiset tapaukset, ja niiden ennusteiden tarkkuus on tärkeämpää, mitä ei näe näistä luvuista.

Tässä on myös iso metodologinen ongelma NG:n artikkelissa. NG:n riskimallia verrataan vain ikä+sukupuolimalliin. Uuden riskimallin tuomaa lisäarvoa pitäisi verrata riskimalliin, joka sisältää kaiken käytännön kliinisessä työssä helposti saatavilla olevan informaation eli mm. tupakointi, verenpaine, perussairaudet jne. tai muihin vakiintuneihin riskimalleihin jos sellaisia on. Tuossa Buergelin “huippu artikkelissa” näin tehdään, NG:n omassa artikkelissa ei. Tästä voisi ehkä sanoa, että jos uusi riskimalli ei tuo hirveästi lisäinformaatio pelkkään ikä+sukupuoli-riskimalliin nähden niin siinä ei ole ihan hirveästi potentiaalia.

Siirrytään kalibrointiin, jota yleensä suositellaan tarkasteltavaksi visuaalisesti ja tämän kuvan NG artikelissaan meille tarjoaa:

UK:n datassa tulokset ovat hyvät, mutta THL biopankin (Suomi) ja Viron osalta nuo kalibrointikäyrät ovat varsin surkean näköisiä (erkaneminen katkoviivasta). Oikeastaan vain noita suolistosyövän ja kroonisen ahtauttavan keuhkosairauden käyriä kehtaisi esitellä (virolaisille). Muiden mallien osalta nuo kuvat voi tulkita siten, että riskimallit antavat Suomen ja Viron väestössä systemaattisesti liian pieniä riskiarvoja eli toisin sanoen vääriä tuloksia varsin reippaasti. Nämä kalibrointiongelmat ovat aika kriittisiä. Ne voisivat esimerkiksi kertoa siitä, että NG:n riskimalli on niin sanotusti ylisovitettu UK:n aineistoon ja hajoaa käsiin sitten kun sitä yrittää soveltaa esimerkiksi suomalaiseen aineistoon. Tämä on varsin yleinen ongelma biostatistiikassa ja se mihin moni riskimalli lopulta kaatuu.

Riskimallin esittelyn viimeinen osio olisi se kliininen utiliteetti. Sitä voisi arvoida esimerkiksi päätöskuvaajien kautta. Jostain syystä päätöskuvaajat ja pohdinta kliinisestä lisäarvosta puuttuvat täysin tästä NG:n artikkelista. Tämä on sääli, koska niissä riskimallin kehittämisen varsin matemaattinen harjoitus tuodaan käytännön konkretian tasolle: minkälaisia parempia päätöksiä tämä NG:n riskimallinnuksen tuottama lisäinformaatio auttaa meitä tekemään (potilaina/lääkäreinä?). Voitaisiin pohtia ja laskea testaamisen nettohyötyä ja verrata sitä esim. NG:n testin kustannuksiin. Esimerkiksi tuossa Buergelin “huippu artikkelissa nämä” päätöskuvaajat on annettu jokaiselle heidän kehittämälle riskimallille (Supplementary figure 1). Voisi kysyä onko ne jätetty tarkoituksella pois tästä NG:n artikkelista? Miksi niitä ei näyttäisi, jos haluaa demonstroida, että parantunut erottelukyky (korkeampi AUC arvo) on muunnettavissa parempaan kliiniseen utiliteettiin.

Yhteenvetona tämä NG:n esivedosartikkeli herättää huolta tässä esiteltyjen riskitestien suorituskyvystä ja luotettavuudesta. Artikkelissa on selkeitä metodologisia ongelmia ja puutteita. Toisaalta kuvattuja riskitestejä on mahdoton täysin teilata tämän perusteella, kun niin paljon oleellista informaatiota ja lukuja puuttuu ainakin tästä versiosta. Haluaisin nähdä lisää dataa.

No ehkä se on sitten näin. Meidän pitää siis ehkä jatkossakin vain luottaa täysin Sunan ja Bonon sanaan, että nämä riskitestit ovat parhaita ja täysin luotettavia :woozy_face:

11 tykkäystä