Hizkuntza Handiko Ereduak (LLM) hitz azkarretan oinarritutako artikulu konbentzigarriak idatz ditzake, gaitasun profesionaleko azterketak gainditu eta pazienteentzako informazio atsegina eta enpatikoa idatz dezake. Hala ere, LLM-n fikzioaren, hauskortasunaren eta datu zehaztugabeen arrisku ezagunez gain, beste arazo konpondu gabe batzuk pixkanaka bihurtzen ari dira arretaren erdigunean, hala nola sorkuntzan eta erabileran "giza balio" diskriminatzaileak dituzten IA ereduak, eta LLM-k edukia gehiago asmatzen ez badu ere eta emaitza kaltegarriak argi eta garbi ezabatzen baditu ere, "LLM balioak" giza balioetatik alden daitezke oraindik.
Adibide ugarik erakusten dute nola kodetzen dituzten IA ereduak entrenatzeko erabiltzen diren datuek balio indibidualak eta sozialak, eta horiek ereduaren barruan sendotu daitezke. Adibide hauek hainbat aplikazio dituzte, besteak beste, bularreko erradiografiak automatikoki interpretatzea, azaleko gaixotasunen sailkapena eta baliabide medikoen esleipenari buruzko erabaki algoritmikoak hartzea. Gure aldizkariko artikulu batean adierazi bezala, prestakuntza-datu alboratuak gizartean dauden balioak eta alborapenak anplifikatu eta agerian utzi ditzakete. Aitzitik, ikerketek ere erakutsi dute IA erabil daitekeela alborapena murrizteko. Adibidez, ikertzaileek ikaskuntza sakoneko ereduak aplikatu zizkieten belauneko erradiografia-filmei eta larritasun-adierazle estandarrek (erradiologoek sailkatuta) belauneko artikulazioan oharkabean pasatzen ziren faktoreak aurkitu zituzten, eta horrela paziente beltzen eta zurien arteko minaren azalpenik gabeko desberdintasunak murriztu zituzten.
Gero eta jende gehiagok konturatzen den arren IA ereduen alborapenaz, batez ere entrenamendu datuei dagokienez, giza balioen beste sarrera puntu askori ez zaie behar besteko arreta ematen IA ereduen garapen eta hedapen prozesuan. IA medikoak emaitza ikusgarriak lortu ditu azkenaldian, baina neurri handi batean, ez ditu esplizituki kontuan hartu giza balioak eta haien elkarrekintza arriskuen ebaluazioarekin eta arrazoiketa probabilistarekin, ezta modelatu ere.
Kontzeptu abstraktu hauek zehatzago ulertzeko, imajinatu endokrinologoa zarela eta bere adinaren 3. pertzentilaren azpitik dagoen 8 urteko mutil bati hazkuntza-hormona birkonbinatua errezetatu behar diozula. Mutilaren hazkuntza-hormona estimulatuaren maila 2 ng/mL-tik behera dago (erreferentzia-balioa, >10 ng/mL, Estatu Batuetatik kanpoko herrialde askoren erreferentzia-balioa >7 ng/mL da), eta hazkuntza-hormona kodetzen duen geneak inaktibazio-mutazio arraroak detektatu ditu. Uste dugu hazkuntza-hormona terapiaren aplikazioa agerikoa eta eztabaidaezina dela testuinguru kliniko honetan.
Giza hazkuntza-hormonaren terapia aplikatzeak honako egoera hauetan eztabaida sor dezake: 14 urteko mutil baten altuera beti egon da bere parekoen pertzentil 10ean, eta estimulazioaren ondoren giza hazkuntza-hormonaren gailurra 8 ng/mL da. Ez dago altueran eragina izan dezaketen mutazio funtzionalik, ezta estatura baxuko beste kausarik ere, eta bere hezur-adina 15 urtekoa da (hau da, ez du garapen-atzerapenik). Eztabaidaren zati bat bakarrik da adituek zehaztutako atalase-balioen arteko desberdintasunengatik, hazkuntza-hormonaren gabezia isolatua diagnostikatzeko erabiltzen diren giza hazkuntza-hormonaren mailei buruzko dozenaka ikerketatan oinarrituta. Gutxienez eztabaida bera sortzen da giza hazkuntza-hormonaren terapia erabiltzearen arrisku-onura balantzetik, pazienteen, pazienteen gurasoen, osasun-profesionalen, farmazia-enpresen eta ordaintzaileen ikuspuntutik. Endokrinologo pediatrikoek 2 urtez hazkuntza-hormonaren injekzioen eguneroko albo-ondorio arraroak pisatu ditzakete helduen gorputz-tamaina hazkunderik ez izateko edo hazkunde minimoa izateko probabilitatearekin, gaur egungoarekin alderatuta. Mutilek uste izan dezakete beren altuera 2 cm bakarrik handitu arren, merezi duela hazkuntza-hormona injektatzea, baina ordaintzaileak eta farmazia-enpresak ikuspegi desberdinak izan ditzakete.
Adibide gisa kreatininan oinarritutako eGFR hartzen dugu, giltzurrunetako gaixotasun kronikoa diagnostikatzeko eta estadifikatzeko, giltzurrunetako transplante edo dohaintza baldintzak ezartzeko eta errezeta bidezko sendagai askoren murrizketa irizpideak eta kontraindikazioak zehazteko asko erabiltzen den giltzurrun-funtzioaren adierazle bat baita. EGFR erregresio-ekuazio sinple bat da, neurtutako glomerulu-iragazketa-tasa (mGFR) kalkulatzeko erabiltzen dena, erreferentziazko estandarra dena, baina ebaluazio-metodoa nahiko astuna da. Erregresio-ekuazio hau ezin da IA eredutzat hartu, baina giza balioei eta arrazoiketa probabilistari buruzko printzipio asko ilustratzen ditu.
Giza balioek eGFR-n sartzeko lehen sarrera-puntua doikuntza-ekuazioak egiteko datuak hautatzean datza. eGFR formula diseinatzeko erabilitako jatorrizko ilara gehienbat parte-hartzaile zuri-beltzez osatuta dago, eta beste talde etniko askotan duen aplikagarritasuna ez dago argi. Giza balioek formula honetan sartzeko ondorengo sarrera-puntuak hauek dira: mGFR zehaztasuna hautatzea giltzurrun-funtzioa ebaluatzeko helburu nagusi gisa, zein den zehaztasun-maila onargarria, nola neurtu zehaztasuna eta eGFR erabiltzea erabaki klinikoak abiarazteko atalase gisa (adibidez, giltzurrun-transplantearen baldintzak zehaztea edo botikak errezetatzea). Azkenik, sarrera-ereduaren edukia hautatzean, giza balioak ere formula honetan sartuko dira.
Adibidez, 2021 baino lehen, jarraibideek iradokitzen dute eGFR formulako kreatinina mailak doitzea pazientearen adinaren, sexuaren eta arrazaren arabera (banako beltz edo ez-beltz gisa sailkatuta soilik). Arrazan oinarritutako doikuntzaren helburua mGFR formularen zehaztasuna hobetzea da, baina 2020an, ospitale handiek arrazan oinarritutako eGFRaren erabilera zalantzan jartzen hasi ziren, pazientearen transplantea jasotzeko eskubidea atzeratzea eta arraza kontzeptu biologiko gisa zehaztea bezalako arrazoiak aipatuz. Ikerketek erakutsi dute arrazaren arabera eGFR ereduak diseinatzeak eragin sakonak eta aldakorrak izan ditzakeela zehaztasunean eta emaitza klinikoetan; beraz, zehaztasunean selektiboki zentratzeak edo emaitzen zati batean zentratzeak balio-judizioak islatzen ditu eta erabakiak hartzeko gardentasuna ezkutatu dezake. Azkenik, lan-talde nazionalak formula berri bat proposatu zuen, arraza kontuan hartu gabe berriro egokitu zena, errendimenduaren eta bidezkotasun-arazoak orekatzeko. Adibide honek erakusten du formula kliniko sinple batek ere sarrera-puntu asko dituela giza balioetan.
Adierazle prediktibo kopuru txikia duten formula klinikoekin alderatuta, LLM-k milaka milioi edo ehunka mila milioi parametro (eredu pisuak) edo gehiago izan ditzake, eta horrek zaildu egiten du ulertzea. "Ulertzeko zaila" esaten dugu LLM gehienetan, galderen bidez erantzunak lortzeko modu zehatza ezin delako mapatu. GPT-4-ren parametro kopurua ez da oraindik iragarri; Aurreko GPT-3-k 175.000 milioi parametro zituen. Parametro gehiagok ez dute zertan gaitasun sendoagoak esan nahi, ziklo konputazional gehiago dituzten modelo txikiagoek (LLaMA [Large Language Model Meta AI] modelo seriea bezalakoak) edo gizakien iritzien arabera findutako modeloek modelo handiagoek baino hobeto funtzionatuko baitute. Adibidez, gizakien ebaluatzaileen arabera, InstrumentGPT modeloak (1.300 milioi parametro dituen modeloa) GPT-3 baino hobeto funtzionatzen du modeloen irteerako emaitzak optimizatzeko orduan.
GPT-4ren entrenamendu-xehetasun zehatzak ez dira oraindik ezagutarazi, baina aurreko belaunaldiko modeloen xehetasunak, besteak beste, GPT-3, InstrumentGPT eta beste hainbat LLM kode irekikoak, ezagutarazi dira. Gaur egun, IA modelo askok modelo-txartelak dituzte; GPT-4ren ebaluazio- eta segurtasun-datuak OpenAI modeloak sortzeko enpresak emandako antzeko sistema-txartel batean argitaratu dira. LLMren sorrera bi etapatan bana daiteke, gutxi gorabehera: hasierako aurre-entrenamendu etapa eta modeloaren irteera-emaitzak optimizatzeko helburuarekin egindako doikuntza-etapa. Aurre-entrenamendu fasean, modeloari jatorrizko Interneteko testua barne hartzen duen corpus handi bat ematen zaio, hurrengo hitza iragartzeko entrenatzeko. Itxuraz sinplea den "osaketa automatiko" prozesu honek oinarrizko modelo indartsua sortzen du, baina portaera kaltegarria ere sor dezake. Giza balioak aurre-entrenamendu fasean sartuko dira, besteak beste, GPT-4rako aurre-entrenamendu datuak hautatzea eta eduki desegokia, hala nola eduki pornografikoa, aurre-entrenamendu datuetatik kentzea erabakitzea. Ahalegin horiek gorabehera, oinarrizko modeloa agian ez da erabilgarria izango, ezta emaitza kaltegarriak edukitzeko gai ere. Hurrengo doikuntza-fasean, portaera erabilgarri eta kaltegabe asko agertuko dira.
Doikuntza finaren fasean, hizkuntza-ereduen portaera askotan sakonki aldatzen da gainbegiratutako doikuntza finaren eta giza feedbackean oinarritutako indartze-ikaskuntzaren bidez. Gainbegiratutako doikuntza finaren fasean, kontratatutako langileek erantzun-adibideak idatziko dituzte hitz azkarretarako eta zuzenean entrenatuko dute eredua. Giza feedbackean oinarritutako indartze-ikaskuntzaren fasean, ebaluatzaile gizatiarrek ereduaren irteera-emaitzak sarrera-edukiaren adibide gisa ordenatuko dituzte. Ondoren, goiko konparazio-emaitzak aplikatuko dituzte "sarien eredua" ikasteko eta eredua are gehiago hobetzeko indartze-ikaskuntzaren bidez. Gizakien maila baxuko inplikazio harrigarriak doi ditzake eredu handi hauek. Adibidez, InstrumentGPT ereduak crowdsourcing webguneetatik kontratatutako 40 kontratista-langile inguruko talde bat erabili zuen eta populazio-talde desberdinen lehentasunekiko sentikorrak diren anotatzaile talde bat hautatzeko helburuarekin egindako baheketa-proba bat gainditu zuen.
Muturreko bi adibide hauek, hots, formula kliniko sinpleak [eGFR] eta LLM indartsuak [GPT-4], erakusten duten bezala, gizakien erabakiak hartzeak eta giza balioek ezinbesteko zeregina dute ereduen emaitza moldatzeko orduan. IA eredu hauek jaso al ditzakete haien paziente eta medikuen balio anitzak? Nola gidatu publikoki IAren aplikazioa medikuntzan? Jarraian aipatzen den bezala, erabaki medikoen analisia berriro aztertzeak printzipiozko irtenbidea eman diezaieke arazo hauei.
Medikuntzako erabakien analisia ez da ezaguna kliniko askorentzat, baina arrazoiketa probabilistaren (erabakiak hartzearekin lotutako emaitza ziurgabeetarako, hala nola 1. irudian erakusten den egoera kliniko polemikoan hazkuntza-hormona eman ala ez) eta kontuan hartzeko faktoreen (emaitza horiei lotutako balio subjektiboetarako, zeinen balioa "erabilgarritasun" gisa kuantifikatzen den, hala nola gizonezkoen altueran 2 cm-ko igoeraren balioa) arteko bereizketa egin dezake, erabaki mediko konplexuetarako irtenbide sistematikoak eskainiz. Erabakien analisian, klinikoek lehenik emaitza bakoitzarekin lotutako erabaki eta probabilitate posible guztiak zehaztu behar dituzte, eta gero emaitza bakoitzarekin lotutako pazientearen (edo beste alderdiaren) erabilgarritasuna sartu behar dute aukerarik egokiena hautatzeko. Beraz, erabakien analisiaren baliozkotasuna emaitzen ezarpena osoa den ala ez, baita erabilgarritasunaren neurketa eta probabilitatearen estimazioa zehatzak diren ala ez ere. Idealki, ikuspegi honek erabakiak ebidentzian oinarrituta daudela eta pazientearen lehentasunekin bat datozela ziurtatzen laguntzen du, horrela datu objektiboen eta balio pertsonalen arteko aldea murriztuz. Metodo hau duela hamarkada batzuk sartu zen medikuntza arloan eta paziente bakoitzaren erabakiak hartzera eta populazioaren osasunaren ebaluaziora aplikatu zen, hala nola koloneko minbiziaren baheketari buruzko gomendioak biztanleria orokorrari emanez.
Erabaki medikoen analisian, hainbat metodo garatu dira erabilgarritasuna lortzeko. Metodo tradizional gehienek zuzenean lortzen dute balioa paziente indibidualengandik. Metodorik sinpleena balorazio-eskala bat erabiltzea da, non pazienteek emaitza jakin batekiko duten lehentasun-maila eskala digital batean ebaluatzen duten (adibidez, 1etik 10era doan eskala lineal bat), osasun-emaitza muturrekoenak (osasun osoa eta heriotza, adibidez) bi muturretan kokatuz. Denbora-trukearen metodoa beste metodo erabili ohi da. Metodo honetan, pazienteek erabaki behar dute zenbat denbora osasuntsu emateko prest dauden osasun txarraren truke. Joko-metodo estandarra erabilgarritasuna zehazteko beste metodo erabili ohi da. Metodo honetan, pazienteei bi aukeretako zein nahiago duten galdetzen zaie: edo urte kopuru jakin bat bizitzea osasun normalean probabilitate espezifiko batekin (p) (t), eta heriotza-arriskua eramatea 1-p probabilitatearekin; edo ziurtatu t urtez bizitzea osasun-baldintza gurutzatuetan. Galdetu pazienteei hainbat aldiz p-balio desberdinetan, aukera bakar bat ere lehentasunik erakutsi arte, erabilgarritasuna pazienteen erantzunen arabera kalkulatu ahal izateko.
Paziente bakoitzaren lehentasunak jakiteko erabiltzen diren metodoez gain, paziente-populazioarentzat erabilgarritasuna lortzeko metodoak ere garatu dira. Bereziki, talde-eztabaidek (pazienteak elkartzea esperientzia zehatzak eztabaidatzeko) haien ikuspuntuak ulertzen lagun dezakete. Taldearen erabilgarritasuna modu eraginkorrean biltzeko, hainbat talde-eztabaida teknika egituratu proposatu dira.
Praktikan, erabilgarritasuna zuzenean diagnostiko klinikoan eta tratamendu prozesuan sartzea denbora asko eskatzen du. Irtenbide gisa, inkesta-galdetegiak ausaz hautatutako populazioei banatzen zaizkie normalean, erabilgarritasun-puntuazioak populazio-mailan lortzeko. Adibide batzuk hauek dira: EuroQol 5 dimentsioko galdetegia, 6 dimentsioko erabilgarritasun-pisuaren forma laburra, Osasun Erabilgarritasun Indizea eta Minbiziaren aurkako Europako Minbiziaren Ikerketa eta Tratamendu Erakundearen Bizi Kalitatearen Galdetegiaren Core 30 tresna.
Argitaratze data: 2024ko ekainaren 1a




