VáltozĂłszelekciĂłs algoritmusok vizsgálata általánosĂtott additĂv modellekben – Egy Ăşj, hibrid metaheurisztika elemzĂ©se
A felĂĽgyelt gĂ©pi tanulás során cĂ©lunk, hogy egy jĂłl definiált eredmĂ©nyváltozĂłra minĂ©l nagyobb pontosságĂş becslĂ©st adjunk bizonyos magyarázĂłváltozĂłk Ă©rtĂ©kĂ©nek ismeretĂ©ben. Napjainkban a feladat számtalan összetett algoritmus segĂtsĂ©gĂ©vel megoldhatĂł. Pl. mĂ©lytanulĂł neurális hálĂłzatok, vĂ©letlen erdĹ‘k, támaszvektor – gĂ©pek stb. Azonban egyre több szerzĹ‘, pl. Molnar (2020) Ă©s Du et al. (2019) hĂvja fel a figyelmet arra, hogy a legpontosabb becslĂ©st szolgáltatĂł modellekben a használt magyarázĂłváltozĂłk hatásai az eredmĂ©nyváltozĂłra nehezen, vagy egyáltalán nem visszafejthetĹ‘k. Viszont, bizonyos gyakorlati szituáciĂłkban a gĂ©pi tanulás legfontosabb eredmĂ©nye nem feltĂ©tlenĂĽl a minĂ©l pontosabb becslĂ©s elkĂ©szĂtĂ©se, hanem az egyes magyarázĂłváltozĂłk hatásának megállapĂtása. PĂ©ldául, egy banknak egyĂ©rtelműen meg kell indokolnia, hogy mi alapján utasĂt el egy hitelkĂ©relmet. Ilyen esetekben nem elĹ‘re jelzĹ‘, hanem magyarázĂł modellek Ă©pĂtĂ©se az elemzĹ‘ cĂ©lja.
Napjaink „big data” környezetĂ©ben, amikor egy adott becslĂ©si feladathoz rengeteg potenciális magyarázĂłváltozĂł könnyen az elemzĹ‘ rendelkezĂ©sĂ©re áll, mĂ©g egy egyszerű lineáris regressziĂłs modell alkalmazása esetĂ©n is problĂ©más lehet a magyarázĂłváltozĂłk hatásainak megállapĂtása. Molnar (2020) Ă©s James et al. (2013) egyik javaslata a problĂ©ma áthidalására, Ă©s a kĂĽlönbözĹ‘ felĂĽgyelt tanulási modellek Ă©rtelmezhetĹ‘vĂ© tĂ©telĂ©re a változĂłszelekciĂł.
Hall (1999) szerint a változószelekció legfontosabb alapelve, hogy a kiválasztott magyarázóváltozók szorosan korreláljanak a becsülendő eredményváltozóval, de egymáshoz képest legyenek függetlenek. Hall (1999) javaslata (Correlation based Feature Selection, CFS) egy legjobb részhalmaz elvű algoritmus, ahol a célfüggvény, azokat a magyarázóváltozókat preferálja, amik szorosan korrelálnak az eredményváltozóval, de más magyarázóváltozókkal páronként nem korrelálnak káros mértékben.
A CFS algoritmus elvét nem-lineáris esetekre kiterjesztő megoldásokat dolgozott ki Song et al. (2012) és Climente-González et al. (2019) is. Mindkét tanulmány javaslata azonban továbbra is csak a magyarázóváltozók páronkénti függetlenségét ellenőrzi a változószelekció során. Viszont, a magyarázóváltozók függetlenségét az is sértheti, ha egy változó kifejezhető a többi változó többváltozós függvényével.
Korábbi munkáinkban (Láng et al. (2017) Ă©s Kovács (2019)) egy hibrid genetikus-harmĂłnia keresĹ‘ algoritmust (továbbiakban HGHK algoritmus) javaslunk a változĂłszelekciĂłs feladat megoldására lineáris modellekben. Az algoritmus a szelekciĂłs folyamat során nem csak a változĂłk közti páronkĂ©nti káros korreláciĂłkra szűr. A HGHK algoritmus segĂtsĂ©gĂ©vel olyan regressziĂłs modellek Ă©pĂthetĹ‘k, amelyek becslĂ©si pontosságban nem maradnak el jelentĹ‘sen az egyĂ©b algoritmusok segĂtsĂ©gĂ©vel Ă©pĂtett modellektĹ‘l, ám azokhoz kĂ©pest lĂ©nyegesen kevesebb magyarázĂłváltozĂł használnak ennek elĂ©rĂ©sĂ©hez. Az ilyen „extrĂ©m mĂłdon” takarĂ©kos modellek magukban hordozzák a kihagyott változĂłk miatti torzĂtás veszĂ©lyĂ©t, de segĂthetnek az elemzĹ‘nek azonosĂtani az eredmĂ©nyváltozĂłt alakĂtĂł legfontosabb fĂĽggetlen hatásokat. A mĂłdszer elĹ‘nye a hagyományos dimenziĂłcsökkentĂ©si eljárások alkalmazásával szemben, hogy a vĂ©gsĹ‘ modellben konkrĂ©tan megnevezhetĹ‘ változĂłk szerepelnek, adott esetben nehezen Ă©rtelmezhetĹ‘ faktorok helyett.
Jelen Ă©rtekezĂ©sben kiterjesztjĂĽk a HGHK algoritmust a nem-lineáris modellek körĂ©ben vĂ©gzett változĂłszelekciĂłra is. Ehhez az általánosĂtott additĂv modellek (továbbiakban GAM a Generalized Additive Model angol kifejezĂ©sbĹ‘l) keretrendszerĂ©t alkalmazzuk. Ugyanis, James et al. (2013) szerint GAM-ok esetĂ©ben magyarázĂłváltozĂłk marginális hatásai az eredmĂ©nyváltozĂłra meghatározhatĂłk (ellenben a mĂ©lytanulĂł neurális hálĂłzatokkal Ă©s ensemble modellekkel), de nem köti az elemzĹ‘t egy elĹ‘re definiált lineáris, logaritmikus, nĂ©gyzetes vagy egyĂ©b fĂĽggvĂ©nyforma (mint a klasszikus lineáris regressziĂłban).
http://phd.lib.uni-corvinus.hu/1195/
https://doi.org/10.14267/phd.2022058
https://doi.org/10.14267/phd.2022058
http://phd.lib.uni-corvinus.hu/1195/1/Kovacs_Laszlo_dhu.pdf