Genetic risk score based on statistical learning
Genotyping is becoming cheaper, making genotype data available for millions of indi-viduals. Moreover, imputation enables to get genotype information at millions of locicapturing most of the genetic variation in the human genome. Given such large data andthe fact that many traits and diseases are heritable (e.g. 80% of the variation of heightin the population can be explained by genetics), it is envisioned that predictive modelsbased on genetic information will be part of a personalized medicine.In my thesis work, I focused on improving predictive ability of polygenic models.Because prediction modeling is part of a larger statistical analysis of datasets, I de-veloped tools to allow flexible exploratory analyses of large datasets, which consist intwo R/C++ packages described in the first part of my thesis. Then, I developed someefficient implementation of penalized regression to build polygenic models based onhundreds of thousands of genotyped individuals. Finally, I improved the âclumping andthresholdingâ method, which is the most widely used polygenic method and is based onsummary statistics that are widely available as compared to individual-level data.Overall, I applied many concepts of statistical learning to genetic data. I used ex-treme gradient boosting for imputing genotyped variants, feature engineering to cap-ture recessive and dominant effects in penalized regression, and parameter tuning andstacked regressions to improve polygenic prediction. Statistical learning is not widelyused in human genetics and my thesis is an attempt to change that.
Le gĂ©notypage devient de moins en moins cher, rendant les donnĂ©es de gĂ©notypes disponibles pour des millions dâindividus. Par ailleurs, lâimputation permet dâobtenir lâinformation gĂ©notypique pour des millions de positions de lâADN, capturant lâessentiel de la variation gĂ©nĂ©tique du gĂ©nome humain. Compte tenu de la richesse des donnĂ©es et du fait que de nombreux traits et maladies sont hĂ©rĂ©ditaires (par exemple, la gĂ©nĂ©tique peut expliquer 80% de la variation de la taille dans la population), il est envisagĂ© dâutiliser des modĂšles prĂ©dictifs basĂ©s sur lâinformation gĂ©nĂ©tique dans le cadre dâune mĂ©decine personnalisĂ©e.Au cours de ma thĂšse, je me suis concentrĂ© sur lâamĂ©lioration de la capacitĂ© prĂ©dictive des modĂšles polygĂ©niques. Les modĂšles prĂ©dictifs faisant partie dâune analyse statistique plus large des jeux de donnĂ©es, jâai dĂ©veloppĂ© des outils permettant lâanalyse exploratoire de grands jeux de donnĂ©es, constituĂ©s de deux packages R/C++ dĂ©crits dans la premiĂšre partie de ma thĂšse. Ensuite, jâai dĂ©veloppĂ© une implĂ©mentation efficace de larĂ©gression pĂ©nalisĂ©e pour construire des modĂšles polygĂ©niques basĂ©s sur des centaines de milliers dâindividus gĂ©notypĂ©s. Enfin, jâai amĂ©liorĂ© la mĂ©thode appelĂ©e âclumpingand thresholdingâ, qui est la mĂ©thode polygĂ©nique la plus largement utilisĂ©e et qui estbasĂ©e sur des statistiques rĂ©sumĂ©es plus largement accessibles par rapport aux donnĂ©es individuelles.Dans lâensemble, jâai appliquĂ© de nombreux concepts dâapprentissage statistique aux donnĂ©es gĂ©nĂ©tiques. Jâai utilisĂ© du âextreme gradient boostingâ pour imputer des variants gĂ©notypĂ©s, du âfeature engineeringâ pour capturer des effets rĂ©cessifs et dominants dans une rĂ©gression pĂ©nalisĂ©e, et du âparameter tuningâ et des âstacked regres-sionsâ pour amĂ©liorer les modĂšles polygĂ©niques prĂ©dictifs. Lâapprentissage statistique nâest pour lâinstant pas trĂšs utilisĂ© en gĂ©nĂ©tique humaine et ma thĂšse est une tentative pour changer cela.
https://tel.archives-ouvertes.fr/tel-02476202/file/PRIVE_2019_archivage.pdf