Genetic risk score based on statistical learning - PhDData

Access database of worldwide thesis




Genetic risk score based on statistical learning

The thesis was published by Privé, Florian, in September 2019, UniversitĂ© Grenoble Alpes.

Abstract:

Genotyping is becoming cheaper, making genotype data available for millions of indi-viduals. Moreover, imputation enables to get genotype information at millions of locicapturing most of the genetic variation in the human genome. Given such large data andthe fact that many traits and diseases are heritable (e.g. 80% of the variation of heightin the population can be explained by genetics), it is envisioned that predictive modelsbased on genetic information will be part of a personalized medicine.In my thesis work, I focused on improving predictive ability of polygenic models.Because prediction modeling is part of a larger statistical analysis of datasets, I de-veloped tools to allow flexible exploratory analyses of large datasets, which consist intwo R/C++ packages described in the first part of my thesis. Then, I developed someefficient implementation of penalized regression to build polygenic models based onhundreds of thousands of genotyped individuals. Finally, I improved the “clumping andthresholding” method, which is the most widely used polygenic method and is based onsummary statistics that are widely available as compared to individual-level data.Overall, I applied many concepts of statistical learning to genetic data. I used ex-treme gradient boosting for imputing genotyped variants, feature engineering to cap-ture recessive and dominant effects in penalized regression, and parameter tuning andstacked regressions to improve polygenic prediction. Statistical learning is not widelyused in human genetics and my thesis is an attempt to change that.

Le gĂ©notypage devient de moins en moins cher, rendant les donnĂ©es de gĂ©notypes disponibles pour des millions d’individus. Par ailleurs, l’imputation permet d’obtenir l’information gĂ©notypique pour des millions de positions de l’ADN, capturant l’essentiel de la variation gĂ©nĂ©tique du gĂ©nome humain. Compte tenu de la richesse des donnĂ©es et du fait que de nombreux traits et maladies sont hĂ©rĂ©ditaires (par exemple, la gĂ©nĂ©tique peut expliquer 80% de la variation de la taille dans la population), il est envisagĂ© d’utiliser des modĂšles prĂ©dictifs basĂ©s sur l’information gĂ©nĂ©tique dans le cadre d’une mĂ©decine personnalisĂ©e.Au cours de ma thĂšse, je me suis concentrĂ© sur l’amĂ©lioration de la capacitĂ© prĂ©dictive des modĂšles polygĂ©niques. Les modĂšles prĂ©dictifs faisant partie d’une analyse statistique plus large des jeux de donnĂ©es, j’ai dĂ©veloppĂ© des outils permettant l’analyse exploratoire de grands jeux de donnĂ©es, constituĂ©s de deux packages R/C++ dĂ©crits dans la premiĂšre partie de ma thĂšse. Ensuite, j’ai dĂ©veloppĂ© une implĂ©mentation efficace de larĂ©gression pĂ©nalisĂ©e pour construire des modĂšles polygĂ©niques basĂ©s sur des centaines de milliers d’individus gĂ©notypĂ©s. Enfin, j’ai amĂ©liorĂ© la mĂ©thode appelĂ©e “clumpingand thresholding”, qui est la mĂ©thode polygĂ©nique la plus largement utilisĂ©e et qui estbasĂ©e sur des statistiques rĂ©sumĂ©es plus largement accessibles par rapport aux donnĂ©es individuelles.Dans l’ensemble, j’ai appliquĂ© de nombreux concepts d’apprentissage statistique aux donnĂ©es gĂ©nĂ©tiques. J’ai utilisĂ© du “extreme gradient boosting” pour imputer des variants gĂ©notypĂ©s, du “feature engineering” pour capturer des effets rĂ©cessifs et dominants dans une rĂ©gression pĂ©nalisĂ©e, et du “parameter tuning” et des “stacked regres-sions” pour amĂ©liorer les modĂšles polygĂ©niques prĂ©dictifs. L’apprentissage statistique n’est pour l’instant pas trĂšs utilisĂ© en gĂ©nĂ©tique humaine et ma thĂšse est une tentative pour changer cela.



Read the last PhD tips