Bayesian methods for the generalized feature subset selection problem and their biomedical applications  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
76348
Type PD
Principal investigator Antal, Péter
Title in Hungarian Bayesi módszerek a releváns változók kiválasztásának problémájára és alkalmazása az orvosbiológiában
Title in English Bayesian methods for the generalized feature subset selection problem and their biomedical applications
Keywords in Hungarian bayes statisztika, bayes hálók, gépi tanulás, mesterséges intelligencia, bioinformatika
Keywords in English Bayesian statistics, Bayesian networks, machine learning, artificial intelligence, bioinformatics
Discipline
Information Technology (Council of Physical Sciences)60 %
Ortelius classification: Medical informatics
Biostatistics (Council of Medical and Biological Sciences)20 %
Bioinformatics (Council of Medical and Biological Sciences)20 %
Panel Informatics and Electrical Engineering
Department or equivalent Department of Measurement and Information Systems (Budapest University of Technology and Economics)
Starting date 2008-10-01
Closing date 2012-04-30
Funding (in million HUF) 28.896
FTE (full time equivalent) 2.86
state closed project
Summary in Hungarian
A nagy-áteresztőképességű mérési módszerek utat nyitottak a személyre szabott orvoslás előtt, bár eléréséhez az ilyen adatok hatékony felhasználása is szükséges. Ehhez a statisztikai módszereknek a nagy változószámmal és kis mintamérettel, a szakértőknek az értelmezés problémájával kell megküzdeni, ami ilyen adatok elemzésénél jelentkezik. Ezek a kihívások különösen fontosak és elemezhetők diagnosztikai modellek fejlesztésénél és asszociációs vizsgálatoknál, amelyek genomikai és proteomikai változók ezreit használhatják a szokásos tucatnyi klinikai változó mellett. A kutatásban megvizsgáljuk a releváns változók kiválasztásának problémáját és általánosításait. Kiterjesztjük a jelenlegi módszerünket, amely Bayesi többszintű elemzést végez, hogy képes legyen folytonos és hiányos adatokon is működni. A központban a hatékony Monte Carlo szimulációk, az a priori ismeretek felhasználása, és speciális Bayes hálók és parametrikus feltételes modellek lesznek. Az új módszer egy egyedi funkcionalitást nyújtana a nagy dimenziójú, kis mintaszámú adatok elemzésére a priori ismeretek felhasználásával és a bizonytalanság normatív kifejezésével. A módszer úgy kerül megvalósításra, hogy építőkockaként felhasználható az adatelemzés folyamatában, és egy új statisztikai termék alapjaként is szolgálhat. A petefészekrák diagnosztika és az asztma, allergia genomikája szolgál teszt alkalmazási területként; az onkogenomika és az immunogenomika pedig általános teszt alkalmazások lesznek.
Summary
The high-throughput measurement methods opened the door to personalized medicine, although its achievement requires the efficient use of such data. Statistical methods have to cope with high-dimensionality and small sample size, and the experts have to cope with the interpretational bottleneck arising at the statistical analysis of such data. These issues are particularly important and testable in developing diagnostic models and in association studies using thousands of genomic and proteomic observations beside dozens of standard clinical observations. We will investigate the generalizations of the feature subset selection problem and extend our current method, which performs a Bayesian, multilevel analysis, to cope with thousands of variables possibly continuous and unobserved. The focus will be on advanced Monte Carlo simulations, incorporation of prior knowledge, and on specialized Bayesian networks and parametric conditional models. The new methods would give a unique functionality to analyze high-dimensional data with small sample size incorporating priors and representing the remaining uncertainties in a normative way. The method will be implemented so that it could be used as a building block in the data analysis process, and it could be the core of a new statistical product. Two areas chosen for verification are the diagnosis of ovarian cancer and the genomics of asthma and allergy; oncogenomics and immunogenomics will serve as general application domains.





 

Final report

 
Results in Hungarian
A nagy áteresztőképességű genetikai, genomikai, proteomikai, metabolikai mérések új lehetőségeket nyitottak az orvosbiológiában, mint például a személyre szabott megelőzés, diagnózis, hatóanyagok és kezelés. Azonban az utóbbi évek orvosbiológiai kutatásainak egyik legfőbb eredménye annak megértése, hogy komplex, gyakori betegségek genetikai hátterében rendkívül sok genetikai útvonal, gén, és genetikai variáns érintett. Szerepük megértéséhez a gyakori genetikai variánsokon és eset-kontroll megközelítésen alapuló vizsgálatokat jelentősen ki kell terjeszteni a ritka genetikai variánsokra, epigenetikai változásokra, illetve komplex fenotípusok leírásokra. A változók nagy száma azonban egyszerre jelent unikális lehetőséget a valódi okozati tényezők azonosítására, másrészt komoly kihívást a valós összefüggések statisztikailag megbízható felismerésére. A projekt folyamán egy adatelemzési módszertant fejlesztettünk ki, a bayesi többszintű relevancia elemzést. Ez komplex modellek felett átlagolva származtat a változók és azok egyre magasabb szintű interakcióinak a relevanciájára a posteriori valószínűségeket. Komplex fenotípusok esetén a releváns változók szerepéhez is származtatunk a posteriori valószínűséget, nevezetesen, hogy a változó gyengén (más változó által közvetítetten) vagy erősen (közvetlenül) releváns, esetleg több ponton is releváns a betegség előrehaladásában. A modellek feletti átlagolást az alkalmazott Monte Carlo módszerek párhuzamosításával oldottuk meg.
Results in English
High-throughput methods in genetic, genomics, proteomics revolutionized biomedical research and opened the era of personalized prevention, diagnosis, medicine, and treatment. However, one of the main resuls of the last decade is the understanding and appreciation of the large number of genetic variants, genes, and pathways related to a common disease. For the exploration of their role, the currently prevailing inductive methodologies based on common variants and simplified disease representations had to be extended towards rare variants, epigenetic factors, and complex descriptions of the phenotypes. The large number of the variables on the one hand offers a unique possibility to explore causal factors, but on the other hand it is a serious challenge to balance false and missed discoveries. In the project we developed a data analysis methodology, the Bayesian network based multilevel analysis of relevance (BN-BMLA). This method estimates the relevance of variables and interactions using Bayesian model averaging. Posteriors for the type of the relevance relation, particularly in the case of complex phenotypes, can also be estimated, for example that a variable is strongly (directly) relevant or only transitively/conditionally relevant. We implemented various parallel programming methods using Markov Chain Monte Carlo techniques to perform Bayesian model averaging.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=76348
Decision
Yes





 

List of publications

 
P. Antal, A. Millinghoffer, G. Hullám, G. Hajós, Cs. Szalai, A. Falus: A bioinformatic platform for a Bayesian, multiphased, multilevel analysis in immunogenomics, Bioinformatics for Immunomics, Ed.: M.N.Davies, S.Ranganathan, D.R.Flower, Springer (közlésre elfogadva), 2010
P. Antal, A. Millinghoffer, G. Hullám, Cs. Szalai, A. Falus: A Bayesian View of Challenges in Feature Selection: Feature Aggregation, Multiple Targets, Redundancy and Interaction, ECML/PKDD, Workshop on New challenges for feature selection in data mining and knowledge discovery 2008 (FSDM08), Antwerp, JMLR: Workshop and Conference Proceedings 4, 7, 2008
Ildikó Ungvári, Gábor Hullám, Péter Antal, Petra Sz. Kiszel, András Gézsi, Éva Hadadi, Viktor Virág, Gergely Hajós, András Millinghoffer, Adrienne Nagy, András Kiss, Ágnes F. Semsei, Gergely Temesi, Béla Melegh, Péter Kisfali, Márta Széll, András Bikov, Gabriella Gálffy, Lilla Tamási, András Falus,Csaba Szalai: Evaluation of a partial genome screening of two asthma susceptibility regions using Bayesian network based Bayesian multilevel analysis of relevance, PLoS One, 2012
Gabor Varga, Anna Szekely, Peter Antal, Peter Sarkozy, Zsofia Nemoda, Zsolt Demetrovics, Maria Sasvari-Szekely: Independent effects of serotonergic and dopaminergic polymorphisms on trait impulsivity, Am J Med Genet B Neuropsychiatr Genet, 2012
Pál Zsuzsanna, Antal Péter, Millinghoffer András, Hullám Gábor, Pálóczi Krisztina, Tóth Sára, Hans-Joachim Gabius, Falus András, Buzas Edit, Molnár Mária Judit: A novel galectin-1 and interleukin 2 receptor β haplotype is associated with autoimmune myasthenia gravis, J NEUROIMMUNOL, 2010
Zsuzsanna Pál; Péter Antal; Sanjeev K Srivastava; Gábor Hullám; Ágnes Félné Semsei; János Gál; Mihály Svébis; Györgyi Soós; Csaba Szalai; Sabine André; Elena Gordeeva; György Nagy; Herbert Kaltner; Nicolai V Bovin; Mária J Molnár; András Falus; Hans-Joachim Gabius; Edit Irén Buzás: Non-synonymous single nucleotide polymorphisms in genes for immunoregulatory galectins: association of galectin-8 (F19Y) occurrence with autoimmune diseases in a Caucasian population, Biochimica et Biophysica Acta-General Subjects, 2012
P. Antal, András Millinghoffer, Gábor Hullám, Gergely Hajós, Csaba Szalai, András Falus: Bayesian, systems-based, multilevel analysis of associations for complex phenotypes: from interpretation to decisions, felkérés után, kért módosításokkal ismételten beadva, 2012
Peter Antal, Andras Millinghoffer, Gabor Hullam, Gergely Hajos, Andras Gezsi, Peter Sarkozy, Yves Moreau, Csaba Szalai, Andras Falus: Deep Bayesian characterization of relevant factors and interactions in allergy and asthma using subset map and multivariate FDR control, közlésre elküldve, 2012
G. Hullám, P. Antal, Cs. Szalai, A. Falus: Evaluation of a Bayesian model-based approach in GA studies, JMLR Workshop and Conference Proceedings, 8:30-43, 2010
S. Srivastava, P. Antal, J. Gál, G. Hullám, A.F. Semsei, G. Nagy, A. Falus, E. I. Buzás: Lack of evidence for association of two functional SNPs of CHI3L1 gene(HC-gp39) with rheumatoid arthritis, Rheumatology International, 2010
Semsei A.F, Antal P, Szalai Cs.: Strengths and weaknesses of gene association studies in childhood acute lymphoblastic leukemia, Leukemia Research, 2009
P. Antal, P. Marx, A. Millinghoffer, G. Hullam, I. Ungvary, Cs. Szalai, A. Falus: Bayesian fusion of heterogeneous signs for biomarker and pathway discovery, Capita Selecta in Complex Disease Analysis (CSCDA 2010), Leuven (Belgium), 25-27 August 2010, 2010
P. Antal, Sárközy P., Balázs Z., Sasvári M., Szalai Cs., Falus A.: Haplotype- and Pathway-based Aggregations for the Bayesian Analysis of Rare Variants, Machine Learning in System Biology 2010 (MLSB10), Oct. 15-16, 2010
P. Antal, Gézsi A., Hajós G., Millinghoffer A., Szalai Cs., Falus A.: On the applicability of Bayesian univariate methods as filters in complex GWAS analysis, Machine Learning in System Biology 2010 (MLSB10), Oct. 15-16, 2010
Orsolya Lautner-Csorba, András Gézsi, Ágnes F. Semsei, Dániel J. Erdélyi, Péter Antal, Géza Schermann, Nóra Kutszegi, Katalin Csordás, Márta Hegyi, Gábor Kovács, András Falus, Csaba Szalai: Candidate gene association study in pediatric acute lymphoblastic leukemia evaluated by Bayesian network based Bayesian multilevel analysis of relevance, (közlésre elküldve), 2012
Ádám Arany, Peter Antal, Bence Bolgár, Balázs Balogh, Péter Mátyus: A New Strategy for Repositioning: Drug Prioritization by Adaptive Fusion of Medicinal Chemical, Target and Side-Effect-Related Information, közlésre elküldve, 2012
P Antal, G Hajós, P Sárközy: Bayesian network based analysis in sequential partial genome screening studies, MODGRAPH, June 8., 2009, Nantes, France, 2009
P.Antal, G. Hajós, G.Hullám, A.Millinghoffer Cs.Szalai and A. Falus: Adaptive Sequential Partial Genome Screening Studies: a Case Study in Asthma, Human Genome Variation Society, Human Variome Project, Towards Establishing Standards, 22nd May 2009, Vienna, Austria, 2009
P. Antal, A. Millinghoffer, Cs. Szalai, A. Falus: On the Bayesian applicability of graphical models in genome-wide association studies, Machine Learning in System Biology 2009 (MLSB09), Sept 5-6, Ljubljana, Slovenia, 2009
G. Hajós, P. Antal, Y. Moreau, Cs. Szalai, A. Falus: Variable Pruning in Bayesian Sequential Study Design, Machine Learning in System Biology 2009 (MLSB09), Sept 5-6, Ljubljana, Slovenia, 2009
P. Antal, P. Sárközy, Z.Balázs, P. Kiszel, A. Semsei, Cs. Szalai, A. Falus: Averaging over measurement and haplotype uncertainty using probabilistic genotype data, Machine Learning in System Biology 2009 (MLSB09), Sept 5-6, Ljubljana, Slovenia, 2009




Back »