|
Decision Support and Intelligent Automation of Next-Generation Sequencing Workflows
|
Help
Print
|
Here you can view and search the projects funded by NKFI since 2004
Back »
|
|
Details of project |
|
|
Identifier |
112915 |
Type |
K |
Principal investigator |
Jobbágy, Ákos |
Title in Hungarian |
Újgenerációs szekvenálási munkafolyamatok intelligens automatizálása és döntéstámogatása |
Title in English |
Decision Support and Intelligent Automation of Next-Generation Sequencing Workflows |
Keywords in Hungarian |
újgenerációs szekvenálás, orvosi döntéstámogatás, genetikai diagnosztika, genetikai adatelemzés, szemantikus publikáció |
Keywords in English |
next-generation sequencing, medical decision support, genetic diagnostics, genomic data analysis, semantic publishing |
Discipline |
Information Technology (Council of Physical Sciences) | 60 % | Ortelius classification: Bioinformatics | Bioinformatics (Council of Medical and Biological Sciences) | 30 % | Cell genetics (Council of Medical and Biological Sciences) | 10 % | Ortelius classification: Medical genetics |
|
Panel |
Informatics and Electrical Engineering |
Department or equivalent |
Department of Measurement and Information Systems (Budapest University of Technology and Economics) |
Participants |
Antal, Péter Antos, András Bolgár, Bence Márton Dobrowiecki, Tadeusz Gézsi, András Guenfoud, Zeyneb Marx, Péter Molnár, Mária Judit Oláh, Edit Sárközy, Péter
|
Starting date |
2015-01-01 |
Closing date |
2019-08-31 |
Funding (in million HUF) |
43.884 |
FTE (full time equivalent) |
13.85 |
state |
closed project |
Summary in Hungarian A kutatás összefoglalója, célkitűzései szakemberek számára Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára. A kutatás célja az újgenerációs szekvenálási adatok feldolgozásának magasszintű automatizálása, az alábbiak szerint: • A szekvenálás hibamodelljeinek formális kezelése, amit a jelenlegi Rejtett Markov Modellek dinamikus Bayes hálók és sztochasztikus nyelvtanok irányába történő továbbfejlesztésével érünk el. • A variánskivonatoló eszközök, különösen a bayesi megközelítésűeknek, a beállítási paramétereinek ontológiával való formalizálása, azok „becsomagolása” saját keretrendszerben való futtatáshoz. • Az adatelemző eszközök „becsomagolása”, amely lehetővé teszi valószínűségi adaton való futtatásukat és eredményeik valószínűségi adatbázisokban való tárolását. • A genetikai asszociációs kutatások kísérlettervezési, publikálási protokolljain és általános szemantikai publikálási módszereken alapuló automatizált tudásbázis konstrukció a funkcionális értelmezések támogatására. • Prioritizálási (sorrendi) és döntéselméleti modellek létrehozása variánsok várható hasznosságára, különös tekintettel a mérés szempontjából bizonytalan, de nagy klinikai relevanciával bíró variánsok beazonosítására (amelyekre további, tipikusan más technológiájú mérés szükséges). • A munkafolyamat számításainak erőforráskorlátos, adaptív elvégzése, megerősítéses tanulás és a k-karú rabló keretekben.
A kutatás egyes eredményeit az újgenerációs szekvenálási módszerek klinikai felhasználásában valós körülmények között is alkalmazzuk, orvosi döntéstámogatásra, az Országos Onkológiai Intézet Molekuláris Genetika Osztályán folyó örökletes mellrák genetikai faktorainak diagnosztiálásában és a Semmelweis Egyetem Genomikai Medicina és Ritka Betegségek Intézetében genetikai diagnosztizálásban.
Mi a kutatás alapkérdése? Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek. Az újgenerációs szekvenálási módszerek felhasználása jelenleg egy komplex munkafolyamatban érhető el, amely méréstechnikai, adatmérnökségi, statisztikai adatelemzési, szakterületspecifikus értelmezési és döntéselméleti fázisokat tartalmaz. Az egyes fázisokhoz tartozó zárt gyártói vagy nyílt akadémiai eszközök tartoznak, amelyek adott problémára specifikusan összeállított rendszerét vagy ad hoc módon hozzák létre vagy egy munkafolyamat keretrendszerben. Azonban mindkét esetben jellemző az elemzési folyamat iteratív, többszöri részleges megismétlése, a konkrét adatokhoz legjobban illeszkedő paraméterbeállítások időrabló megkeresése, majd az elemzési lánc ismételt megismétlése. Különösen jelentős kihívás, hogy a munkafolyamat végén lévő eredmények értelmezése orvosbiológiai szakterületi tudást igényel, így gyakran derül ki, hogy egy bizonytalan eredmény értelmezése volna a szakterület szempontjából a legérdekesebb, amely a munkafolyamat megismétlését igényli a bizonytalan eredmény pontosabbá tétele, robosztusság vizsgálata miatt.
Kutatásunkban a munkafolyamat méréstechnikai és szemantikus publikációs kiegészítését, majd integrálását és automatizálását vizsgáljuk meg a Bayes statisztikai és Bayes döntéselméti keretben. Feltételezzük, hogy a méréstechnikai kimeneti adatok valószínűségiek, a variánskivonatolás és adatelemzés beállításai pedig egy paraméterteret alkotnak, és így valószínűségi eredményekhez vezetnek. Formális hasznossági modell esetében, amely szakterületi tudásból, szövegbányászatból és szemantikai publikálásból származhat, a várható hasznosság fogalma lehetővé teszi a paramétertérbeli automatizált keresést vagy az afölötti kiátlagolást is.
Mi a kutatás jelentősége? Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának! A vizsgálni kívánt intelligens-NGS rendszer koncepcionálisan a fragmentált akadémiai alkotórészek felett alkotna egy számítási/szolgáltatási/szakértői réteget. Az egyik kiemelt téma az NGS méréstechnikai hibakarakterisztikák meghatározása és speciális modellekkel való kezelése, amelyek lehetővé teszik a mérési bizonytalanság többváltozós reprezentálását, adatelemzésben való felhasználását és a diagnosztikai, majd döntéselméleti fázisban való érvényre juttatását. A kutatásunk másik meghatározó része a genetikai variánsok funkcionális szerepének szövegbányászati és szemantikai publikációkból való automatizált kinyerése és ennek az intelligens-NGS rendszerben való felhasználása. A kutatás egyrészt elősegíti a méréstervezési, mérési, adatelemzési és döntési fázisokat integráló információszolgáltató és döntéstámogató rendszerek létrehozását, hatékonyabb gyakorlati felhasználást biztosítva. Másrészt azonban kapcsolódik az intelligens mérés és kísérlettervezés, illetve a nagyléptékű tudásfúzió ambiciózus céljaihoz is, mivel célunk a mesterséges intelligencia kutatások NGS méréstechnikára/kísérlettervezésre való kiterjesztését is jelenti, illetve a szemantikai publikálás felhasználását adatelemzések eredményeinek az értelmezésében, a diagnosztikában és terápiás döntésekben.
A kutatásban önálló kérdésként jelenne meg egy bayesi méréstechnikai modul, a szövegbányászati és szemantikus publikációs információk felhasználása az eredmények automatizált minősítésében, illetve önállóan vizsgálnánk a k-karú rabló keretrendszert a várhatóan nagy hasznosságú „érdekes” eredmények megkeresésében és adaptíve megbecslésében. A kutatás során meglévő tanszéki, kari grid rendszereket és az MTA felhő-infratruktúrát használnánk. Kutatásunk kapcsolódna az intelligens méréstechnikai vonalhoz, NGS kísérlettervezési és kiértékelési szakértői rendszerekhez, mérések és adatelemzések ontológiaihoz, automation of science, automated statistician, komplex valószínűségi logikákhoz és tudásfúzióhoz.
A kutatás összefoglalója, célkitűzései laikusok számára Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára. A Humán Genom Projekt áttörést hozott a molekuláris biológiai méréstechnika fejlődésében. A modern újgenerációs szekvenálási (NGS) méréstechnikák az eredeti célon, egy faj genomjának a költséghatékony és gyors meghatározásán túl már felhasználhatóak akár egy egyeden belüli sejtpopuláció genomjainak az átfogó vizsgálatára, mint például egy daganat vagy az immunrendszer esetében, felhasználhatóak egy ökoszisztéma genomiális vizsgálatára, például egy élelmiszerbiztonsági vagy környezetszennyezési kérdésben, de felhasználhatak a genomok epigenetikai módosulásainak vizsgálatában és a genomok működésének kvantitív vizsgálatában is. Azonban jelenleg még a kísérlet- és méréstervezés, mérés adatainak előfeldolgozása, elemzése, majd értelmezése nem csupán egy szakmai specializációknak megfelelően összeállított szoftverfolyamatrendszert igényel, hanem az automatizált mérésből származó nyers mérési adatok szakértői előfeldolgozását, majd legtöbb esetben statisztikai elemzéseket, diagnosztikai következtetéseket, majd azok értelmezését és végül optimális döntésekben való felhasználását. A kutatási projekt által javítani kívánt NGS technikák egyik legjelentősebb várható felhasználási területe a személyreszabott orvoslás területe, amelyben a mérés, majd a diagnosztika, illetve annak értelmezése és a meghatározott terápia pontossága az NGS technikák létjogosultságát határozza meg. A célul kitűzött integrált NGS-teranosztika, azaz mérés-diagnózis-terápiás döntés támogatás tartalmazni fogmagasszintű méréstechnikai szakértelmet, kutatási orvosbiológiai ismereteket és gyakorlati orvosi tudást. Az alapkutatás eredményességét jelentősen megnöveli a rendelkezésre álló valós adat.
| Summary Summary of the research and its aims for experts Describe the major aims of the research for experts. The goal of this study is the high level automation of the processing of next generation sequencing data: • Formal handling of the sequencing error model, which we will approach by extending the currently used Hidden Markov Models with dynamic Bayesian networks and stochastic grammars. • Formalizing the parameters of variant analyzing tools (especially Bayesian tools) with an ontology, and implementing wrappers to run them in our framework. • Creating wrappers for data analysis tools which allow them to run on probabilistic data and allows their output to be stored in probabilistic knowledge bases. • Automated knowledge base construction based on the study design and publishing protocols of genetic association studies and general semantic publishing methods to support the functional interpretation of the results. • Creating prioritization and decision support models to predict the expected utility of genetic variants, with special attention given to variants with high clinical relevance which are difficult to accurately measure with the given measurement technologies, and those which require validation with other, different measurement technologies. • Performing the required analyses computations in a resource-limited, adaptive approach, using reinforcement learning.
The results of the study will be applied on real data, to evaluate the clinical decision support of next generation sequencing in the diagnostics of genetic risk factors of hereditary breast cancer at the Molecular Genetics Department of the Hungarian Institute of Oncology, and in genetic diagnostics at the Genomic Medicine and Rare Diseases Department of the Semmelweis University.
What is the major research question? Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments. Next generation sequencing methods are currently used in a complex workflow which encompasses measurement technology, data engineering, statistical data analysis, field specific interpretation and decision theoretic phases. For each phase, there are both closed source vendor specific or open source academic tools available. These tools are chained in a study specific workflow. It is common that specific phases of the analysis chain are iteratively rerun while searching for the parameter settings that fit the measured data best. It is an especially interesting challenge, that the interpretation of the results at the end of the analysis chain require medical domain knowledge. It often occurs that the interpretation of an uncertain result could offer the most interesting contributions to a specific domain This requires a rerun of the entire analysis toolchain, in order to more accurately characterize an uncertain measurement, and to assess the robustness of the result. In our research, we will examine the measurement technological and semantic publishing extensions of the workflow, as well as the potential of integration and automation of the results in a Bayesian statistics and Bayesian decision theoretic framework. The output of the measurement technology is probabilistic, and the parameters and settings of data analysis and variant calling form a parameter space. Thus the results can also be interpreted in a probabilistic approach. A formal utility model which consists of domain specific knowledge, text mining and semantic publishing; the concept of expected utility makes the automated search inside the parameter space and averaging over the parameter space feasible.
What is the significance of the research? Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field. The intelligent NGS system we wish to examine will provide a conceptual computational/services/expert layer over the fragmented academic components. One of the most important aspects is the identification of NGS measurement technology error characteristics which provide the possibility of representing multivariate measurement uncertainty, and then propagating this probabilistic information to the diagnostic and decision support phases. Another key aspect of our research is extracting the functional role of genetic variants with text mining and semantic publishing methods in an automated approach and utilizing them in the intelligent NGS system. This research will facilitate the creation of information service provider and decision support systems capable of integrating study design, measurement, data analysis and decision making, allowing more efficient practical usage. It will also further the ambitious goal of intelligent measurement and study design as well as high-level knowledge fusion because our goal is the extension of artificial intelligence research to NGS measurement technology and study design, along with utilizing semantic publishing in the interpretation of the results of data analyses and in diagnostics and therapeutic decisions. A Bayesian measurement systems module will be one of the separate research questions, along with using text mining and semantic publishing information in the automated quality assessment of the results. We will investigate the N-armed bandit framework to identify and adaptively assess likely high utility „interesting” results. In our research we will use existing department and faculty grid computing systems and the Hungarian Acadamy of Sciences (MTA) cloud infrastructure. Our research will interconnect intelligent measurement technology, next generation sequencing study design and analysis expert systems, ontology's of measurements and data analyses, automation of science, automated statistician, complex probabilistic logic and knowledge fusion.
Summary and aims of the research for the public Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others. The human genome project was a breakthrough in the development of molecular biological measurement technology. Modern next generation sequencing (NGS) measurement technologies have superseded the original goal of efficiently sequencing the genome of a species. They are also used in characterizing the genomes of a population of cells (in case of a tumor or the immune system), identifying the genomial composition of an ecosystem (for example in food safety or environmental pollution), and are essential in examining epigenetic modifications and performing quantitative analysis of genome functioning. This rapid development of NGS measurement technologies requires the simplification and standardization of the measurement process, which is key to its widespread routine application. However, even study and measurement design, preprocessing of measurement results, data analysis and interpretation require more than just a professionally assembled software tool chain, it also requires the expert preprocessing of raw automated measurement data, and in most cases statistical analyses and diagnostic inference, and the interpretation and the use of the results in optimal decisions. We will improve one of the greatest use cases of the NGS technologies, which is in personalized medicine, where the accuracy of measurement, diagnostics and the interpretation of the results are vital. Our goal is integrated NGS teranostics, where the measurement-diagnostics-therapeutic decision support will contain high level measurement systems expertise, research biomedical knowledge and practical medical knowledge. The success of this basic research is enhanced by the availability of real data.
|
|
|
|
|
|
|
|
|
List of publications |
|
|
2. Balicza, P., Grosz, Z., Molnár, V., Illés, A., Csabán, D., Gézsi, A., Dézsi, L., Zádori, D., Vécsei, L. and Molnár, M.J.: NKX2-1 new mutation associated with myoclonus, dystonia, and pituitary involvement, Frontiers in genetics, 2018 | Gezsi, A., Bruncsics, B., Guta, G. and Antal, P.: Constructing a Quantitative Fusion Layer over the Semantic Level for Scalable Inference, nternational Conference on Bioinformatics and Biomedical Engineering (pp. 41-53), 2018 | Péter Balicza, Noémi Agnes Varga, Bence Bolgár, Klára Pentelényi, Renáta Bencsik, Anikó Gál, András Gézsi, Csilla Prekop, Viktor Molnár, és Mária Judit Molnár: Comprehensive analysis of rare variants of 101 autism-linked genes in a Hungarian cohort of autism spectrum disorder patients, Frontiers in Genetics, 2019 | Peter Sarkozy, András Antos, and Péter Antal: Online variant calling using read rejection: evaluation in a comprehensive raw current based simulation framework, Oxford Nanopore Technologies: London Calling 2019, 2019 | Sárközy, P., Molnár, V., Fogl, D., Szalai, C. and Antal, P.: Beyond Homopolymer Errors: a Systematic Investigation of Nanopore-based DNA Sequencing Characteristics Using HLA-DQA2, Periodica Polytechnica Electrical Engineering and Computer Science, 2017 | Jobbágy, Á., Majnár, M., Tóth, L.K. and Nagy, P.: HRV-based Stress Level Assessment Using Very Short Recordings, Periodica Polytechnica. Electrical Engineering and Computer Science, 2017 | Marx, P., Antal, P., Bolgar, B., Bagdy, G., Deakin, B. and Juhasz, G.: Comorbidities in the diseasome are more apparent than real: What Bayesian filtering reveals about the comorbidities of depression, PLoS computational biology, 2017 | Noémi Ágnes Varga, M.D.; Klára Pentelényi, PhD; Péter Balicza; András Gézsi, PhD; Viktória Reményi, PhD; Vivien Hársfalvi; Renáta Bencsik; Anett Illés; Csilla Prekop; Mária Judit Molnár: Mitochondrial dysfunction and autism: Comprehensive genetic analyses of children with autism and mtDNA deletion, Behavioral and Brain Functions, 2017 | Jobbágy, Á. and Nagy, P.: The Effect of Occlusion with the Cuff, EMBEC & NBC 2017 (pp. 9-12), 2017 | Sarkozy, P., Jobbágy, Á. and Antal, P.: Calling Homopolymer Stretches from Raw Nanopore Reads by Analyzing k-mer Dwell Times, EMBEC & NBC 2017 (pp. 241-244), 2017 | Borkó, M., Bolgár, B., Sarkozy, P.: Basecalling raw nanopore DNA sequencing reads using neural networks, 25th Minisymposium of the Department of Measurement and Information Systems, Budapest University of Technology and Economics, 2018 | Jagyugya, E., Sarkozy, P.: Comparison of Nanopore DNA sequencing basecallers on whole human data, 25th Minisymposium of the Department of Measurement and Information Systems, Budapest University of Technology and Economics, 2018 | 1. Varga, N.Á., Pentelényi, K., Balicza, P., Gézsi, A., Reményi, V., Hársfalvi, V., Bencsik, R., Illés, A., Prekop, C. and Molnár, M.J.: Mitochondrial dysfunction and autism: comprehensive genetic analyses of children with autism and mtDNA deletion, Behavioral and Brain Functions, 2018 | András Gézsi; Bence Bolgár; Péter Marx; Peter Sarkozy; Csaba Szalai; Péter Antal: VariantMetaCaller: Automated fusion of variant calling pipelines for quantitative, precision-based filtering, BMC Genomics, 2015 | Sarkozy P, Jobbágy Á, Antal P: Bootstrap-Based Quality Scores for NGS Variant Callin, First European Biomedical Engineering Conference for Young Investigators, 2015, 2015 | Marx P, Antal P: Decomposition of Shared Latent Factors Using Bayesian Multi-morbidity Dependency Maps, First European Biomedical Engineering Conference for Young Investigators, 2015, 2015 | Antal P, Reiter J, Mátyus P: Biomarkerek hálózatától a klinikai döntéstámogatásig, Orvosi Hetilap 2015, 156(51):2077-2081, 2015 | Szalai C, Antal P: Hálózatok vizsgálata betegségekben, Természet világa 2015, 146(1):68-72, 2015 | Bolgár B, Antal P: owards Multipurpose Drug Repositioning: Fusion of Multiple Kernels and Partial Equivalence Relations Using GPU-accelerated Metric Learning, First European Biomedical Engineering Conference for Young Investigators, 2015, 2015 | Jobbágy Á, Schultheisz J, Horváth M, Bacsó P, Csuhaj P, Réfy Vraskó H: Objective assessment of children with birth injuries, MEDICON 2016, XIV Mediterranean Conference on Medical and Biological Engineering and Computing: 2016; Paphos, Cyprus; 2016., 2016 | Jobbágy, Á., Schultheisz J., Horváth, M., Réfy Vraskóné, H.: Development of an Effective Therapy and Objective Assessment for Children with Birth Injuries, Int J Rehabil Res Vol. 39 (4) pp. 354-360., 2016 | Lili E. Fodor, András Gézsi, Ildikó Ungvári, Ágnes F. Semsei, Zsófia Gál, Adrienne Nagy, Gabriella Gálffy, Lilla Tamási, András Kiss, Péter Antal, Csaba Szalai: Investigation of the possible role of the Hippo/YAP1 pathway in asthma and allergy, Asthma, Allergy, Asthma & Immunology Research (accepted), 2016 | Hegyi M, Arany A, Semsei AF, Csordas K, Eipel O, Gezsi A, Kutszegi N, Csoka M, Muller J, Erdelyi DJ, Antal P, Szalai C, Kovacs GT: 3. Pharmacogenetic analysis of high-dose methotrexate treatment in children with osteosarcoma, Oncotarget. 2016 Aug 23., 2016 | G. Juhasz, E. Csepany, M. Magyar, Andrea Edes, David Kovacs, Nora Eszlari, Gabor Hullam, Peter Antal, Gyongyi Kokonyei, Ian Muir Anderson, John Francis William Deakin, Gyorgy Bagdy: Variants in the CNR1 gene predispose to headache with nausea in the presence of life stress, Genes, Brain and Behavior, 2016 | Marx Péter, Millinghoffer András, Juhász Gabriella, Antal Péter: Joint Bayesian Modelling of Internal Dependencies and Relevant Multimorbidities of a Heterogeneous Disease, JOURNAL OF MACHINE LEARNING RESEARCH WORKSHOP AND CONFERENCE PROCEEDINGS 52: pp. 310-320. (2016), International Conference on Probabilistic Graphical Models. Lugano,, 2016 | B Bolgár, P Antal: Bayesian Matrix Factorization with Non-Random Missing Data using Informative Gaussian Process Priors and Soft Evidences, JOURNAL OF MACHINE LEARNING RESEARCH WORKSHOP AND CONFERENCE PROCEEDINGS 52: pp. 310-320. (2016), International Conference on Probabilistic Graphical Models. Lugano,, 2016 | Jobbágy, Á., Schultheisz, J., Horváth, M., Bacsó, P., Csuhaj, P., Vraskó, H. R.: Objective Assessment of Children with Birth Injuries, MEDICON 2016, IFMBE Proceedings, Vol. 57. pp. 565-569. 2016., 2016 | Gabriella Juhasz, Peter Marx, Gabor Hullam, Peter Antal, Gyorgy Bagdy, Bill Deakin: The relationship between obesity and neuropsychiatric disorders based on the UK Biobank disease-network map, European College of Neuropsychopharmacology (ECNP), ECNP-2016, 2016 | Gabor Hullam, Gabriella Juhasz, Peter Antal: Exploring possible stratifications using a Bayesian systems-based approach in large-scale heterogeneous data, International Behavioral Neuroscience Society, IBNS-2016, 2016 | Peter Sarkozy, Viktor Molnar, Dora Fogl, Peter Antal: Time and current domain exploration of homopolymer lengths in ONT reads, London Calling 2016, 2016 |
|
|
|
|
|
|
Back »
|
|
|