Novel fusion strategies for similarity and dissimilarity indices

Help

Back »

Details of project

Identifier

125608

Type

Principal investigator

Héberger, Károly

Title in Hungarian

Hasonlósági és különbözőségi indexekre vonatkozó új fúziós stratégiák

Title in English

Novel fusion strategies for similarity and dissimilarity indices

Keywords in Hungarian

mintázatfelismerés, rangsorolás, QSAR, gyógyszertervezés

Keywords in English

pattern recognition, ranking, QSAR, drug design

Discipline

Inorganic Chemistry (Council of Physical Sciences)	60 %
Ortelius classification: Organometallic chemistry
Experimental pharmacology, drug discovery and design (Council of Medical and Biological Sciences)	40 %
Ortelius classification: Neurochemistry

Panel

Chemistry 1

Department or equivalent

Institute of Materials and Environmental Chemistry (Research Center of Natural Sciences)

Participants

Bajusz, Dávid
Bajusz-Rácz, Anita

Starting date

2017-09-01

Closing date

2020-02-29

Funding (in million HUF)

19.166

FTE (full time equivalent)

2.49

state

closed project

Summary in Hungarian

A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.
Célunk a gyógyszertervezésben elengedhetetlen, hatásos molekulák kiszűrésére szolgáló algoritmusok tesztelése, a hasonlósági mértékek kiterjesztése és újfajta fúziós eljárásokat használó algoritmusok kidolgozása, melyek hatékonyabban képesek megtalálni a vezérmolekulákat valamint potenciális gyógyszermolekulákat. A célkitűzésbe beletartozik még az új eljárások hatókörének felderítése, esetleges hibáik kiszűrése, a különböző algoritmusok pl. a ROC görbékkel (receiver operating characteristic curves) történő összehasonlítása is. A célkitűzés harmadik része a kidolgozott módszerek validálása, vagyis annak a bizonyítása, hogy az új stratégiák képesek a hatékony molekulák megtalálására, sőt a talált vezérmolekulák optimálására is. A régi szakirodalomban is közölt és az új algoritmusokat több kritérium szerint fogjuk összehasonlítani, melyek minőség jellegű megállapításokat tartalmazó táblázatokban foglalhatók össze; pl.: olyan kifejezések, mint: gyenge, közepes, jó, kiváló, átlagos stb. használatával. Ezen táblázatok méltányos (nem szubjektív) értékelését is tervbe vettük. A célkitűzések realitását nagymértékben valószínűsíti, hogy adott, speciális
adatmátrixokra már készítettünk rangsorolásos, osztályozásos modelleket és ezek összehasonlítását, kiválasztását is megoldottuk.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.
Hogyan lehet hatékony módon vezérmolekulákhoz, gyógyszermolekulákhoz leginkább hasonló molekulákat kikeresni, a molekulák hasonlóságát, különbözőségét skálázni, a különböző mértékek tulajdonságait egyesíteni, összeolvasztani?
A kérdés továbbfolytatásához tartozik a hatásos molekulák optimálása ADMET tulajdonságok: adszorpció, kiválasztás, metabolizmus és toxicitás szempontjából. Ehhez a regressziós és más modellezési módszerek- és a modellek jóságát, előrebecslési képességét jelző paraméterek kiválasztására, és annak meghatározására is szükség van, hogy milyen feltételek, adatkészletek esetén alkalmazhatóak.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!
A kutatás főleg alapkutatási jelentőségű, az új algoritmusok, kereső és optimálási módszerek alapvetően bővítik tudásunkat és megváltoztatják a világról alkotott képünket. A módszereket minden olyan laboratóriumban használni lehet, ahol számítógépes gyógyszertervezéssel, molekulamodellezéssel és más kapcsolódó témákkal foglalkoznak.
Az eredményekről konferenciákon előadások és poszterek segítségével számolunk be, valamint nagy hatástényezővel rendelkező újságokban tudományos cikkeket teszünk közzé. Így bekerülhetünk széleskörű nemzetközi körforgásba és akár meg is szerezhetjük a szükséges ismereteket/feltételeket ipari vagy európai projektekhez való kapcsolódáshoz is.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.
Ha egy krokodil a fejétől a farkáig 2.5 m hosszú, akkor biztosak lehetünk abban, hogy a farkától a fejéig is ugyanannyi lesz. A molekulák közötti hasonlóság azonban nem ennyire egyértelmű fogalom (bár közöttük is definiálhatunk eukleidészi távolságot, ami megfelelne a krokodil hosszának). A hasonlóságot különböző módon több mint 30-féleképpen definiálták eddig. Mindegyik hasonlósági mérték egy fordított skálán különbözőségi mértéknek fogható fel, és mindegyik más és más tulajdonságot kódol, illetve súlyoz (tömörít) más-más skálán. Hogy a legkedvezőbb keresési módszert kiválasszuk, vagy létrehozzuk, a különböző mértékek egyesítésére (fúzió) van szükség. Újfajta fúziós eljárásokat használó algoritmusok dolgozunk ki, melyek hatékonyabban képesek megtalálni a potenciális gyógyszermolekulákat.
A hatékony molekulákat fontos tulajdonságaik, kiválasztás, megkötődés, toxicitás, stb. alapján optimáljuk. Az új algoritmusokat több szempont szerint összehasonlítjuk, kiválasztjuk a legjobbat, valamint ezeket hatókörük alapján is csoportosítani fogjuk.

Summary

Summary of the research and its aims for experts
Describe the major aims of the research for experts.
Our aim is to provide novel computational tools and insights for filtering out pharmaceutically active compounds from among large compound libraries. Similarity and dissimilarity (distance) measures can be used to determine the similarities of bioactive molecules. However the task is not unambiguous, many (more than 30) such measures are defined with advantages and definite disadvantages. A possible solution to the problem is the so-called data fusion, where some simple rules have already been suggested [P. Willett, Combination of Similarity Rankings Using Data Fusion. J. Chem. Inf. Model. 53 (2013) 1–10.]. However several tasks could not have been solved yet, e.g. the different results from various similarity indices, the nonsymmetrical similarity measures, and their fusion in an unambiguous way. Therefore, new fusion algorithms should be developed and compared with earlier ones and validated according to present standards. To address computational questions related to lead finding and optimization of molecules according to ADMET properties also belongs to our aims.
Similarly we would like to test the conditions in which such algorithms produce high quality (superior) results. Fair method and model comparison techniques will be applied for this purpose.
Binary and string coding for multicriteria decisions will be introduced, compared, and validated. Conditions of applicability and preferred usage of the algorithm will also be revealed.
For optimization of compound properties regression methods will be used and compared, including consensus modeling and selection of the best performance parameters.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.
How can we effectively find similar molecules to the known active drug molecules? How should we scale and encode similarities and dissimilarities of molecules? What are the optimal, best way(s) for data fusion for the previous tasks?
To determine optimal properties of drug molecules (absorption, distribution, metabolism, excretion, toxicity), QSAR models will be built. We have to answer such questions as: How should the model performances be compared? Which performance merits should be used for expressing the predictive ability of models? In what kind of circumstances can we apply these methods, and for what type of data sets?

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.
The research belongs to „basic” research, to the fundamental type. Novel algorithms will extend our knowledge and change our current views about Nature and the World. These techniques can be used in all laboratories, where drug design, in silico calculations and similar topics are covered.
The results will be disseminated during conferences (lectures and posters) and with publications in journals of high impact. The topics are suitable for wide-range international cooperation. We are convinced that the necessary cooperation network can be built up, which can be used later for submission of industrial and European projects.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.
If the length of a crocodile from head to tail is 2.5 m, then we can absolutely be sure that the same length is measured from tail to head, as well. The similarity of molecules is not such an unambiguous magnitude. Many such measures (>30) are defined, not to speak about the inherent asymmetry of drug effect: if a similar molecule to an active one is found to be also active, it does not guarantee that a third molecule (which is similar to either of the two) will also be active. Any such similarity measure encodes different features of the molecules, and they can also be considered as dissimilarity ones (on a reversed scale), e.g. the Euclidean distance corresponds to the length of a crocodile. Not to lose significant amount of information we can amalgamate (fuse) the measures using various algorithms. Novel strategies are to be developed to aid the more effective identification of lead molecules and potential drug candidates, and the optimization of active molecules with consensus modeling, and selecting the best indicators for model goodness.

Final report

Results in Hungarian

Az adatfúziós módszertant sikeresen alkalmazták a mintázatfelismerésben, a bináris hasonlósági együtthatók, a gépi tanulási osztályozók és a teljesítményparaméterek összehasonlításában; keresztellenőrzési változatokra, kölcsönhatási ujjlenyomatokra, adatcsökkentésre QSAR modellépítésben, az együttes dokkolásra és néhány gyakorlati alkalmazásra is. Számítógépes kódokat fejlesztettek ki az MS Visual Basic, Python és R projektek számítógépes nyelveken. A rangsorolási különbségek összege (SRD) a módszerek, modellek, objektumok stb. egyedi és egyértelmű rangsorolását szolgálja. Az SRD a varianciaanalízissel (ANOVA) együtt egyedülálló és egyértelmű módszert kínál a hatások felbontására, és meghatározza a tényezők legjobb kombinációját. Az SRD egy nem paraméteres módszer, de nagyon érzékeny; képes akkor is különbségeket találni, amikor más módszerek nem. Pusztán a megjelent cikkek felsorolása és kategorizálása több volt mint a megadott 1500 karakter. A részletes, de még mindig csak kivinatolt beszámoló megtalálható feltöltött fájlként, pdf-ben (22 oldal, a függelékben táblázatokkal).

Results in English

Data fusion methodology was applied successfully to pattern recognition, to compare of binary similarity coefficients, machine learning classifiers and performance parameters; for cross-validation variants, for interaction fingerprints for data reduction in QSAR model building, for ensemble docking, and some practical applications. Computer codes were developed in MS visual basic, Python and R-projects. Sum of ranking differences (SRD) provides a unique and unambiguous ranking of methods, models, items, etc. SRD coupled with analysis of variance (ANOVA) provide a unique and unambiguous way of decomposing the effects and determine the best combination of factors. SRD is a nonparametric technique, but highly sensitive; it is able to find differences, when other methods cannot. Merely listing and categorizing the published articles amounted more than the specified 1500 characters. The detailed, but still only shortened report can be found as an uploaded file, in pdf (22 pages with Appendix Tables).

Full text

https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=125608

Decision

Yes

List of publications

Anita Rácz, Attila Gere, Dávid Bajusz, Károly Héberger*: Is soft independent modeling of class analogies a reasonable choice for supervised pattern recognition?, RSC Advances, 8, 10-21 (2018) available from Dec. 20/2017, 2018

Anita Rácz, Filip Andrić*, Dávid Bajusz, Károly Héberger,: Binary similarity measures for fingerprint analysis of qualitative metabolomic profiles,, Metabolomics, 14, Article Number: 29. pp. 1-9 (2018), 2018

Anita Rácz*, Marietta Fodor, Károly Héberger,: Development and comparison of regression models for determination of quality parameters in margarine spread samples using NIR spectroscopy,, Analytical Methods, 10 /25/ 3089-3099 (2018), 2018

Anita Rácz*, Dávid Bajusz and Károly Héberger,: Modelling methods and cross-validation variants in QSAR: a multi-level analysis,, SAR and QSAR in Environmental Research, 29 /9/ 661-674 (2018), 2018

Anita Rácz, Dávid Bajusz*, Károly Héberger: Life beyond the Tanimoto coefficient: similarity measures for interaction fingerprints, Journal of Cheminformatics 10, Article Number: 48, 2018

Károly Héberger* and Klára Kollár-Hunek,: Comparison of validation variants by sum of ranking differences and ANOVA, Journal of Chemometrics, 33, pp. 1-14, Article number: e3104, 2019

Anita Rácz, Dávid Bajusz, Károly Héberger*: Intercorrelation limits in molecular descriptor preselection for QSAR/QSPR., Molecular Informatics, 38, Article Number: 1800154, 2019

Dávid Bajusz, Anita Rácz*, Károly Héberger: Comparison of Data Fusion Methods as Consensus Scores for Ensemble Docking,, Molecules, 24, Article Number: 2690, 2019

Anita Rácz, Dávid Bajusz*, Károly Héberger: Multi-Level Comparison of Machine Learning Classifiers and Their Performance Metrics, Molecules, 24, Article Number: 2811, 2019

Z Guld, A Rácz*, H Tima, M Kállay, Dn Sárdy,: Effects of aging in oak barrels on the trans-resveratrol and anthocyanin concentration of red wines from Hungary, Acta Alimentaria, 48, pp. 349-357., 2019

Z. Guld, D. N. Sárdy, A. Gere*, A. Rácz: Comparison of sensory evaluation techniques for Hungarian wines, Journal of Chemometrics. 34 e3219. (2020), 2020

Events of the project

2017-11-29 14:12:36

Résztvevők változása

Back »