Details of project

Type PD
Principal investigator Nagy, Alinda
Title in Hungarian Genom annotáció
Title in English Genome annotation
Keywords in Hungarian genom annotáció, génpredikció, minőségellenőrzés, funkció jóslás
Keywords in English genome annotation, gene prediction, quality control, function prediction
Bioinformatics (Council of Medical and Biological Sciences)100 %
Panel Genetics, Genomics, Bioinformatics and Systems Biology
Department or equivalent Institute of Molecular Life Sciences (Research Center of Natural Sciences)
Starting date 2011-09-01
Closing date 2014-05-31
Funding (in million HUF) 16.172
FTE (full time equivalent) 2.20
state closed project
Summary in Hungarian
Mivel nagyon nehéz meghatározni a magasabb rendű eukarióták fehérjekódoló génjeinek helyes genomikus szerkezetét, a nyilvános adatbázisokban sok tévesen megjósolt gén és fehérjeszekvencia található.

A korábbi MisPred projektünk fő célja olyan eszközök kifejlesztése volt, amelyek lehetővé teszik a tévesen megjósolt gének/fehérjék automatizált azonosítását és így a predikciók minőségének javítását. A megközelítés alapja, hogy egy fehérjekódoló gén valószínűleg tévesen megjósolt, ha a gén (vagy az általa kódolt fehérje) jellemzői nincsenek összhangban a fehérjekódoló génekről és a fehérjékről alkotott jelenlegi tudásunkkal. A korábbi munka során elemeztük különböző Metazoa fajok fehérje adatbázisait, azonosítottuk a hibás fehérje szekvenciákat és a vizsgálatok eredményeinek publikálására létrehoztuk a MisPred adatbázist.

A jelenlegi kutatás célkitűzései:
1. Új hibaazonosítási módszerek kidolgozása további hibatípusok azonosítására.
2. További eukarióta genomok bevonása a vizsgálatokba. Nyilvános fehérje adatbázisok legutóbbi verzióinak elemzése és a MisPred adatbázis folyamatos frissítése.
3. A MisPred által hibásként azonosított gének/fehérjék szerkezetének kijavítására alkalmas FixPred módszer kidolgozása és a kijavított szekvenciákat tartalmazó FixPred adatbázis létrehozása.
4. A kijavított gének/fehérjék funkciójának és biológiai szerepének predikciója, új predikciós módszerek alkalmazásával.
5. Automatizált eljárás kidolgozása az orvosbiológiai, agrárbiológiai vagy biotechnológiai szempontból hasznosítható gének kiválasztására.
Correct prediction of the genomic structure of the protein-coding genes of higher eukaryotes is a very difficult task, thus sequences of incorrectly predicted genes and proteins are abundant in public databases.

The main objective of our MisPred project was to develop tools that can be used to identify mispredicted genes/proteins and to improve the quality of predictions. The MisPred approach is based on the principle that a protein-coding gene is likely to be mispredicted if some of its features (or features of the protein it encodes) conflict with our current knowledge about protein-coding genes and proteins. In our previous work we have analyzed protein databases of different metazoan species, identified erroneous protein sequences and have established the MisPred database for the publication of the results of MisPred analyses.

In the proposed research:
1. We will develop new MisPred tools for the identification of additonal types of errors.
2. We will analyze recent versions of protein databases and additional eukaryotic genomes and will continually update the MisPred database.
3. We will develop the FixPred method to correct the structure of genes/proteins identified as mispredicted or abnormal by MisPred and will establish the FixPred database in which corrected sequences will be deposited.
4. We will predict the function and biological role of the corrected genes/proteins, using novel tools.
5. We will develop procedures for the selection of genes that are likely to be useful for medicine, agriculture or biotechnology.


Final report

Results in Hungarian
A „Genom annotáció” projekt során továbbfejlesztettük a MisPred módszert annak érdekében, hogy tovább növeljük a minőségellenőrző vizsgálatok hatékonyságát, növeljük az automatikusan azonosítható hibatípusok és a vizsgált eukarióta genomok számát. Új MisPred hibaazonosítási módszereket dolgoztunk és fejlesztettünk ki a nyilvános adatbázisokban található hibás szerkezetű gének/fehérjék azonosítására, és a vizsgálatokba új eukarióta genomokat is bevontunk. A MisPred eszközökkel elemeztük a UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, EnsEMBL és NCBI/RefSeq adatbázisok legújabb verzióit és folyamatosan frissítettük a hibás fehérjéket tartalmazó MisPred adatbázist ( Kidolgoztuk a MisPed eszközök által hibásként azonosított fehérjék szerkezetének kijavítására alkalmas FixPred eljárásokat és kifejlesztettük a FixPred pipeline-t. Létrehoztuk a FixPred adatbázist, amely a MisPred eszközök által hibásként azonosított és a FixPred által kijavított fehérje szekvenciákat tartalmazza ( Kidolgoztuk az orvosbiológiai szempontból hasznosítható humán fehérjék kiválasztására szolgáló TargetPred eljárást és kifejlesztettük a TargetPred módszer két fő komponensét. Az elvégzett munkákat és azok eredményeit kettő, a Database: The Journal of Biological Databases and Curation című folyóiratban megjelent cikkben közöltük.
Results in English
In the „Genome annotation” project we have improved the MisPred method in order to develop more efficient quality control tools, identify additional types of sequence errors and analyze more eukaryotic genomes. We have developed and automated new MisPred tools for the identification of genes/proteins with mispredicted structure in public databases, and adapted the method for additional eukaryotic genomes. We have analyzed new versions of the UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, EnsEMBL and NCBI/RefSeq databases and continually updated the content of the MisPred database ( We have developed the FixPred method for the correction of sequences identified by MisPred as erroneous and automated the FixPred pipeline. We have established the FixPred database in which corrected sequences are deposited ( We have developed the TargetPred method for the selection of human proteins that are likely to be useful in biomedicine as potential drug targets and automated two main components of the TargetPred pipeline. Our results have been summarized in two articles, published in Database: The Journal of Biological Databases and Curation.
List of publications

Nagy A; Patthy L: FixPred: a resource for correction of erroneous protein sequences., Database (2014) 2014 : bau032 doi: 10.1093/database/bau032, 2014
Nagy A; Patthy L: MisPred: a resource for identification of erroneous protein sequences in public databases, Vol. 2013: article ID bat053; doi:10.1093/database/bat053, 2013
Nagy A; Hegyi H; Farkas K; Tordai H; Kozma E; Szláma Gy; Szarka E; Trexler M; Bányai L; Patthy L: MisPred: Quality control of gene predictions and public databases, FEBS Jornal Vol. 280, Suppl. 1: 543, 2013
