Egy uj DNS motivum tipus in silico jellemzése és szerepe a génzsabályozésban
Title in English
In silico characterisation of a new DNA motif class and its role in gene regulation
Keywords in Hungarian
gén szabályozás, genetikai hálózat, statizstika
Keywords in English
gene regulation, genetic network, statistical model
Discipline
Bioinformatics (Council of Medical and Biological Sciences)
100 %
Panel
Genetics, Genomics, Bioinformatics and Systems Biology
Department or equivalent
Dept. of Physiology (Semmelweis University)
Starting date
2008-06-01
Closing date
2011-08-31
Funding (in million HUF)
20.627
FTE (full time equivalent)
2.28
state
closed project
Summary in Hungarian
Előzetes számításaink során azonosítottunk egy DNS-motivum csoportot az emberi genomban statisztikus tulajdonságaik alapján. Ezek statisztikus értelemben kevésbé gyakoriak a véletlen esetben vártnál, klaszterekben fordulnak elő genetikailag kitüntetett helyeken pl. transzkript inicializációs helyek közelében. Hosszuk jól definiált, továbbá az ember és egér genom közt a lista 65%-ban átfed, szemben a véletlen esetben várt 0,6%-os átfedássel. Tehát a jelenség kötődik kitüntetett genetikai pozíciókhoz és konzervált ember és egér közt.
A motivumok korlátozott előfordulása darabszám és hely szerint valamilyen biológia funkcióra utal. Ez a funkció jelenleg nem ismert, de nagy valószínúséggel kapcsolódik a génszabályozáshoz valamilyen formában. A pályázat célja ezen összefüggés feltátása a bioinformatika eszközeivel. Az eddigi eredmények magukban horják az áttörés lehetőságát - a génszabályozás teljesen uj jelenségeire utalnak.
Summary
In the preliminary calculations a subset of DNA motifs have been identified in Human genome based on their statistical properties. These motifs are statistically significantly less frequent than one would expect by random chance and they occur in clusters in close proximity of distinguished genetic positions like transcription start sites. The length of these segment types is well defined. The actual list of motifs is 65% common between Human and Mouse while random motif lists expected to show only ~0.6% identity. In this way this feature is linked to the transcription initiation point of genes and it is highly conserved between Human and Mouse.
These findings suggest that this type of segments is serving a particular biological function therefore their number of occurrence is limited and restricted to certain regions of DNA. Currently this functionality is not known however, very likely linked to gene expression. Our proposal aims to discover, analyze and characterize the role of these segments by the complete armory of bioinformatics. The results so far hold the potential of a breakthrough – they potentially highlight completely new aspects of gene regulation.
Final report
Results in Hungarian
Az emberi és egér genom statisztikai elemzése során egy jól definiált DNS-motívum készletet találtunk, amely statisztikai értelemben lényegesen alulreprezentált - „ritka” - motívumokból áll. A motívumok klaszterekben fordulnak elő különböző, genetikailag kitüntetett helyek közvetlen közelében (transzkripciós start helyek, exon/intron határok). A klaszterek jellemző hossza 20 és 30 bázis közé esik.
A klaszterek nem mutatnak egyezést a génreguláció jelenleg elfogadott modelljében szereplő transzkripciós faktorok kötőhelyeivel. Viszont feltűnően egybevágnak a John Mattick által nemrég közölt alternatív génregulációs elképzeléssel. Ebben a modellben a génszabályozás specificitásáért a DNS – RNS felismerés felelős.
Eredményeink jó egyezést mutatnak a kísérletesen meghatározott RNS polimeraz II kötőhelyek adatbázisával. Az adatainkat teszteltük John Mattick transzkripció inicializációs RNS (tiRNS) kísérletes adatbázisával is. Statisztikailag igen szignifikáns egyezést kaptunk a két adatsor közt. Továbbá azon gének GO-kulcsaiban, amelyekben nagy koncentrációban fordulnak elő a klaszterek, feltűnően gyakoriak a génszabályozásra utaló kulcsszavak.
Eredményeink alapján a talált klaszterek nagy valószínűséggel részt vesznek a génszabályozás egy még nem ismert mechanizmusában, amelynek felfedezése hamarosan bekövetkezhet.
Results in English
Statistical analysis of the Human and Mouse genomes revealed a distinct subset of DNA motifs which are significantly less common than one would expect by random chance. These motifs are concentrated in cluster at the close vicinity of genetically distinct position like transcription start sites of genes or exon – intron boundaries inside the genes. The length of the clusters is typically between 20 to 30 bases.
The clusters are not seemed to be related to the known features of the currently accepted model of gene regulation, i.e. transcription factor binding sites. In turn, the results are in agreement with the recently published alternative view of gene regulation by John Mattick. In this model the gene expression control events are driven by the RNA – DNA recognition as the key step of the process.
Our results are highly correlated with the experimentally determined RNA polymerase II binding site dataset in the public domain. The results were also tested against the transcription initiation RNA (tiRNA) dataset of John Mattick. These two sets are also correlated extremely well. GO-term analysis of the genes particularly rich in clusters detected the enrichment of gene regulatory function of these genes.
The results of these tests strongly suggest the involvement of our clusters in an alternative gene regulatory mechanism to be discovered in the near future.
Szekeres M, Turu G, Orient A, Szalai B, Süpeki K, Cserzo M, Várnai P, Hunyady L.: Mechanisms of angiotensin II-mediated regulation of aldosterone synthase expression in H295R human adrenocortical and rat adrenal glomerulosa cells., Mol Cell Endocrinol. 2009 Apr 29;302(2):244-53., 2009