Federating large astronomical databases  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
114560
Type NN
Principal investigator Dobos, László
Title in Hungarian Nagy csillagászati adatbázisok összekapcsolása
Title in English Federating large astronomical databases
Keywords in Hungarian asztrofizikai adatbázisok, big data, elosztott adatbázisok, adatfederálás, virtuális obszervatórium
Keywords in English astrophysical databases, big data, distributed databases, data federation, virtual observatory
Discipline
Astrophysics (Council of Physical Sciences)80 %
Information Technology (Council of Physical Sciences)20 %
Ortelius classification: Applied informatics
Panel Physics
Department or equivalent Department of Physics of Complex Systems (Eötvös Loránd University)
Participants Bányai, Evelin
Beck, Róbert
Csabai, István
Hajdu, Tamás
Szalai-Gindl, János Márk
Starting date 2015-05-01
Closing date 2018-09-30
Funding (in million HUF) 31.662
FTE (full time equivalent) 6.49
state closed project
Summary in Hungarian
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A “virtuális obszervatóriumok” vagy “digitális laboratóriumok” olyan tudományos adattárak,melyeket speciális hardver eszközök és modern adatbázis technológiák kombinálásával építünk azzal a céllal,hogy kutatók a világ bármely pontjáról elérhessék és analizálhassák a legnagyobb megfigyelésekből és kísérletekből származó adatokat,vagy saját adataikat publikálhassák,másokkal megoszthassák. Egy évtizeddel ezelőtt számos tudományterület vezető projektje (pl. a Nagy Hadronütköztető,az SDSS Égfelmérés,a Millennium szimuláció,Humán Genom Projekt) kezdett jelentős mennyiségű adat termelésébe; a létrejövő adatmennyiség azóta folyamatosan nő. Amennyiben egy tudományos program több nagy adathalmaz egyidejű felhasználását igényli,az adatok egyesítéséhez újszerű szoftverre van szükség, hiszen a tudományos célú adatközpontok a világban elszórva találhatók,és az összes adat egyetlen helyen nem gyűjthető össze. A kizárólag tudományos célú szoftverfejlesztés nem megtérülő üzlet,így a szükséges eszközöket a kutatóknak maguknak kell kifejleszteniük. Jelen projekt célja egy olyan szoftvercsomag (SkyQuery,egy égtérkép-katalógusok federálására szolgáló adatbázis-kezelő rendszer) összeállítása,mely több hullámhosszon készült megfigyelések összevetését teszi lehetővé. A SkyQuery-vel a csillagászok közvetlenül férhetnek hozzá a főbb égtérképekhez,illetve megoszthatják majd saját adataikat a csillagász közösséggel. Kutatási programunk Szalay Sándor (Johns Hopkins Univ.) az e-tudomány területén a világban vezető kutatócsoportjával való évtizedes együttműködésünk folytatása. Az együttműködés hozzáférést biztosít számunka több petabájtnyi észlelési és szimulációs adathoz,valamint hardver eszközökhöz.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A nagy csillagászati égtérképek adatbázisait többnyire néhány, a földön elszórtan található adatközpont szolgálja ki. A főbb égfelmérések, mint például a Sloan Digitális Égtérkép, a PanSTARRS, WISE, vagy LSST projektek, a száz terabájtos – petabájtos skálán termelnek vagy fognak termelni adatot. Míg ezen adatbázisok federálása a több hullámhosszú csillagászat számára elengedhetetlen, a nagy adatmennyiség és az adatok földrajzilag elosztott jellege nem pusztán tudományos, de szoftvertechnológiai kihívást is jelent. A SkyQuery rendszer továbbfejlesztésével a nagy adatbázisokat egységes nézetben tesszük elérhetővé, ahol a csillagászok a katalógusok keresztazonosítása mellett az adatok analízisét – az SDSS SkyServerhez hasonló módon – távolról, az adatok letöltése nélkül is elvégezhetik. Az adatanalízis céljára a SkyQuery rendszerébe kozmológiai, gömbi geometriai és különböző statisztikai eszközöket integrálunk olya módon, hogy az adatanalízis közvetlenül az adatbázis-szervereken történhessen. A SkyQuery rendszerét úgy bővítjük ki, hogy az képes legyen adatok kölcsönös megosztására a Virtuális Obszervatóriummal, tovább bővítve a SkyQuery-ből elérhető adatok mennyiségét.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A több hullámhosszú csillagászat manapság az új felfedezések egyik kulcsa, így a virtuális obszervatóriumok egyik fő célkitűzése, hogy a nagy adatarchívumokat oly módon kapcsolják össze, hogy a geográfiailag elosztott katalógusok összefűzése egyszerűen és hatékonyan legyen kivitelezhető. A katalógusok keresztazonosítása nem egyszeri feladat, hiszen a vizsgált katalógusok halmaza, az előzetes szűrési feltételek, az elfogadási valószínűségek, a hamis-pozitív szűrés stb. mind feladatról feladatra változnak az adott kutatási feladat függvényében. A SkyQuery egy olyan hatékony eszköz lesz a csillagászok számára, mely segítségével a keresztazonosítási feladatot igény szerint, a teljes forráskatalógusok letöltése, valamint bonyolult szoftverek telepítése nélkül végezhetik el. Kutatási eredményeink várhatóan nem csak a csillagászat, hanem az adatbázisok területén is hasznosíthatók lesznek. Egy olyan rendszer építése során, mely alkalmas elosztott adatok összegyűjtésére, keresztazonosítására és analízisére számos olyan komponens jön létre, melyek bármely tudományterületen hasznosíthatók, ahol csillagászati mennyiségű adat feldolgozására van szükség.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

Kutatócsoportunk nagy tudományos adatbázisok összekapcsolási lehetőségeinek kutatásával foglalkozik. A legnagyobb távcsövek, számítógépes szimulációk, génszekvencia-elemző projektek stb. hatalmas mennyiségben produkálnak tudományos adatok. Az adatokban levő teljes potenciál kiaknázásához ezeket az adatbázisokat össze kell kapcsolni (például a csillagászatban széles hullámhossz-tartományban kívánjuk vizsgálni az objektumokat). Az összekapcsolást nehezíti, hogy az inhomogén rendszerek nagyon nagy mennyiségű (10-100TB) adatot tartalmaznak, és földrajzilag is szétszórva helyezkednek el. Olyan „Virtuális Obszervatóriumot” és „Digitális Laboratóriumot” építünk, mely segítségével a kutatók távolról érhetik el a nyers adatokat, közzé tehetik a saját adataikat, és úgy dolgozhatnak, hogy a köztes eredményeket nem, csak az adatfeldolgozás végeredményét töltik le, ami jelentősen gyorsítja a munkafolyamatot. Munkákat nemzetközi együttműködés keretében végezzük, elsősorban a baltimore-i Johns Hopkins Egyetemmel és a Nemzetközi Virtuális Obszervatórium Egyesülettel.
Summary
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

“Virtual observatories” and “digital laboratories” have been being built with the goal of combining specially configured hardware and modern database technology into scientific data warehouses that can be used by researchers from all over the world to publish, analyse and share observational and experimental data of the largest scientific projects. Leading projects of many fields of science – the Large Hadron Collider, the Sloan Digital Sky Survey, the Millennium cosmological simulation, the Human Genome Project, etc. – started producing significant amounts of data more than a decade ago and data volumes are ever growing. Because scientific data centres are geographically distributed, in order to use multiple data sets in a research project, software are needed to federate them, as all data cannot be mirrored at any location. Developing software, on the other hand, solely for scientific purposes is usually not a viable business. As a consequence, the necessary tools need to be developed by the scientists themselves. The goal of this project is to build a software stack, SkyQuery, an astronomical database system for federating sky survey catalogues to enable multi-wavelength research. With SkyQuery astronomers can access the major sky surveys at their fingertips and share their own data with the scientific community. Our research project will be the continuation of our decade-long collaboration with the research group of Prof. Alex Szalay at the Johns Hopkins University, a world-leader team in the field of e-science. The collaboration allows us to gain access to petabytes of observations and simulations as well as the hardware facilities.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

Large astronomical data archives are hosted at many different locations around the world. The major surveys, like the Sloan Digital Sky Survey, PanSTARRS, WISE, LSST etc. have already, or will produce data on the hundred terabyte – petabyte scale. While federating these archives for the purpose of multi-wavelength astronomy is essential, due to the large amount and the globally distributed nature of the data make it not only a scientific, but also a software technological challenge. By further improving the SkyQuery system, we will provide astronomers with a unified view of many sky surveys where they not only will be able perform catalogue cross-identification tasks based on object coordinates, but also to remotely analyse data in a way very similar to the SDSS SkyServer. For this purpose, we will integrate the SkyQuery system with the necessary tools to use cosmological, survey footprint and various statistical libraries directly from the databases. The SkyQuery system will be extended with capabilities to exchange data with the Virtual Observatory further extending the amount of data accessible from the tool.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

Multi-wavelength astronomy is a key to new discoveries, and one of the big goals of virtual observatories is to connect the largest data archives such a way, that the geographically distributed catalogues can be joined easily and efficiently. Cross-identification is not a one-time task, as the catalogues taken into account, pre-filtering, match acceptance probabilities, false positive filtering etc. may vary based on the requirements of the project. With SkyQuery, astronomers will have an efficient tool to perform cross-matching on demand, without the necessity to download entire catalogues and set up complex software. Our research will provide results not only in the field of astronomy, but also in database applications. By building a system capable of gathering, matching an analysing distributed data on large scales a broad set of algorithms and tools will be developed that can be reused in any field of science dealing with astronomical amounts of data.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

Our research group is investigating the possibilities of federating large scientific databases. The largest telescopes, computer simulations, gene sequencing projects etc. produce scientific data in enormous amounts. To leverage the full potential of the data the various datasets need to be connected. For example, in astronomy, we would like to investigate spatial objects in multiple wavelength bands. Federating datasets is hard due the inhomogeneity of the systems, the amount of data (10-100 TB) and because data centres are distributed geographically. We build “Virtual Observatories” and “Digital Laboratories” to help researchers access raw data remotely, publish their own data and work such way that they do not need to download the intermediate results but only the final results of the analysis which significantly speeds up the work process. We work in an international collaboration, primarily with the Johns Hopkins University and the International Virtual Observatory Alliance.





 

Final report

 
Results in Hungarian
A pályázat eredeti célkitűzéseinek megfelelően jelentős munkát fektettünk a katalógusok keresztazonosítására szolgáló SkyQuery rendszer továbbfejlesztésébe. Az egyik fő tevékenység a SkyQuery és a Johns Hopkins egyetemen üzemeltett egyéb csillagászati adatbázisok összekapcsolása volt, mint pl. az SDSS SkyServer és a SciServer. Több mint 50 nagy csillagászati adatbázist annotáltunk és konvertáltunk a SkyQuery rendszerébe, így azokon elvégezhetővé vált a keresztazonosítás. Jelentős munkát fektettünk a Lábnyom Szolgáltatás új verziójának kifejlesztésébe, mely hamarosan on-line elérhetővé válik és égterületek egzakt geometriai adatbázisát teszi lehetővé, mint amilyenek pl. az égtérképek lefedettségi térképei. Ehhez kapcsolódóan az ESA-val együttműködésben egy adatbázist építettünk, mely a Herschel Űrteleszkóp méréseinek lefedettségi térképeit tartalmazza. Jelentős előrehaladást tettünk a fotometrikus vöröseltolódás-becslés témakörében. Elkészítettük az SDSS DR12 “hivatalos” foto-z katalógusát és egy cikksorozatot indítottunk a foto-z technikák validálásáról. Újtípusú kozmológiai szimulációk kifejlesztésébe kezdtünk. Az inhomogén módon táguló univerzumot modellező szimulációnk eredményének jelentős nemzetközi visszhangja volt. Egy olyan új típusú, standard szimuláción is elkezdtünk dolgozni, mely periodikus doboz helyett gömbi geometriát használ. Fő előnye, hogy jobban illeszkedik a megfigyelésekhez, ezért fontos eszköz lehet a közeljövő nagy égfelméréseinek kiértékelésében.
Results in English
According to the main goal of the proposal, we have put significant work into the development of the SkyQuery on-demand cross-match tool. The main effort went into integrating SkyQuery with the rest of astronomy related database and data processing services at the Johns Hopkins University, particularly the SDSS SkyServer and SciServer. We have annotated and converted more than 50 important astronomical data sets to be accessible from SkyQuery for cross-matching. We have done significant work on a new version of Footprint Service which will soon be published on-line and will allow access to the exact geometric description of spherical regions such as sky survey footprint. As a side project to the Footprint Service, in collaboration with ESA, we built a database of observation sky coverage for the Herschel Space Observatory. We have done significant work in the field of photometric redshift estimation. We created the "official" catalog of photo-z redshift for the Sloan Digital Sky Survey and started a series of papers on photo-z validation. We started working on new types of n-body cosmological simulations. Our simulation of the inhomogeneously expanding universe spurred international interest. We have started working on a new type of standard cosmological simulation which uses a spherical geometry instead of a periodic box. Matching the observations better, this simulation technique is expected to be an important tool for analyzing future large scale sky survey data.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=114560
Decision
Yes





 

List of publications

 
Beck, Róbert; Dobos, László; Budavári, Tamás; Szalay, Alexander S.; Csabai, István: Photometric redshifts for the SDSS Data Release 12, accepted for publication in Monthly Notices of the Royal Astronomical Society, 2016
Beck, Róbert; Dobos, László; Yip, Ching-Wa; Szalay, Alexander S.; Csabai, István: Quantifying correlations between galaxy emission lines and stellar continua, Monthly Notices of the Royal Astronomical Society, Volume 457, Issue 1, p.362-374, 2016
Laszlo Dobos, Tamas Budavari, Evelin Banyai, Istvan Csabai and Alexander Szalay: SKYQUERY: A PARALLEL DATABASE PLATFORM FOR ON-DEMAND CROSS-MATCHING, Proceedings of the ESA Conference on Big Data from Space (BIDS), 2016
Verebélyi, Erika; Dobos, László; Kiss, Csaba: Footprint Database and web services for the Herschel space observatory, Proceedings of the IAU General Assembly, Meeting #29, id.2236977, 2015
Erika Verebelyi, Laszlo Dobos, Eva Verdugo, David Teyssier, Katrina Exter, Ivan Valtchanov and Csaba Kiss: A FOOTPRINT DATABASE OF THE HERSCHEL SPACE OBSERVATORY, Proceedings of the ESA Conference on Big Data from Space (BIDS), 2016
Varga-Verebélyi Erika: Hideg galaktikus molekulafelhők vizsgálata, doktori értekezés - 7. fejezet, 2016
Beck, Róbert; Dobos, László; Budavári, Tamás; Szalay, Alexander S.; Csabai, István: Photometric redshifts for the SDSS Data Release 12, Monthly Notices of the Royal Astronomical Society, Volume 460, Issue 2, p.1371-1381, 2016
Rácz, Gábor; Dobos, László; Beck, Róbert; Szapudi, István; Csabai, István: Concordance cosmology without dark energy, Monthly Notices of the Royal Astronomical Society: Letters, Volume 469, Issue 1, p.L1-L5, 2017
Beck, R.; Dobos, L.; Budavári, T.; Szalay, A. S.; Csabai, I.: Photo-z-SQL: Integrated, flexible photometric redshift computation in a database, Astronomy and Computing, Volume 19, p. 34-44., 2017
Bagoly, Z.; Horvath, I.; Szecsi, D.; Balazs, L. G.; Csabai, I.; Dobos, L.; Lichtenberger, J.; Toth, L. V.: The Automatized Detector Weight Optimization (ADWO) Method for Searching Weak Electromagnetic Counterparts of Gravitational Waves, Eighth Huntsville Gamma-Ray Burst Symposium, held 24-28 October, 2016 in Huntsville, Alabama. LPI Contribution No. 1962, id.4009, 2016
Bagoly, Zsolt; Szécsi, Dorottya; Balázs, Lajos G.; Csabai, István; Horváth, István; Dobos, László; Lichtenberger, János; Tóth, L. Viktor: Searching for electromagnetic counterpart of LIGO gravitational waves in the Fermi GBM data with ADWO, Astronomy & Astrophysics, Volume 593, id.L10, 4 pp., 2016
Banyai, E.; Plachy, E.; Molnar, L.; Dobos, L.; Szabo, R.: Constraining RRc candidates using SDSS colours, Communications from the Konkoly Observatory, Vol. 105, p. 195-196, 2016
Beck Róbert: Empirical and spectral template based approaches in the analysis of galaxy data, a doktori értekezés jelenleg bírálat alatt áll, 2017
G Rácz, I Szapudi, I Csabai, L Dobos: Compactified Cosmological Simulations of the Infinite Universe, accepted for MNRAS 2018, arXiv:1711.04959, 2018
R Beck, I Csabai, G Rácz, I Szapudi: The integrated Sachs-Wolfe effect in the AvERA cosmology, submitted to MNRAS 2018, arXiv:1801.08566, 2018
L Dobos, G Csörnyei: The effect of emission lines on the performance of photometric redshift estimation algorithms, In preparation, 2018
G Dálya, G Galgóczi, L Dobos, Z Frei, I S Heng, R Macas, C Messenger, P Raffai, R S. de Souza: GLADE: A Galaxy Catalogue for Multi-Messenger Searches in the Advanced Gravitational-Wave Detector Era, submitted to MNRAS 2018, arXiv:1804.05709, 2018
Beck Róbert: Empirical and spectral template based approaches in the analysis of galaxy data, https://edit.elte.hu/xmlui/handle/10831/37497, 2017
G Rácz, I Szapudi, I Csabai, L Dobos: Compactified Cosmological Simulations of the Infinite Universe, Monthly Notices of the Royal Astronomical Society, Volume 477, Issue 2, p.1949-1957, 2018
R Beck, I Csabai, G Rácz, I Szapudi: The integrated Sachs-Wolfe effect in the AvERA cosmology, Monthly Notices of the Royal Astronomical Society, Volume 479, Issue 3, p.3582-3591, 2018
G Dálya, G Galgóczi, L Dobos, Z Frei, I S Heng, R Macas, C Messenger, P Raffai, R S. de Souza: GLADE: A Galaxy Catalogue for Multi-Messenger Searches in the Advanced Gravitational-Wave Detector Era, Monthly Notices of the Royal Astronomical Society, Volume 279, Issue 2, pp. 2374-2381, 2018
Dobos, László; Varga-Verebélyi, Erika; Verdugo, Eva; Teyssier, David; Exter, Katrina; Valtchanov, Ivan; Budavári, Tamás; Kiss, Csaba: The Footprint Database and Web Services of the Herschel Space Observatory, Experimental Astronomy, Volume 42, Issue 2, pp.139-164, 2016
Plachy, E.; Molnar, L.; Szabo, R.; Kolenberg, K.; Banyai, E: Target selection of classical pulsating variables for space-based photometry, Communications from the Konkoly Observatory, Vol. 105, p. 19-22, 2016
János M Szalai-Gindl, László Dobos, István Csabai: Tiling Strategies for Distributed Point Cloud Databases, Proceedings of the 29th International Conference on Scientific and Statistical Database Management pp. 32, 2017
Beck, R., et al.: On the realistic validation of photometric redshifts, Monthly Notices of the Royal Astronomical Society Volume 468 Issue 4 pp.4323-4339., 2017
István Csabai, László Dobos, Attila Kiss and János M. Szalai-Gindl: Some Mathematical Properties of the Performance Measures Applied for Point Cloud Databases, Annales Universitatis Scientiarum Budapestinensis de Rolando Eötvös Nominatae, Sectio Computatorica, Volume 47, pp. 197–209, 2018
János M. Szalai-Gindl, Tamás Budavári, Thomas J. Loredo, Brandon C. Kelly, István Csabai, László Dobos: Hierarchical Bayesian Method for Estimating Luminosity Function, accepted for publication in Astronomy and Computing, 2018
Csörnyei Géza: Fotometriai vöröseltolódás-becslések pontosítása, BSc szakdolgozat, 2018
L Dobos, T Budavári, E Bányai, T Hajdu, Alexander S. Szalay: SkyQuery: a web service for fast cross-matching of the largest astronomical catalogs, Division B of IAU General Assembly, Vienna, 2018
G Csörnyei, L Dobos: Characterizing the effect of emission lines on photometric redshift estimation, Division J of IAU General Assembly, Vienna, 2018
Ribli, Dezső, Bálint Ármin Pataki, and István Csabai: An improved cosmological parameter inference scheme motivated by deep learning, Nature Astronomy doi:10.1038/s41550-018-0596-8, 2018





 

Events of the project

 
2017-10-25 10:37:39
Résztvevők változása
2015-09-17 09:12:22
Résztvevők változása




Back »