Seit einiger Zeit arbeite ich ja nun schon an der Universität Heidelberg. Mein Arbeitsgebiet dort ist das europäische virtuelle Observatorium EURO-VO. Virtuelles Observatorium? Klingt so, als hätten sich das die Politiker ausgedacht, um sich die Kosten für eine Sternwarte sparen zu können 😉 Ein virtuelles Observatorium hat aber in Wirklichkeit natürlich nichts mit Einsparungen zu tun – sondern eher mit einer Erweiterung der Möglichkeiten für beobachtende Astronomen.
Wenn Astronomen den Himmel beobachten, dann tun sie das ja schon lange nicht mehr nur mit freiem Auge. Auch durch die Teleskope sieht man nur noch sehr selten. CCD-Kameras machen die Aufnahmen und Astronomen können sie später auf einem Computer betrachten und analysieren. Und was passiert mit diesen Daten, wenn man mit der Arbeit fertig ist?
Nun, am besten ist es, man bewahrt sie auf. Denn vielleicht tauchen später noch weitere Fragen auf – und dann ist man froh, wenn die Daten noch da sind. Außerdem sollten die einer wissenschaftlichen Arbeit zugrunde liegenden Rohdaten sowieso immer verfügbar sein um sie im Zweifelsfall überprüfen zu können.
Also liegen an den Sternwarten und Instituten überall auf der Welt Unmengen an astronomischen Daten herum. Wenn sich dabei z.B. um Himmelsdurchmusterungen und große Kataloge (wie z.B. 2MASS oder Hipparcos) handelt, dann sind die Daten meistens veröffentlicht und frei zugänglich. Bei vielen Beobachtungen ist das aber nicht der Fall – und das ist schade. Denn was für den einen alte, nicht mehr nützliche Daten sind, ist für den anderen vielleicht genau die Information, die benötigt wird um ein bestimmtes Problem zu lösen. Wenn man allerdings nicht weiß, dass diese Informationen und Aufnahmen schon irgendwo existieren, dann bleibt einem nichts anderes übrig, als selbst noch einmal zu beobachten. Das kostet dann oft viel Zeit, viel Geld und viel Mühe (und wenn man Pech hat und spezielle Instrumente benötigt für deren Benutzung man erst einen Antrag stellen muss, dann kann es passieren, dass man gar keine Beobachtungserlaubnis bekommt).
Und hier kommen jetzt virtuelle Observatorien ins Spiel. Ein virtuelles Observatorium (VO) ist eine Infrastruktur (ein Computerprogram, eine Homepage), die möglichst viele astronomische Daten auf sinnvolle Art und Weise zur Verfügung stellt. Wenn ich dann z.B. dringend eine Infrarot-Aufnahme des Orionnebels benötige, dann kann ich einfach dort nachsehen und spare mir eine eigene Beobachtung.
Ein virtuelles Observatorium ist idealerweise aber mehr als eine reine Datenbank. Es sollte auch die Möglichkeit bieten, die Daten untereinander zu vernetzen (z.B. mit Informationen aus Sternkatalogen), sie zu bearbeiten und zu analysieren (ein Beispiel dafür ist das Computerprogram Aladin, über das ich vor einiger Zeit schon mal geschrieben habe).
Viele Länder haben mittlerweile nationale virtuelle Observatorien eingerichtet und diese in der IVOA (International Virtual Observatory Alliance) vernetzt. Auch Deutschland hat ein virtuelles Observatorium: GAVO – das German Astrophysical Virtual Observatory (hier arbeite ich im Moment). Aber natürlich macht es wenig Sinn, wenn hier jedes Land sein eigenes Süppchen kocht. Wünschenswert wäre eine einheitliche Datenbank, die alle verfügbaren Informationen zusammenfasst und eine einheitliche Infrastruktur, die allen den Zugang zu diesen Daten ermöglicht.
Und genau das ist das Ziel des Europäischen Virtuellen Observatoriums – hier soll ein gesamteuropäisches VO aufgebaut werden. Dazu reicht es natürlich nicht, einfach nur Daten zu sammeln. Hier müssen u.a. jede Menge neue Methoden entwickelt werden, die Daten so zu beschreiben, dass man sie auch wiederfindet und vernünftig nach ihnen suchen kann (man hat zum Beispiel, basierend auf der Datenbanksprache SQL, eine Astronomical Data Query Language (ADQL) entwickelt). Und natürlich gibts dann noch jede Menge andere Fragen, die zu lösen sind, wenn mehrere Länder gemeinsam ein Vorhaben bearbeiten (wer schon mal an einem EU-Projekt mitgearbeitet hat, weiß, was ich meine).
Virtuelle Observatorien sind also eine gute Sache – aber trotzdem haben sie noch mit einem gewissen Popularitätsproblem zu kämpfen. Anscheinend wollen viele Forscher doch lieber eigene Daten haben, anstatt mit fremden zu arbeiten. Und viele Beobachter haben wohl Hemmungen, ihre Aufnahmen an ein virtuelles Observatorium weiterzugeben. Dabei würde es den Daten in einer betreuten und gut organisierten Datenbank sicher viel besser gehen, als auf selbstgebrannten CDs oder DVDs (deren Lebenszeit ja sowieso begrenzt ist). Die Daten lassen sich auf Wunsch natürlich auch mit einem Passwort schützen – falls nur bestimmte Leute Zugriff dazu bekommen sollen.
Zum Abschluß daher ein Aufruf an alle (Amateur)Astronomen unter meinen Lesern: wenn ihr astronomische Daten habt, dann überlegt doch mal, ob ihr die nicht einem virtuellen Observatorium zur Verfügung stellen wollt. Das müssen keine Bilder sein – auch theoretische Daten von z.B. Simulationen sind gerne gesehen (das deutsche virtuelle Observatorium GAVO hat sehr viele theoretische Daten gesammelt – z.B. die der Millenium-Simulation). Oder Spektren, Lichtkurven, Aufnahmen von Planeten und Asteroiden – alles ist von Interesse. Wie ich oben schon gesagt habe: was für den einen schon längst nicht mehr interessant ist, wird woanders vielleicht dringend benötigt! Einfach eine Nachricht an mich schicken – dann können wir die Details besprechen.
Übrigens sind virtuelle Observatorien nicht nur für Forscher interessant. Man kann sie auch wunderbar in der Lehre einsetzen – an Universitäten, an Schulen oder in der Öffentlichkeitsarbeit. Im Moment arbeite ich gerade daran, verschiedene Projektbeispiele auszuarbeiten, die dann z.B. im Physik- oder Astronomieunterricht an Schulen eingesetzt werden können. Auch dafür suche ich noch interessierte Lehrer – aber zu diesem Thema werde ich sicher noch einen eigenen Beitrag schreiben.
Da muss man ja eigentlich knallhart sagen – ist öffentlich bezahlt, also rausrücken.
Natürlich kann man verstehen, wenn die Daten noch nicht aufbereitet oder nicht allgemeintauglich aufbereitet wurden, gibt es denn da mittlerweile in den Förderbedingungen z.B. der DFG etwas dass Datenaufbereitung regelt?
@Jörg: Nicht das ich wüsste. Aber ich bin ja auch Theoretiker und hab bisher noch nie mit Beobachtungsdaten zutun gehabt. Ich werd das aber mal checken…
Und „aufbereitet“ müssen die Daten ja eigentlich gar nicht werden. Je „roher“ die Daten, desto besser eigentlich. Denn dann kann sie später jeder für sich selbst wieder so neu bearbeiten, wie man es gerade haben möchte.
Naja ich dachte eher an zufällige Abspeicherformate, nicht entzifferbare Dateinamen (außer für den der sie angelegt hat), headerlose Textdateien mit vielen Spalten, unbekannte Einheiten und unbekannte Ordnerstrukturen. Wie das halt so ist auf jeder Festplatte…
Achso – ja, klar – du meinst so wie bei mir aufm Computer 😉
Ja, das sollte natürlich nicht sein. Bei den Beobachtungsdaten ist das insofern einfacher, weil die ja sowieso so gut wie alle als fits-Datei vorliegen die einfach weiterverarbeitet werden kann. Aber bei anderen Daten (gerade wenns um theoretische Simulationen geht) kann es in der Hinsicht kompliziert werden.
Ich finde dieses Projekt sehr spannend. Je mehr Daten vorliegen desto genauer können Ergebnisse sein. Als Benutzer von BOINC (Seti@home u. a.) denke ich das es dann auch bald Anwendungen für verteiltes Rechnen gibt, da Analysen ja sehr rechhenintensiv sein können. Ich hoffe nur das wenn so eine Datenbank der Öffentlichkeit zugänglich gemacht wird nicht das gleiche passiert wie der Europeana-Biblothek (offline nach zuvielen Zugriffen).
Bei Büchern gibt es die Pflicht 2 Exemplare an die Deutsche Bücherei/Bibliothek abzuliefern. So etwas wäre wohl auch für Beobachtungsdaten denkbar. (nicht so knallhart formuliert wie Joerg)
Die Frage nach den Formaten ist natürlich schwierig – Je mehr Formate desto unübersichtlicher wird das Ganze. Da sind dann OpenSource Formate wichtig da diese oft von vielen Programmen öffnen lassen und wenn ein Programm mal nicht mehr existiert leben die Formate meistens weiter (in neuen Programmen).
@Jörg: gibt es denn da mittlerweile in den Förderbedingungen z.B. der DFG etwas dass Datenaufbereitung regelt?
Nein.
Die DFG fördert nur Wissenschaft. Datenaufbereitung ist dagegen Projektarbeit und die muss man anders finanzieren. Bei uns wird es zum Glück durch die DLR finanziert. Zumindest für Mars Express und Rosetta. Für Venus Express gibt es kein Funding. Wir können Venus Express nur deswegen zumindest auf Minimum nebenbei mitaufbereiten, weil wir die Strukturen für MEX und Rosetta aufgebaut haben.
Und Florian: Fits-files sind schön und gut.Und was ist in 50 Jahren? Bist Du sicher, dass man die FITS-Files da noch lesen kann?
Da sind dann OpenSource Formate wichtig da diese oft von vielen Programmen öffnen lassen und wenn ein Programm mal nicht mehr existiert leben die Formate meistens weiter (in neuen Programmen).
Sorry Florian, aber das halte ich für ein bisschen blauäugig. Geh mal 30 Jahre zurück und sage mir mal, welches Datenformat und Programmpaket von damals bis heute überlebt hat? Ihr müsst, um wirklich langfristig zu denken, auch die Software mit archivieren, die in der Lage ist, die Daten auszulesen und zwar den gesamten Quellcode. Da würde sich dann Open-Source tatsächlich anbieten. IDL erfüllt diese Voraussetzungen schon mal nicht. Die werden den Teufel tun und den Source code offen legen.
Und was ist, wenn’s schief geht? Solche Datenmengen muss man erst mal umkonvertieren können und dann muss man auch irgendwie sicher stellen, dass es da keinen Datenverlust oder Verfälschung gibt.
Jörg hat völlig recht. Eine reine Datenanhäufung ist völlig nutzlos. Selbst wenn man auf vernünftige Header achtet. Das A und O bei jeder Datensammlung sind die drei Ds: Dokumentation, Dokumentation, Dokumentation. Aber die schreibt sich nicht von selbst. Wer bezahlt das? Wer hat überhaupt die Zeit dafür?
Genau darüber hat sich z.B. die NASA bzw. deren Datenarchivierungszweig PDS Gedanken gemacht und die haben es extrem gut umgesetzt. Man kann als kleiner Diplomand nach einer Einarbeitungsphase die Daten von Pioneer Venus auswerten. Das ist nicht selbstverständlich. Schließlich ist diese Mission Jahrzehnte her.
Datenarchivierung? Don’t geht me started. Ich könnte einen abendfüllenden Vortrag, ach was sag ich da, eine Vortragsreihe drüber halten, was man dabei beachten muss, was alles schief gehen kann und wie zeitaufwendig eine vernünftige Datenarchivierung ist. „Vernünftig“ bedeutet, dass die Daten im Extremfall selbst in 50 Jahren noch lesbar sind.
@Anhaltiner: „Ich hoffe nur das wenn so eine Datenbank der Öffentlichkeit zugänglich gemacht wird nicht das gleiche passiert wie der Europeana-Biblothek (offline nach zuvielen Zugriffen).“
Also die Datenbanken sind auch jetzt schon öffentlich zugängig. Du kannst dir Aladin runterladen und damit auf Unmengen an Daten zugreifen oder du kannst z.B. auf die GAVO-Homepage schauen, und nachsehen, was es dort alles gibt. Bei EURO-VO geht es hauptsächlich darum, einheitliche Standards für die ganzen VOs zu finden und die einzelnen nationalen VOs zusammenzuführen. Und natürlich wird auch immer darauf geachtet, neue Daten und Services hinzuzufügen.
@Ludmila: „Sorry Florian, aber das halte ich für ein bisschen blauäugig“
Da meinst du wohl Anhaltiner, der hat das mit den Formaten gesagt 😉
Die Sache mit den Daten bzw. FITS-files ist natürlich so ne Sache. Sieht man ja jetzt auch, wenn probiert wird, die ganzen alten Fotoplatten zu digitalisieren, damit man sie in die elektronischen Archive aufnehmen kann. Das wird in Zukunft wohl nicht anders sein – aber vielleicht macht man sich vorher ein bisschen mehr Gedanken und der Übergang zu neuen Formaten wird einfacher (ok, das könnte jetzt tatsächlich ein bisschen blauäugig sein 😉 )
Eine vernünftige Beschreibung für astronomische Daten aller Art zu finden, so dass man auch noch lange später weiß, was Sache ist, gehört natürlich auch zu den Hauptthemen des EURO-VO AIDA Projekts. Mit den Details dazu habe ich mich allerdings noch nicht beschäftigt. Aber die Leute sind sich des Problems auf jeden Fall bewußt!
@Ludmila mag sein das es ein bisschen blauäugig ist. Aber ich gehe nicht davon aus das erst in 50 Jahren jemand merkt das es ein Format seit 40 Jahren nicht mehr gibt.
@Florian das Problem der Migration auf ein neues Datenformat ist meistens das es ein neues Format ist. Da müssen dann immer Heerscharen von Programierern Migrations-Programme schreiben um die Datenbanken auf die aktuelle Umgebung anzupassen. Sowas geht nun mal nicht ex-ante.
@Ludmila „Geh mal 30 Jahre zurück und sage mir mal, welches Datenformat und Programmpaket von damals bis heute überlebt hat?“ – Soweit ich weis wurde damals noch in Papierform archiviert (oder Fotoplatten) da die Technik noch nicht umfangreiche Datensammlungen zulies. Somit sind die Daten wenigstens erhalten geblieben. Das Technik nunmal veraltet bringt immer Probleme mit sich – besonders wenn man sich um die alten Datenbestände und Träger nicht kümmert. Heute liegen z.B. im Stasi-Archiv Magnettrommeln rum – und keiner hat die passenden Maschienen sie zu lesen. Man weis nun nicht ob die Daten in anderer Form archiviert worden sind, mangels Dokumentation. In dem Punkt „3D’s“ gebe ich dir recht. Den Aufwand den heute Biblotheken treiben um ihre Bücher zu retten (Dach abdichten, Papier entsäuern oder in andere Gebäude umziehen) wird man wohl auch in Zukunft betreiben müssen, nur dann eben virtuell (Datenmigration s.o., Datendigging, Serverwechsel etc.) – Es gibt viel was zu tun, warten wir es ab 😉
@Anhaltiner: Sorry, ich wollte da nicht so unsensibel auftreten. Ich hier die Datenbeauftragte und kämpfe damit auch mit solchen Problemen an vorderster Front.
Das Nervige an dem Ganzen ist, dass viel zu viele Leute – auch auf oberster Ebene – das Problem nicht Ernst nehmen oder unterschätzen. Daten archivieren? Kann doch nicht so schwer sein! Dementsprechend werden dann Gelder und Leute verteilt. Viel zu wenig.
Letztendlich fällt so etwas in der Realität, wenn man sich nicht von vornherein hinsetzt und sich Gedanken drüber macht, leider viel zu oft erst dann auf, wenn das Kind in den Brunnen gefallen ist.
Warum sind denn so einige Original-Magnetbänder der Mondlandungen bei der NASA verschwunden und nicht wieder auffindbar? Da muss nur irgendjemand einfach die Bänder rausgenommen und vergessen haben, zu unterschreiben, dass er die mitgenommen hat und vor allem wohin. Wetten, dass die entweder im Müll gelandet sind oder irgendwo rumstauben! In irgendeiner Ecke in einem Büro?
Die modernen Speichermedien sind außerdem anfälliger für Zerfall, als man sich das dachte. So manches berühmte Originalfoto aus den 50er und 60er Jahren ist unwiederbringlich zerstört. Zeitungspapier – ist ja extrem billiges Papier – enthielt vor etwa 100 Jahren einen nicht unerheblichen Anteil Säure. Ganze Jahrgänge sind bereits unwiederbringlich zerstört worden. Die Restauration von so etwas ist extrem teuer und zeitaufwendig. Das kann man nur für extrem wichtige Werke bringen.
CDs und DVDs halten maximal 10 Jahre. Festplatten/Magnetbänder gehen auch mal kaputt oder können nicht mehr bedient werden, weil es die entsprechende Hardware nicht mehr gibt
Das BND hat letztes Jahr zugeben müssen, dass denen Daten verloren gegangen sind, weil die Festplatten einen Defekt hatten.
Schon heute schlagen Archivare Alarm, dass wir an digitalem Gedächtnisschwund leiden. Und das Problem wird sich nur verschärfen. Es betrifft nicht nur die astronomischen Daten, sondern so ziemlich alles, was wir an Wissen angesammelt haben.
Da ich ein bisschen mit der Materie beschäftigt bin wollte ich nur kurz anmerken, das man meiner Meinung nach nicht einfach sagen kann: „gebt uns eure Daten“, das ist nicht die Aufgabe von VO.
Es ist meiner Meinung nach die Aufgabe, Standards zum wissenschaftlichen Austausch von Daten, deren Enstehungsgeschichte (Provenienz) und Nachvollziehbarkeit zu entwickeln.
Sobald diese Tools und Standards zum Austausch von Daten etabliert sind (und da ist das VO noch in den Kinderschuhen) kann man anfangen Services für diese Standards anzubieten (Archiv, etc.) am wichtigsten ist aber meiner Meinung nach, das den Leuten klar wird, das Daten durch Metadaten, durch gute Formatwahl und Dokumentation so behandelt werden sollten, das Nachnutzung und Austausch schon bei der Erschaffung der Daten im Hinterkopf sein sollten.
Da hier viel noch nicht bei allen angekommen ist, ist es wichtig diese Denkweise weiter zu fördern.
Das dann alles zu sammeln wird dann nicht über ein zentrales Archiv sondern eine Registry dieser Daten funktionieren, und wer will kann seinen Datensatz dann dort einfach registrieren.
Wichtig ist es den Leuten keine Vorschriften zu machen, sondern neue Möglichkeiten der Zusammenarbeit anzubieten.
…und da Daten um so sicherer sind, an je mehr Orten sie archiviert werden, archiviere ich seit einiger Zeit Astrodicticum Simplex! Dereinst wird es einen Riesen-Ordner geben voll mit allem, was jemals auf diesem Blog geschrieben wurde, hier auf meiner unersättlichen Festplatte in der Khyberspace-Bodenstation in Qal’a-ye Nil, Bergisch-Afghanistan! Natürlich nicht nur auf dieser einen Festplatte, sondern auch auf der externen Backup-Platte und auf BluRay-Discs…