Wissenschaft
24.06.2022, 09:17 Uhr
PSI: Ein neuer Forschungsbereich zur Bewältigung grosser Datenmengen
Grossforschungsanlagen, die auf Hochtouren laufen, produzieren riesige Mengen an Daten. Um diese zu interpretieren, bündelt das PSI jetzt seine Kräfte im neuen Forschungsbereich «Computergestützte Wissenschaften, Theorie und Daten».
Alun Ashton leitet die Abteilung «Wissenschaftliche IT-Infrastruktur und Dienstleistungen.»
(Quelle: PSI / Scanderbeg Sauer Photography)
Die Forscherkarriere von Alun Ashton begann in den 1990ern, also gewissermassen in der Steinzeit, zumindest was die Nutzung von Computern betrifft. «Als Student habe ich die Daten meiner Messungen auf Floppy-Discs gespeichert», erinnert sich der Biochemiker und Computerwissenschaftler. «Müsste ich die Daten, die heute an nur einem Experiment an der Synchrotron Lichtquelle Schweiz SLS entstehen, auf solchen Floppys speichern, bräuchte ich davon Millionen – und mehrere Leben, um die Disketten zu wechseln.»
Allerdings hat sich die Informationstechnologie so rasant entwickelt, dass Ashton seine Zeit für andere Dinge nutzen kann. Selbst grosse Datenmengen aus den Experimenten am Paul Scherrer Institut (PSI) werden ausreichend schnell verarbeitet und gespeichert. Zumindest bis jetzt. Spätestens wenn 2025 nach einem Upgrade der SLS die SLS 2.0 den Betrieb aufnimmt, werden die Forschenden am PSI vor einem Problem stehen.
Nach dem Upgrade auf die SLS 2.0 können Experimente eine bis zu tausendfach höhere Leistungsfähigkeit haben als bei der heutigen SLS und bei anderen Konfigurationen. Sie können daher viel mehr Daten liefern als bislang. Hinzu kommen bessere und schnellere Detektoren mit höherer Auflösung.
Wo die heutige SLS-Strahllinie einen Datensatz pro Minute erzeugt, werden mit der SLS 2.0 in unter einer Sekunde solche Datenmengen entstehen. Auch der neue Jungfrau-Detektor am SwissFEL (Free-Electron Laser) kann bei voller Geschwindigkeit auf 50 Gigabytes pro Sekunde kommen. Insgesamt liefern die Experimente am PSI derzeit 3,6 Petabytes pro Jahr. Wenn die SLS 2.0 voll in Betrieb ist, könnten die Experimente allein dort bis zu 30 Petabytes pro Jahr erzeugen, wofür man rund 50'000 PC-Festplatten bräuchte.
Frische Ideen gesucht
Mit den alten Konzepten lassen sich am PSI die neuen Datenmengen somit nicht bewältigen. Es braucht Ideen, wie man der Informatinsflut Herr werden kann, um so die Forschungsfragen zu beantworten. Und es braucht einen eigenen Forschungsschwerpunkt mit entsprechender organisatorischer Struktur. Das Ergebnis ist der neue Forschungsbereich «Computergestützte Wissenschaften, Theorie und Daten», kurz SCD, der im Juli 2021 gegründet wurde.
Der SCD verbindet bereits bestehende Einheiten wie beispielsweise das Labor für Simulation und Modellierung, aber auch neue Einheiten wie den dritten Standort des Swiss Data Science Center am PSI, der die beiden bisherigen Standorte an der ETH Lausanne und der ETH Zürich ergänzt. Rund siebzig Personen in vier Abteilungen forschen, entwickeln und stellen Support bereit, schon bald sollen es hundert sein. Während die drei Laborleiter Andreas Adelmann, Andreas Läuchli und Nicola Marzari sich vor allem um wissenschaftliche Methoden in ihren jeweiligen Fachdisziplinen kümmern, leitet Alun Ashton mit der Abteilung Wissenschaftliche IT-Infrastruktur und Dienstleistungen eine Service-Einheit, die Wissenschaftler und Wissenschaftlerinnen im Forschungsbereich Photonenforschung, am SCD sowie PSI-weit fachlich im Scientific Computing unterstützt.
«Die Forschungsabteilungen sollen forschen und nicht eigene IT-Abteilungen unterhalten», so Ashton. Deshalb sei die Zentralisierung im SCD der richtige Schritt. «Wir erfinden das Rad nicht neu, aber mit dem SCD haben wir dennoch ein Alleinstellungsmerkmal», pflichtet Adelmann bei. «Das SCD ist mehr als die Summe seiner Teile.»
Einer seiner interessantesten «Kunden» sei Marco Stampanoni, sagt Ashton. Das Team des ETH-Professors hat sich der tomografischen Röntgenmikroskopie verschrieben, die allerhöchste Anforderungen an die Rechenleistung und Speicherkapazität stellt. Um etwa zu untersuchen, wie bei der Synthese einer neuen Legierung ein warmes Gas in einen metallischen flüssigen Schaum dringt, muss die Software für jede Millisekunde einen dreidimensionalen Schnappschuss aus den Daten errechnen. Das sind gewaltige Datenmengen, die erzeugt und weiterbearbeitet werden müssen.
Andere Kollegen im gleichen Labor beschäftigen sich mit computergestützter Mikroskopie und insbesondere der Ptychografie. Sie ersetzt die konventionelle Röntgenmikroskopie, die mit Linsen arbeitet, aber nicht so feine Auflösungen erreicht, wie es mit Röntgenstrahlen eigentlich möglich wäre.
Bei der Ptychografie rekonstruiert ein iterativer Algorithmus das Röntgenbild aus den Rohdaten des Detektors, der weit von der Probe entfernt ist, ohne dass eine Linse dazwischen liegt, und der die kohärenten Eigenschaften einer Synchrotronquelle nutzt. Die zugrunde liegende mathematische Operation ist rechnerisch sehr anspruchsvoll und muss tausend Mal ausgeführt werden. Bei der SLS 2.0 werden die Anforderungen an solche Rechenleistungensteigen, was die Nutzung des Supercomputers am Swiss National Supercomputing Centre in Lugano unabdingbar macht.