Zarządzanie Big Data w ośrodku badań jądrowych CERN

Gdyby Europejska Organizacja Badań Jądrowych (CERN) chciała archiwizować wszystkie dane wytwarzane przez Wielki Zderzacz Hadronów, jej system przechowywania informacji o pojemności 100 petabajtów zapełniłby się już w ciągu kilku sekund. Dlatego – jak wyjaśnia w kolejnym odcinku Rozmów Otwartej Nauki dr Tim Smith, szef działu współpracy i informacji w CERN – proces przetwarzania danych w przypadku największego na świecie akceleratora, jakim jest WZH, zaczyna się już na poziomie samych detektorów.

The Large Hadron Collider/ATLAS at CERN Picture by Image Editor Flickr https://www.flickr.com/photos/11304375@N07/2046228644/in/photolist-47Psud-ogXshs-5sfgxt-5pFCnY-7Vzyne-7nSYdK-bGdiGc-oMUk5n-5k8PQZ-pFUdGj-4ZnpUM-5UEKRF-4jWdtw-akZbPz-eCx53n-5kuG4n-rjsMvt-oa4QqD-rJ4tHd-7vij5i-5zaZoE-4bWZXe-aVqQ5k-69X6kC-6gSj6e-5J9nmk-6xCZQS-aUZVq4-7h3jQ1-5tZEmr-4Nr1cy-crfnK1-gfzocb-7gB5xT-7mFhQK-7NsNze-5nnadf-akZwLD-5kXEUJ-3JSnxr-6c2qTw-63H3bQ-6acdxA-ruTopr-rMN4Z7-rynAKA-qStmJc-rLEXiG-ruhD4g-rwH4hY

Smith opowiedział nam o stosowanych w podgenewskim ośrodku rozwiązaniach, które pomagają naukowcom optymalizować ich prace badawcze, sposobach na bezpieczne długoterminowe przechowywanie danych, powodach, dla których warto je udostępniać, a także o tym, czy wyniki badań prowadzonych przez CERN znajdują zastosowanie poza fizyką molekularną.

Przechowywane przez nas dane to tylko ułamek wszystkich danych wytwarzanych w Wielkim Zderzaczu Hadronów – wyjaśnia Smith. Poruszające się w przeciwnych kierunkach cząsteczki zderzają się ze sobą 14 milionów razy na sekundę. Z kolei każdy detektor składa się z około 150 milionów czujników. Jeśli więc pomnożymy przez siebie te dwie wielkości, to otrzymujemy petabajty danych na sekundę wytwarzanych przez detektory. Nie ma możliwości, by przechować ani zanalizować taką ilość danych. W związku z tym proces przetwarzania danych zaczyna się już w samych detektorach. Stworzyliśmy odpowiednio zaprogramowany filtr umożliwiający ograniczenie ilości danych z petabajtów na sekundę do terabajtów na sekundę.

Dane te są następnie przekazywane do połączonych sekwencyjnie komputerów, na których tysiące procesorów przetwarzają je w czasie rzeczywistym, odsiewając najbardziej interesujące przypadki i redukując w ten sposób strumień danych z terabajtów do gigabajtów na sekundę.

Obejrzyj całą rozmowę z dr. Timem Smithem z CERN.

Zobacz inne odcinki cyklu Rozmowy Otwartej Nauki.

Dodaj komentarz


Kod antyspamowy
Odśwież

Additional information