Dzielenie się danymi to tylko kolejna składowa komunikacji naukowej – transkrypcja

Przechowywane przez nas dane to tylko ułamek wszystkich danych wytwarzanych w Wielkim Zderzaczu Hadronów – wyjaśnia dr Tim Smith, szef działu współpracy i informacji w Europejskiej Organizacji Badań Jądrowych CERN, w rozmowie z Maciejem Chojnowskim. Poruszające się w przeciwnych kierunkach cząsteczki zderzają się ze sobą 14 milionów razy na sekundę. Z kolei każdy detektor składa się z około 150 milionów czujników. Jeśli więc pomnożymy przez siebie te dwie wielkości, to otrzymujemy petabajty danych na sekundę wytwarzanych przez detektory. Nie ma możliwości, by przechować ani zanalizować taką ilość danych. W związku z tym proces przetwarzania danych zaczyna się już w samych detektorach. Stworzyliśmy odpowiednio zaprogramowany filtr umożliwiający ograniczenie ilości danych z petabajtów na sekundę do terabajtów na sekundę. Dane te są następnie przekazywane do połączonych sekwencyjnie komputerów, na których tysiące procesorów przetwarzają je w czasie rzeczywistym, odsiewając najbardziej interesujące przypadki i redukując w ten sposób strumień danych z terabajtów do gigabajtów na sekundę.

Maciej Chojnowski: W ośrodku CERN Wielki Zderzacz Hadronów w każdej sekundzie wytwarza ogromne ilości danych. Pojemność Państwa systemu do przechowywania informacji to około 100 PB. Jak radzą sobie Państwo z tym ogromem danych generowanych przez akcelerator? W oparciu o jaki proces Państwo działają?

Tim Smith: W rzeczywistości ilość przechowywanych przez nas danych to tylko ułamek wszystkich danych wytwarzanych w Wielkim Zderzaczu Hadronów. Poruszające się w przeciwnych kierunkach cząsteczki zderzają się ze sobą 14 milionów razy na sekundę. Z kolei każdy detektor składa się z około 150 milionów czujników. Jeśli więc pomnożymy przez siebie te dwie wielkości, to otrzymujemy wówczas petabajty danych na sekundę wytwarzanych przez detektory. Nie ma możliwości, by przechować ani zanalizować taką ilość danych. W związku z tym proces przetwarzania danych zaczyna się już w samych detektorach. Wykorzystując silikon, stworzyliśmy odpowiednio zaprogramowany filtr umożliwiający ograniczenie ilości danych z petabajtów na sekundę do terabjatów na sekundę. Dane te są następnie przekazywane do połączonych sekwencyjnie komputerów zlokalizowanych niedaleko detektorów – w centrum kontroli – na których tysiące procesorów przetwarzają dane w czasie rzeczywistym, odsiewając najbardziej interesujące przypadki i redukując w ten sposób strumień danych z terabajtów do gigabajtów na sekundę. Dopiero te dane są za pomocą światłowodu przekazywane do centrum komputerowego CERN i tam zapisywane. Jest to zatem cały proces i w naszych analizach musimy uwzględniać algorytmy selekcji danych wykorzystywane zarówno na początkowym etapie ich rejestrowania, jak i przy późniejszym filtrowaniu.

Kiedy ma się do czynienia z wielkimi zbiorami danych, okazuje się, że problem nie polega jedynie na samym ich przechowywaniu, ale także na przyroście danych (np. w rezultacie ich ponownego wykorzystywania) czy starzeniu się nośników, na których są one zapisywane. Jaką strategią dysponuje CERN, jeśli chodzi o długoterminowe zabezpieczanie danych?

Od dłuższego czasu prowadzimy eksperymenty z cyfrowymi odczytami i początkowo godziliśmy się, żeby w przypadku każdego eksperymentu dane były zapisywane na dowolnym nośniku. Z kolei w centrum archiwizacji przechowywaliśmy czytniki zapewniające stały odczyt danych z tych nośników. Jednak z czasem utrzymanie tych wszystkich technologii stawało się coraz trudniejsze i przyjęliśmy nową strategię, zgodnie z którą wszelkie dane bez względu na nośnik kopiujemy na najbardziej zaawansowane technologicznie urządzenia. Wszystkie dane zapisywane są na taśmach przechowywanych w specjalnych bibliotekach taśmowych, do których obsługi wykorzystujemy roboty.  Co jakieś 3–5 lat planujemy dokonywać migracji danych na taśmy najnowszej generacji, utrzymując zarazem bez zmian roboty używane w bibliotece, żeby przynajmniej w tym obszarze móc mówić o dobrze zainwestowanym kapitale: mamy szansę na zwrot kosztów po upływie 30 lat. Jednak same nośniki są zmieniane regularnie – staramy się wykorzystywać najbardziej efektywne rozwiązania technologiczne. Oznacza to, że musimy regularnie odczytywać nasze dane ze starszych nośników i kopiować ja na te wykorzystujące najnowszą technologię. Podczas przeprowadzania analiz fizycznych korzystamy z pamięci podręcznych na dyskach, które są jednak za małe, by pomieścić wszystkie dane. Kopiujemy więc te informacje na taśmy w archiwum głębokim, zaś w pamięciach podręcznych zapisywane są kolejne dane analizowane na bieżąco przez naukowców. Dane są więc nieustannie aktualizowane, co niekoniecznie łączy się z odczytem pełnej zawartości taśm. Jednak wiemy też, że w tle cały czas musi odbywać się odczytywanie danych ze względu na ich możliwą degradację. Jeśli nie sprawdza się ich regularnie, pewnego dnia może okazać się, że jest już za późno i że dane przepadły. Istnieją dziesiątki powodów możliwej utraty danych, nawet jeśli są one dobrze przechowywane i jeśli zgadzają się sumy kontrolne. W naszym przypadku istniało ryzyko, że nie byłyby one bezpieczne, stąd programy migracji i kontroli – mają one zapewnić dostępność wszystkich danych co do joty. Jednak tu pojawia się kolejna kwestia: nie można zapominać o zmianach formatu, a także o innych operacjach wyższego stopnia, co samo w sobie jest dużym problemem.

Additional information