Dzielenie się danymi to tylko kolejna składowa komunikacji naukowej – transkrypcja

CERN nie tylko wytwarza ogromne ilości danych, ale także je udostępnia. Z kolei umożliwienie ponownego wykorzystania danych wymaga zapewnienia ich czytelności, dostępności oraz możliwości przeszukiwania. Jakie działania podejmuje CERN, by zwiększyć przydatność swoich danych?

Otwarty przez nas ostatnio portal z otwartymi danymi powstawał w ścisłej współpracy pomiędzy biblioteką specjalizującą się w metadanych a działem IT wyspecjalizowanym w kwestiach technicznych. Takie połączenie wynikało z potrzeby, na którą zwrócił pan uwagę, czyli wykorzystywania danych w dłuższej perspektywie czasowej. Wiązała się z tym kwestia odpowiedniego opisu, aby zapewnić ich lepszą interoperacyjność pomiędzy systemami przechowującymi informacje – nie tylko dane. W tej chwili nie wykonujemy wielu transformacji danych, ale gdy wiemy, że będą one w przyszłości wykorzystywane w projektach wykraczających poza nasz obszar oraz przez ludzi niedysponujących naszą wiedzą ani naszymi narzędziami, wtedy przekształcamy je, wzbogacamy o dodatkowe narzędzia, wyjaśniamy specyfikę formatów zapisu, tak aby można ich było później używać w otoczeniu zupełnie różnym od naszego. Ponieważ ilość naszych własnych danych jest tak duża, a także ze względu na zapisywanie ich w formatach zapewniających nam optymalną analizę, nie zmieniamy formatu danych, tylko otwarcie udostępniamy używane przez nas oprogramowanie, tak by inni mogli skorzystać albo z samego oprogramowania, albo z wirtualnych maszyn wyposażonych w to oprogramowanie i umożliwiających dostęp do naszych danych. Jeśli użytkownicy mają potrzebę rozbudować nasze oprogramowanie, wówczas rozszerzają dostarczony przez nas kod, zamiast pisać od zera swój własny, co byłoby raczej niewykonalne, zważywszy na skalę całego przedsięwzięcia.

Chciałbym teraz spytać o ponowne wykorzystywanie wytwarzanych przez CERN danych poza samą fizyką. Podobno istnieje wiele pochodnych zastosowań dla wytworzonych przez Państwa danych, choćby w medycynie. Czy śledzą Państwo wykorzystanie tych danych w innych dziedzinach? Czy spodziewają się Państwo, że dane te znajdą szerokie interdyscyplinarne zastosowanie?

Właściwie nie... Bardzo byśmy chcieli, by ludzie znajdowali takie nowe zastosowania, ale w CERN mamy do czynienia z badaniami pionierskimi, gdzie podstawowym celem zbierania danych jest zrozumienie Wszechświata. W tym celu zbieramy i przechowujemy informacje i trudno sobie po prostu wyobrazić ich wykorzystanie w zupełnie odmiennym, codziennym kontekście bez dodatkowego wyposażenia ich w coś, nad czym obecnie się nie zastanawiamy. Znalezienie innych zastosowań wydaje mi się mało prawdopodobne. Spodziewamy się raczej, że ludzie znajdą jakieś alternatywne zastosowanie dla opracowanych przez nas technik algorytmicznych. Dysponując taką ilością danych, posiadamy przestrzeń do nauki i szkolenia, chcemy korzystać z możliwości testowania. W tym obszarze spodziewamy się większych korzyści aniżeli w stosowaniu naszych danych do lepszego zrozumienia codziennego życia.

Jeśli chodzi o repozytoria, CERN prowadzi Zenodo, które zostało zbudowane we współpracy z OpenAIRE. Jak ocenia Pan ten projekt? Czy działa sprawnie? Czy chcieliby Państwo coś w nim ulepszyć?

W gruncie rzeczy Zenodo powstało jako projekt na niewielką skalę, mający wspierać unijne pilotaże dotyczące otwartego dostępu i otwartych danych – swego rodzaju zasobnik  pozwalający ludziom dostosować się do zaproponowanej polityki w sytuacji, gdy nie dysponowali odpowiednimi repozytoriami instytucjonalnymi czy dziedzinowymi dla swoich materiałów. Nie był to projekt obliczony na wielką skalę. Kiedy jednak je zbudowaliśmy, okazało się, że ludzie są tak zadowoleni z tego, co im zaoferowaliśmy, że zaczęli domagać się coraz to nowych funkcjonalności. W rezultacie mamy obecnie problem z nadążeniem za zainteresowaniem użytkowników oraz ich oczekiwaniami, by  dodawać nowe rozwiązania dla różnych dziedzin nauki i umożliwiające nowe formy ponownego wykorzystania materiałów. Naprawdę zależy nam na szybkim rozwoju Zenodo, ale w tej chwili ledwie starcza nam ludzi do prac związanych z programowaniem i wprowadzaniem nowych sposobów użytkowania.

Moje ostatnie pytanie: wyobraźmy sobie, że ma Pan przekonać naukowców do otwartego udostępniania danych. Co by im Pan powiedział? Jakiej zachęty użył?

Myślę, że powinno się zwrócić uwagę na sam proces badawczy. To siła napędowa, którą doceni większość naukowców. Proces, który wypracowywaliśmy przez ostatnie kilkaset lat, dotyczy sposobów komunikowania naszych idei, sprawdzania ich i falsyfikacji przez innych badaczy. Dzielenie się danymi to kolejna składowa tej komunikacji.  Chodzi o narzędzia i materiały wykorzystywane przez nas codziennie z intencją pokazania wszystkim, że mogą się z nimi zapoznać, pomóc w ich ulepszeniu, wskazując na to, co wymaga poprawy. Zbudować coś w oparciu o nie. To zupełnie normalny proces i myślę, że na tym poziomie naukowcy doceniają możliwość skorzystania na udostępnianiu własnych badań. Uważam jednak, że musi się to odbywać wedle określonego porządku. Nie można działać na zasadzie: „Przekaż to innym – co cię obchodzi, co z tym będzie dalej?” Uporządkowane, wielopoziomowe podejście zakłada, że dane naukowe mogą być otwarte dla twoich bezpośrednich kolegów lub tych, którzy pracują nad kolejnym etapem badań. Wreszcie tych, którzy za granicą prowadzą badania podobne do twoich. Każdy z tych poziomów otwartości danych sprawia, że grupom naukowców coraz wygodniej się pracuje, dostrzegają oni korzyści płynące z otwartości i ostatecznie po ukazaniu się publikacji mogą chcieć jeszcze szerzej udostępnić te dane. Myślę więc, że najskuteczniejszą zachętą jest fakt, że otwartość pomaga badaczom.

Panie Doktorze, dziękuję za poświęcony mi czas i ciekawą rozmowę.

Proszę uprzejmie.

Obejrzyj wywiad

 

Additional information