Otwartość powinna być standardem w przypadku danych badawczych – transkrypcja

Otwartość to dopiero pierwszy krok. Zapewnienie danym funkcjonalności, a także umożliwienie ich ponownego wykorzystania, to zadania znacznie bardziej skomplikowane – zauważa Mark Parsons, sekretarz generalny Research Data Alliance, w rozmowie z Maciejem Chojnowskim. Big Data jest dziś modnym pojęciem. W tym kontekście często mówi się o objętości, szybkości i różnorodności. Jeśli chodzi o stronę techniczną, to poradzimy sobie z objętością i prędkością, jednak różnorodność będzie wymagała znacznie większej zmiany. Nie tylko z technicznego punktu widzenia, ale także ze względu na samych badaczy i ich sposoby zbierania i prezentowania danych.

 

Maciej Chojnowski: Zacznijmy od Research Data Alliance. Czy mógłbyś opisać główne obszary działania Waszej instytucji i powiedzieć, jakie cele chcecie osiągnąć?

Mark Parsons: Research Data Alliance skupia się na udostępnianiu danych. Chcemy, aby odbywało się to sprawniej. Nasza misja polega na tworzeniu połączeń w wymiarze społecznym i technologicznym pozwalających na otwarte udostępnianie danych. Rozumiemy przez to pokonywanie wszelkich przeszkód utrudniających ponowne wykorzystywanie danych. Dane zyskują na wartości dzięki ich wykorzystywaniu w kontekście innym niż pierwotny. Staramy się rozwijać technologie, praktyki i społeczne normy umożliwiające otwarte udostępnianie danych.

Otwarte dane to – poza otwartym dostępem – jeden z najczęściej dyskutowanych elementów ruchu otwartej nauki. Czym się przede wszystkim charakteryzują? Czy sama otwartość wystarczy, by zapewnić im skuteczność?

Nie, oczywiście nie wystarczy. Otwartość to pierwszy krok. Bywa zresztą różnie definiowana. Moim zdaniem powinna być ona standardem w odniesieniu do danych badawczych, zaś ograniczenie dostępu powinno zostać zarezerwowane jedynie dla szczególnych, etycznie uzasadnionych przypadków. Zatem to nie kwestia prawa własności, ale etyki. Dane powinny być swobodnie dostępne w obrębie granic wyznaczonych przez etykę. Chodzi tu np. o ryzyko naruszenia czyjejś prywatności czy zlokalizowania jakiegoś zagrożonego gatunku. Istnieją etyczne przesłanki, by niekiedy nie udostępniać danych, jednak punktem wyjścia powinna być otwartość.

Jednak samo otwieranie danych, umieszczanie ich w Internecie to dopiero początek, ponieważ – jak już powiedziałem – chcemy, by można było je ponownie wykorzystywać. To szczególnie istotne w przypadku dziedzin nauki innych od tej, w której dane pierwotnie powstały. Wówczas potrzebna jest dokumentacja tłumacząca wszelkie niejasności. Jednak idealnie byłoby móc po prostu pobrać dane wprost do własnego narzędzia analitycznego i porównać je z innymi danymi, które mamy. Zintegrować je. Do tego zaś potrzeba, by dane były zapisane w jakimś standardowym formacie lub przynajmniej w takim, który jest czytelny dla naszych narzędzi. Potrzebny jest opis, aby narzędzia mogły zrozumieć, z czym mają do czynienia, np. jakie jednostki są wykorzystywane. Wymaga to użycia określonych protokołów pozwalających na płynny transfer danych.

Myślę, że kluczowe znaczenie ma tutaj określony stopień zaufania. Zaufania wobec samych danych, ich źródła, sposobów przechowywania oraz trwałości, jak również wobec metod wykorzystanych do ich pozyskania. Uważam więc, że otwartość to dopiero pierwszy krok. Otwarcie danych i zapewnienie im funkcjonalności, a także umożliwienie ich ponownego wykorzystania – to znacznie bardziej skomplikowane i na tym właśnie stara się skupiać nasza instytucja.

Jeśli zatem istotą otwartych danych jest możliwość ich ponownego wykorzystania, to co jest najważniejsze, by to umożliwić? Infrastruktura? Dobrze opracowany plan zabezpieczania danych? Zmiany w prawie? Czy może jeszcze coś innego?

Wszystko razem. Jeśli dane zostały zebrane, to trzeba je zabezpieczyć. To sprawa zasadnicza. Nie jest to może kluczowe dla misji RDA, ale naturalnie nie da się ponownie wykorzystywać danych, jeśli nie są zabezpieczone. Uważam, że w tym przypadku szczególnie zobowiązane są rządy. Jeśli płacą za zbieranie danych, to zapewne powinny płacić również za ich zabezpieczanie. Dane należy postrzegać jako dobro wspólne, za którego ochronę jesteśmy odpowiedzialni. Ale dane wymagają także rzetelnej dokumentacji, zwłaszcza niejasności w danych muszą być udokumentowane, aby było wiadomo, do jakich zastosowań się nadają, a do jakich nie. Trzeba się tu trzymać wysokich standardów.

Otwarte dane kojarzy się często z innym popularnym dziś zjawiskiem, czyli Big Data. I rzeczywiście, wytwarzane obecnie zbiory danych mogą być ogromne. Czy jednak największym problemem jest sama objętość, czy może niejednorodność danych?

Moim zdaniem chodzi o coś więcej niż niejednorodność. Big Data to dziś modne pojęcie. I dobrze, bo zwraca uwagę na same dane, jednak szczególnie w przemyśle jest nadużywane i niewiele znaczy. Ktoś mówi: „Przechowujemy Big Data”. Czyli ile? Bo to względne: dla jednych kilka gigabajtów to dużo, dla innych dużo to dopiero eksabajty. Przy okazji Big Data często mówi się o objętości, szybkości i różnorodności. Niekiedy wspomina się też o innych cechach, ale te trzy są podstawowe.

Objętość bez wątpienia stanowi wyzwanie. Na przykład wtedy, gdy danych jest zbyt dużo, by móc je przekazać do jakiegoś laboratorium, i trzeba raczej przyjść z samym laboratorium do zbioru danych. Prędkość również jest wyzwaniem. Niektóre dane napływają szybciej niż jesteśmy je w stanie przetwarzać, jak choćby w przypadku fizyki wysokich energii. Chodzi o sytuacje, w których nie tylko wytwarzane są ogromne ilości danych, ale dzieje się to bardzo szybko.

Jednak moim zdaniem największy problem stanowi różnorodność czy niejednorodność danych. Jest to szczególnie widoczne w przypadku tzw. długiego ogona danych, gdzie dane zbierane są przez pojedynczych naukowców lub małe grupy badawcze. Z doświadczenia wiem, że są to często dane tabelaryczne zapisane w arkuszu obliczeniowym czy pliku tekstowym. Jednak jako całość stanowią one zupełny groch z kapustą. Ktoś umieszcza temperaturę w jednej kolumnie i oznaczą ją jako t, a ktoś inny w drugiej kolumnie i oznacza jako temp. Co więcej, jedna odnosi się do temperatury powietrza, a druga gruntu. I wszystko dostosowane jest do potrzeb konkretnego badacza zbierającego te dane.

A zatem większe uspójnienie zbioru danych, tak abyśmy mogli je integrować, wymaga wielu zmian zarówno w wymiarze społecznym, jak i technologicznym. Myślę, że kwestia objętości i prędkości to w znacznej mierze problem techniczny. Owszem, ilość danych może i przerasta nasze możliwości analityczne, ale jestem pewien, że pod względem technologicznym będziemy w stanie to nadrobić. To zawsze stanowiło kłopot. Zawsze mieliśmy więcej danych, niż byliśmy w stanie przetworzyć. Od kilkunastu lat słyszę, że w ciągu ostatnich pięciu lat wytworzyliśmy więcej danych niż przez wszystkie lata poprzedzające ten okres. To pewnie prawda, jednak zastanawiam się, jak długo trwa ten stan. Zapewne przynajmniej od lat 90.

Myślę, że jeśli chodzi o stronę techniczną, to poradzimy sobie z objętością i prędkością, jednak różnorodność będzie wymagała znacznie większej zmiany. Nie tylko z technicznego punktu widzenia, ale także ze względu na samych badaczy i ich praktyki stosowane przy zbieraniu i prezentowaniu danych.


Wspomnieliśmy już o otwartym dostępie. Myślę, że o ile artykuł naukowy stanowi spójną całość, mając autora, tytuł, akapity, przypisy, bibliografię itp., o tyle dane wydają się dużo bardziej mgliste. Bez odpowiedniego kontekstu dane tkwią w próżni i nie są zbyt użyteczne. Co mogą zrobić naukowcy, by ulepszyć swoje zbiory danych, kiedy myślą o ich udostępnieniu?

Dokumentować. Zapisywać wszystko, co się da. Myślę, że wiele kłopotów wynika z tzw. wiedzy ukrytej osób, które pierwotnie zebrały dane albo przeprowadziły analizę i które zakładają, że pewne rzeczy są oczywiste dla wszystkich, ponieważ tak właśnie robi się to w ich dziedzinie. Ale kiedy chodzi o wykorzystanie danych poza tą macierzystą dziedziną, to ci naukowcy nie uświadamiają już sobie konsekwencji takich założeń.

Teraz kwestia opakowania, o której wspomniałeś. To ciekawe. Myślę, że problem w tym, że zanadto rozszerzamy pojęcie publikacji danych, które w rezultacie zbliża się nazbyt do publikacji artykułu. Uważam, że lepiej myśleć o danych jak o ciągłym strumieniu zamiast o poszczególnych, osobnych elementach, które się publikuje. Dane to bardzo dynamiczny, nieustannie zmieniający się strumień. I myślenie o nich jak o czymś płynnym – w przeciwieństwie do stałego obiektu – może pomóc w znalezieniu sposobów, by poradzić sobie z ich specyfiką. Najlepsze, co mogą zrobić badacze, to dokumentować wszystko, co tylko możliwe. Od wykorzystanego oprogramowania, przez protokoły badawcze, jednostki, niejasności itd.

Porozmawiajmy zatem teraz o sposobach zachęty. Jak można skłonić badaczy do udostępniania danych? Z jakich metod możemy skorzystać, by zachęcić ich do otwierania danych? I czy w przypadku danych istnieje możliwość pomiaru cytowań za pomocą alternatywnych metryk, tak jak zaczęliśmy to robić z artykułami naukowymi?

Myślę, że tak. Zachęta ma z pewnością kluczowe znaczenie. W tym kontekście dużo się mówi o cytowaniu danych, do czego zresztą jestem przekonany i co popieram od szeregu lat. Udało nam się wymyślić, jak to zrobić. Nie jest to jednak praktyka powszechna, choć powinna taką być. Na przykład Thomson Reuters pracuje obecnie nad indeksem cytowań danych, tak by można to było prześledzić. Bardzo dobrze, że tak się dzieje.

Jednak gdy dziś ocenia się dorobek naukowca, nikt nie spojrzy na cytowania jego danych. Wszystkich interesuje tylko, ile ma artykułów w wysoko punktowanych czasopismach. Zdarza mi się słyszeć od naukowców, że nie chcą cytowania danych, bo wtedy spadną cytowania ich artykułów. W sytuacji idealnej użytkownik powinien cytować jedno i drugie – artykuł i dane. Jednak wspomniana obawa istnieje. Uważam, że w kontekście zachęty cytowalność danych ma znaczenie. Przeprowadzono ankietę, która wykazała, że badaczy interesują takie nagrody, które przekładają się na karierę naukową. A to sprowadza się do wysoko punktowanych artykułów.

Jeżeli zatem dane powiązane są z wysoko punktowanym artykułem, to ma to dla nich sens. Badaczy mniej interesują dane, które mogłyby mieć istotny wpływ społeczny, np. dane klimatyczne, oddziaływające na prognozy rolnicze, umożliwiające wielkie korzyści gospodarcze, ale niedające im takiego uznania w świecie nauki. Myślę więc, że musimy szukać zachęt innych niż cytowanie i zarazem mających znaczenie dla naukowców. Warto podkreślać, że deponowanie danych w repozytorium pozwala na ich łatwiejszą integrację z innymi danymi, co z kolei ułatwia ich wykorzystanie przez samych naukowców.

A zatem repozytorium potrafiące zademonstrować badaczom wartość dodaną wynikającą z deponowania danych – to jedna rzecz. Druga to fakt, że udostępnianie danych prowadzi często do lepszej współpracy albo lepszego wglądu w dany problem. Jeden z moich dawnych kolegów biorących udział w badaniach w Arktyce zwykł mawiać, co bardzo mi się podobało: „W ogóle nie rozumiem tej niechęci do udostępniania danych. Zawsze kiedy się nimi dzielę, czegoś się uczę”. Ale chodziło mu o dość często spotykany model indywidualnego dzielenia się danymi. Ktoś prosił go o dane, on je udostępniał i zarazem dowiadywał się, do czego ich używano.

Myślę więc, że kluczowe znaczenie ma wprowadzenie większej przejrzystości w kwestii ponownego wykorzystywania danych, tak żeby zredukować obawy naukowców przed tym, że ktoś ich uprzedzi z publikacją wyników badań, co swoją drogą uważam za niezbyt uzasadnione. Po drugie zaś pokaże ludziom nowe, nieprzewidywane zastosowania ich danych. Otworzy ich także na nowe formy współpracy, nowe pomysły itp.

Cytowanie danych to jedno z możliwych rozwiązań, ale myślę, że lepszym wyjściem – choć wymagającym bardziej zaawansowanych rozwiązań technicznych – byłoby opatrzenie zbiorów danych stałymi identyfikatorami, tak żeby móc później śledzić, co się z nimi dzieje na zasadzie podobnej do tego, co robi Google. Żeby móc widzieć dane wykorzystane w jakimś konkretnym modelu, scenariuszu prognostycznym albo polityce rządu czy też zupełnie innej dziedzinie, np. w medycynie.

Chodzi więc o to, żeby widoczność nie sprowadzała się do samych publikacji z obszaru literatury naukowej, ale również odnosiła się do różnych zastosowań. Myślę, że takiego trendu, by śledzić wykorzystanie danych w całym ekosystemie, wciąż jeszcze nie widać. Ale byłoby to możliwe, gdyby opatrzyć dane stałymi identyfikatorami, otworzyć je w Internecie i umożliwić ich indeksowanie.

Ciągły przyrost nowych danych wymaga efektywnych strategii ich długoterminowego zabezpieczania. Jak skutecznie zaplanować rozwiązania na przyszłość, które zapewnią, że nasza infrastruktura jest gotowa na przyjęcie nowych, prawdopodobnie znacznie większych zbiorów danych, a także uniknąć przestarzałych formatów?

To bardzo złożona kwestia. Trzeba wielu działań, by zapewnić zabezpieczenie danych. Na szczęście jednak wiemy, jak to robić. Nie wiemy za to zbyt dobrze, jak te działania finansować. W tym przypadku nie dysponujemy sprawdzonym modelem biznesowym. Moim zdaniem dane powstałe z pieniędzy publicznych powinny być traktowane jako dobro publiczne i jako takie być utrzymywane z publicznych środków. Rządy powinny postrzegać dane jako lokatę kapitału. Potrzebny jest zatem budżet na jego utrzymanie. To oczywiste i intuicyjnie zrozumiałe w przypadku kapitału rzeczowego. Kiedy jednak mówimy o kapitale w odniesieniu do danych, przestaje to być takie oczywiste i zrozumiałe, choć powinno.

Dane wymagają określonego poziomu zabezpieczeń. Jeśli chodzi o przestarzałe formaty zapisu, systemy operacyjne i tak dalej, nie jestem specjalistą w tym obszarze, ale wiem, że potrafimy sobie z tym radzić. Rozwiązaniem jest albo migracja do nowych systemów, albo emulacja starego środowiska. Kiedy rozpoczynałem pracę w centrum danych, odbywała się tam akurat pierwsza migracja danych na nowe nośniki. Ze starych napędów taśmowych przechodziliśmy na optyczne, co wydawało się bardzo atrakcyjne. To było wielkie wydarzenie: migracja danych o objętości kilkuset GB. Z biegiem czasu stało się to jednak oczywistą praktyką, typową dla centrum danych. Skończysz jedną migrację i zaraz myślisz o kolejnej. Napędy optyczne dawno przeminęły i od tamtego czasu przeprowadziliśmy kilkanaście migracji. Zawodowcy wiedzą, jak to robić, i dysponują sprawdzonym modelem. Rzeczywistym problemem jest model biznesowy. Uważam, że tu przydałoby się więcej badań.

Dziękuję za poświęcony mi czas i miłą rozmowę.

Obejrzyj wywiad

Additional information