Otwartość powinna być standardem w przypadku danych badawczych – transkrypcja

Wspomnieliśmy już o otwartym dostępie. Myślę, że o ile artykuł naukowy stanowi spójną całość, mając autora, tytuł, akapity, przypisy, bibliografię itp., o tyle dane wydają się dużo bardziej mgliste. Bez odpowiedniego kontekstu dane tkwią w próżni i nie są zbyt użyteczne. Co mogą zrobić naukowcy, by ulepszyć swoje zbiory danych, kiedy myślą o ich udostępnieniu?

Dokumentować. Zapisywać wszystko, co się da. Myślę, że wiele kłopotów wynika z tzw. wiedzy ukrytej osób, które pierwotnie zebrały dane albo przeprowadziły analizę i które zakładają, że pewne rzeczy są oczywiste dla wszystkich, ponieważ tak właśnie robi się to w ich dziedzinie. Ale kiedy chodzi o wykorzystanie danych poza tą macierzystą dziedziną, to ci naukowcy nie uświadamiają już sobie konsekwencji takich założeń.

Teraz kwestia opakowania, o której wspomniałeś. To ciekawe. Myślę, że problem w tym, że zanadto rozszerzamy pojęcie publikacji danych, które w rezultacie zbliża się nazbyt do publikacji artykułu. Uważam, że lepiej myśleć o danych jak o ciągłym strumieniu zamiast o poszczególnych, osobnych elementach, które się publikuje. Dane to bardzo dynamiczny, nieustannie zmieniający się strumień. I myślenie o nich jak o czymś płynnym – w przeciwieństwie do stałego obiektu – może pomóc w znalezieniu sposobów, by poradzić sobie z ich specyfiką. Najlepsze, co mogą zrobić badacze, to dokumentować wszystko, co tylko możliwe. Od wykorzystanego oprogramowania, przez protokoły badawcze, jednostki, niejasności itd.

Porozmawiajmy zatem teraz o sposobach zachęty. Jak można skłonić badaczy do udostępniania danych? Z jakich metod możemy skorzystać, by zachęcić ich do otwierania danych? I czy w przypadku danych istnieje możliwość pomiaru cytowań za pomocą alternatywnych metryk, tak jak zaczęliśmy to robić z artykułami naukowymi?

Myślę, że tak. Zachęta ma z pewnością kluczowe znaczenie. W tym kontekście dużo się mówi o cytowaniu danych, do czego zresztą jestem przekonany i co popieram od szeregu lat. Udało nam się wymyślić, jak to zrobić. Nie jest to jednak praktyka powszechna, choć powinna taką być. Na przykład Thomson Reuters pracuje obecnie nad indeksem cytowań danych, tak by można to było prześledzić. Bardzo dobrze, że tak się dzieje.

Jednak gdy dziś ocenia się dorobek naukowca, nikt nie spojrzy na cytowania jego danych. Wszystkich interesuje tylko, ile ma artykułów w wysoko punktowanych czasopismach. Zdarza mi się słyszeć od naukowców, że nie chcą cytowania danych, bo wtedy spadną cytowania ich artykułów. W sytuacji idealnej użytkownik powinien cytować jedno i drugie – artykuł i dane. Jednak wspomniana obawa istnieje. Uważam, że w kontekście zachęty cytowalność danych ma znaczenie. Przeprowadzono ankietę, która wykazała, że badaczy interesują takie nagrody, które przekładają się na karierę naukową. A to sprowadza się do wysoko punktowanych artykułów.

Jeżeli zatem dane powiązane są z wysoko punktowanym artykułem, to ma to dla nich sens. Badaczy mniej interesują dane, które mogłyby mieć istotny wpływ społeczny, np. dane klimatyczne, oddziaływające na prognozy rolnicze, umożliwiające wielkie korzyści gospodarcze, ale niedające im takiego uznania w świecie nauki. Myślę więc, że musimy szukać zachęt innych niż cytowanie i zarazem mających znaczenie dla naukowców. Warto podkreślać, że deponowanie danych w repozytorium pozwala na ich łatwiejszą integrację z innymi danymi, co z kolei ułatwia ich wykorzystanie przez samych naukowców.

A zatem repozytorium potrafiące zademonstrować badaczom wartość dodaną wynikającą z deponowania danych – to jedna rzecz. Druga to fakt, że udostępnianie danych prowadzi często do lepszej współpracy albo lepszego wglądu w dany problem. Jeden z moich dawnych kolegów biorących udział w badaniach w Arktyce zwykł mawiać, co bardzo mi się podobało: „W ogóle nie rozumiem tej niechęci do udostępniania danych. Zawsze kiedy się nimi dzielę, czegoś się uczę”. Ale chodziło mu o dość często spotykany model indywidualnego dzielenia się danymi. Ktoś prosił go o dane, on je udostępniał i zarazem dowiadywał się, do czego ich używano.

Myślę więc, że kluczowe znaczenie ma wprowadzenie większej przejrzystości w kwestii ponownego wykorzystywania danych, tak żeby zredukować obawy naukowców przed tym, że ktoś ich uprzedzi z publikacją wyników badań, co swoją drogą uważam za niezbyt uzasadnione. Po drugie zaś pokaże ludziom nowe, nieprzewidywane zastosowania ich danych. Otworzy ich także na nowe formy współpracy, nowe pomysły itp.

Cytowanie danych to jedno z możliwych rozwiązań, ale myślę, że lepszym wyjściem – choć wymagającym bardziej zaawansowanych rozwiązań technicznych – byłoby opatrzenie zbiorów danych stałymi identyfikatorami, tak żeby móc później śledzić, co się z nimi dzieje na zasadzie podobnej do tego, co robi Google. Żeby móc widzieć dane wykorzystane w jakimś konkretnym modelu, scenariuszu prognostycznym albo polityce rządu czy też zupełnie innej dziedzinie, np. w medycynie.

Chodzi więc o to, żeby widoczność nie sprowadzała się do samych publikacji z obszaru literatury naukowej, ale również odnosiła się do różnych zastosowań. Myślę, że takiego trendu, by śledzić wykorzystanie danych w całym ekosystemie, wciąż jeszcze nie widać. Ale byłoby to możliwe, gdyby opatrzyć dane stałymi identyfikatorami, otworzyć je w Internecie i umożliwić ich indeksowanie.

Ciągły przyrost nowych danych wymaga efektywnych strategii ich długoterminowego zabezpieczania. Jak skutecznie zaplanować rozwiązania na przyszłość, które zapewnią, że nasza infrastruktura jest gotowa na przyjęcie nowych, prawdopodobnie znacznie większych zbiorów danych, a także uniknąć przestarzałych formatów?

To bardzo złożona kwestia. Trzeba wielu działań, by zapewnić zabezpieczenie danych. Na szczęście jednak wiemy, jak to robić. Nie wiemy za to zbyt dobrze, jak te działania finansować. W tym przypadku nie dysponujemy sprawdzonym modelem biznesowym. Moim zdaniem dane powstałe z pieniędzy publicznych powinny być traktowane jako dobro publiczne i jako takie być utrzymywane z publicznych środków. Rządy powinny postrzegać dane jako lokatę kapitału. Potrzebny jest zatem budżet na jego utrzymanie. To oczywiste i intuicyjnie zrozumiałe w przypadku kapitału rzeczowego. Kiedy jednak mówimy o kapitale w odniesieniu do danych, przestaje to być takie oczywiste i zrozumiałe, choć powinno.

Dane wymagają określonego poziomu zabezpieczeń. Jeśli chodzi o przestarzałe formaty zapisu, systemy operacyjne i tak dalej, nie jestem specjalistą w tym obszarze, ale wiem, że potrafimy sobie z tym radzić. Rozwiązaniem jest albo migracja do nowych systemów, albo emulacja starego środowiska. Kiedy rozpoczynałem pracę w centrum danych, odbywała się tam akurat pierwsza migracja danych na nowe nośniki. Ze starych napędów taśmowych przechodziliśmy na optyczne, co wydawało się bardzo atrakcyjne. To było wielkie wydarzenie: migracja danych o objętości kilkuset GB. Z biegiem czasu stało się to jednak oczywistą praktyką, typową dla centrum danych. Skończysz jedną migrację i zaraz myślisz o kolejnej. Napędy optyczne dawno przeminęły i od tamtego czasu przeprowadziliśmy kilkanaście migracji. Zawodowcy wiedzą, jak to robić, i dysponują sprawdzonym modelem. Rzeczywistym problemem jest model biznesowy. Uważam, że tu przydałoby się więcej badań.

Dziękuję za poświęcony mi czas i miłą rozmowę.

Obejrzyj wywiad

Additional information