Udostępnianie danych musi stać się integralną częścią procesu badawczego – transkrypcja

W erze cyfrowej badania naukowe zasadniczo różnią się od badań w tradycyjnym sensie – twierdzi Mark Thorley, specjalista z zakresu danych badawczych w brytyjskiej Natural Environment Research Council (NERC), w rozmowie z Maciejem Chojnowskim. Część naukowców zaczyna rozumieć, że trzeba udostępniać dane badawcze, aby pozwolić innym powtórzyć swoje badania lub je zweryfikować albo po prostu dowieść, że dane te są jawne i prawdziwe. Rozpowszechnianie wyników badań naukowych, czy to artykułów w otwartym dostępie, czy danych w repozytoriach lub centrach danych, jest częścią procesu badawczego. To nie jakiś nadprogramowy dodatek finansowany niezależnie od samych badań, ale sprawa zasadnicza.



Maciej Chojnowski: Wydaje się, że idea otwartego dostępu do artykułów naukowych jest już dziś powszechnie uznawana, mimo różnych kontrowersji i dyskusji dotyczących najlepszego rozwiązania w tym obszarze. Z kolei względnie nowa idea otwartych danych jawi się z jednej strony jako uzupełnienie otwartego dostępu, z drugiej zaś jako coś odmiennego ze względu na sam obiekt, którym chcemy się dzielić. Jak można efektywnie udostępniać coś tak niejednorodnego i złożonego jak dane?

Mark Thorley: Polemizowałbym z twierdzeniem o nowości otwartego dostępu do danych, ponieważ w niektórych dyscyplinach praktykowano to od długiego czasu. Oczywiście, dużo się dziś mówi i robi na rzecz otwartych danych. Zaczęło się to w ostatnich kilku latach. Jednak w niektórych dyscyplinach od dawna z powodzeniem dzielono się danymi. Spójrzmy choćby na astronomię czy fizykę, gdzie nie da się prowadzić badań bez łączenia danych ani ich udostępniania. Sądzę jednak, że zmieniają się powody, dla których się to robi. Kiedyś ograniczały się one do samych badań. Teraz uważa się, że dane jako takie mają wartość, także poza obszarem, w którym pierwotnie zostały zebrane.

Ja sam już bardzo długo zajmuję się zrządzaniem danymi badawczymi – zacząłem to robić w roku 1990. Był to duży program oceanograficzny prowadzony na Antarktyce, zapoczątkowany w latach 70. i kontynuowany w 80., podczas którego odbyło się wiele międzynarodowych rejsów (w tym m.in. polskie). I już wówczas panowała powszechna zgoda co do dzielenia się danymi ze względu na dobro badań.

Tak więc ludzie od dawna dzielą się danymi. Obecnie działania te wynikają jednak z dyskusji nad integralnością badań. W jaki sposób można weryfikować i powtarzać badania? Na ten temat brytyjskie Royal Society przygotowało w 2012 roku bardzo dobry raport pod tytułem „Nauka jako otwarte przedsięwzięcie”. Dodatkowym czynnikiem był zachodzący w ostatnich latach, a częściowo spowodowany przez tzw. rewolucję Big Data, wzrost świadomości dotyczącej potencjału związanego z możliwością ponownego wykorzystywania danych. Chodzi o rozpoznanie, do czego można wykorzystać dane określonego rodzaju. Owszem, dane są innym obiektem od publikacji naukowych. Należy też przyjąć, że niektóre mają potencjalnie większą wartość niż inne.

Pracując w NERC, spędzam dużo czasu z zespołem ds. innowacji, który próbuje zweryfikować, na ile badania prowadzone w NERC są wykorzystywane w przemyśle, na ile korzystają z nich np. małe i średnie przedsiębiorstwa. Jednym z kluczowych obszarów, na których się skupiam, jest innowacyjne wykorzystanie wytworzonych przez nas danych poza obszarem nauki, na przykład w branży ubezpieczeniowej czy w innych usługach bazujących na użyciu danych.

Z moich obserwacji wynika, że firmy są bardzo zainteresowane danymi, ale tylko pewnego typu – nie wszystkimi. Tam gdzie istnieje możliwość ich komercyjnego zastosowania, tam też pojawia się zainteresowanie. W przypadku nauki o środowisku wykorzystywane są informacje dotyczące pogody, warunków panujących na danym obszarze czy geologii. Na zasadzie: „Czy jeśli kupię dom w danym miejscu, to czy nie zapadnie się on pod ziemię?” Niestety jednak – podczas różnych wystąpień często dostaje mi się za mówienie o tym – trzeba powiedzieć, że nie wszystkie dane będą dysponować takim samym potencjałem długotrwałej użyteczności w obszarze innowacji, niemniej powinny być one dostępne i zabezpieczane ze względu na powtarzanie badań.

Powracając zatem do pytania o efektywne udostępnianie takich obiektów jak dane – osobiście jestem wielkim zwolennikiem repozytoriów dziedzinowych. W NERC odpowiadam za sieć centrów danych środowiskowych. Prowadzimy pięć takich centrów, w których gromadzimy dane określonego rodzaju. Z każdej dziedziny mamy też ekspertów zajmujących się tymi danymi. Zrozumieliśmy jednak, że w obszarze samego środowiska możemy wybierać parametry z poszczególnych zbiorów danych i tworzyć na ich podstawie nowe zbiory o określonych parametrach określających temperaturę oceanu, zasolenie wody, stabilność gruntu czy stopień zanieczyszczeń na danym terenie. Z pomocą specjalistów umiejących wyodrębnić potrzebne zbiory danych, a następnie ich określone składowe, możemy tworzyć bardziej spójne zbiory, dla których później znajdujemy lepsze zastosowanie zarówno w obszarze innowacji, jak i w szerszym kontekście badawczym. Ale to znowu uwarunkowane jest przez konkretną dziedzinę nauki. Podawane przeze mnie przykłady koncentrują się wokół nauki o środowisku, w której świadomość wartości danych istniała od dawna. Jednak nawet w odniesieniu do danych eksperymentalnych trzeba powiedzieć, że ich udostępnianie jest bardzo trudne. Mogłoby to być bardziej wydajne, gdyby chciało się jedynie wykorzystywać stare dane dla porównania z nowymi, a nie je przekształcać.

Jeśli więc chodzi o udostępnianie tych złożonych obiektów, jakimi są dane, potrzebny jest szczegółowy opis i dokumentacja, a to jest trudne i czasochłonne. Trzeba się też upewnić, że sami użytkownicy tych danych są inteligentni. Mieć pewność, że orientują się w określonej dziedzinie i nie działają na ślepo. W przeciwnym razie trzeba im zapewnić specjalistyczną pomoc, aby mogli bardziej efektywnie wykorzystywać dane.

A jaki jest najbardziej wydajny sposób dystrybucji danych? Repozytoria czy czasopisma z danymi? Jakie rozwiązanie byś tu polecał?

Choć może to niezbyt zgrabna odpowiedź, powiedziałbym, że jedno i drugie, ponieważ to dwie różne rzeczy. Czasopisma z danymi służą opisywaniu tych danych, na których opracowanie i dokumentację poświęciło się czas, a także zdobyciu uznania za wykonaną pracę. Chodzi tu o opisanie zbioru danych, które zostają w jakimś sensie poddane recenzji, a następnie udostępnione szerszemu gronu. Jednak nie wszystkie zbiory danych będą się nadawały do takiego udokumentowania i nie wszystkie będą wzbudzały zainteresowanie – zwłaszcza w czasopismach. Czasopisma to jednak dobry sposób na poinformowanie o zbiorach danych, szczególnie takich, których opracowanie wymagało wiele wysiłku. 

Z kolei repozytoria – zarówno dziedzinowe, jak i instytucjonalne – są dobre do przechowywania danych, a także pomagają w ich wyszukiwaniu, jeśli tylko zostały one opatrzone odpowiednimi metadanymi. W przypadku repozytorium będziemy dysponowali określonym zbiorem metadanych pomagających w wyszukiwaniu lub opisujących pochodzenie danych. Jednak zapewne nie będą one tak szczegółowe, jak w przypadku zamieszczonego w czasopiśmie, dobrze przygotowanego artykułu poświęconego konkretnemu zbiorowi danych.

Zatem moim zdaniem czasopisma i repozytoria to dwa narzędzia z jednego zestawu służącego do dystrybucji danych. Skorzystanie z któregoś z nich będzie w bardzo dużym stopniu zależało od dostępnych zasobów danych oraz oceny ich wartości przez samych naukowców. Dość często repozytorium będzie służyło jako podstawa dla publikacji – artykuł dostarczy przydatnych informacji na temat zbioru danych zlokalizowanego w repozytorium. Jednak sam ten zbiór może być nierzadko o wiele większy niż jego część opisana w artykule. Można powiedzieć, że będzie on żył swoim własnym życiem.

Additional information