Otwartość powinna być standardem w przypadku danych badawczych – transkrypcja

Otwartość to dopiero pierwszy krok. Zapewnienie danym funkcjonalności, a także umożliwienie ich ponownego wykorzystania, to zadania znacznie bardziej skomplikowane – zauważa Mark Parsons, sekretarz generalny Research Data Alliance, w rozmowie z Maciejem Chojnowskim. Big Data jest dziś modnym pojęciem. W tym kontekście często mówi się o objętości, szybkości i różnorodności. Jeśli chodzi o stronę techniczną, to poradzimy sobie z objętością i prędkością, jednak różnorodność będzie wymagała znacznie większej zmiany. Nie tylko z technicznego punktu widzenia, ale także ze względu na samych badaczy i ich sposoby zbierania i prezentowania danych.

 

Maciej Chojnowski: Zacznijmy od Research Data Alliance. Czy mógłbyś opisać główne obszary działania Waszej instytucji i powiedzieć, jakie cele chcecie osiągnąć?

Mark Parsons: Research Data Alliance skupia się na udostępnianiu danych. Chcemy, aby odbywało się to sprawniej. Nasza misja polega na tworzeniu połączeń w wymiarze społecznym i technologicznym pozwalających na otwarte udostępnianie danych. Rozumiemy przez to pokonywanie wszelkich przeszkód utrudniających ponowne wykorzystywanie danych. Dane zyskują na wartości dzięki ich wykorzystywaniu w kontekście innym niż pierwotny. Staramy się rozwijać technologie, praktyki i społeczne normy umożliwiające otwarte udostępnianie danych.

Otwarte dane to – poza otwartym dostępem – jeden z najczęściej dyskutowanych elementów ruchu otwartej nauki. Czym się przede wszystkim charakteryzują? Czy sama otwartość wystarczy, by zapewnić im skuteczność?

Nie, oczywiście nie wystarczy. Otwartość to pierwszy krok. Bywa zresztą różnie definiowana. Moim zdaniem powinna być ona standardem w odniesieniu do danych badawczych, zaś ograniczenie dostępu powinno zostać zarezerwowane jedynie dla szczególnych, etycznie uzasadnionych przypadków. Zatem to nie kwestia prawa własności, ale etyki. Dane powinny być swobodnie dostępne w obrębie granic wyznaczonych przez etykę. Chodzi tu np. o ryzyko naruszenia czyjejś prywatności czy zlokalizowania jakiegoś zagrożonego gatunku. Istnieją etyczne przesłanki, by niekiedy nie udostępniać danych, jednak punktem wyjścia powinna być otwartość.

Jednak samo otwieranie danych, umieszczanie ich w Internecie to dopiero początek, ponieważ – jak już powiedziałem – chcemy, by można było je ponownie wykorzystywać. To szczególnie istotne w przypadku dziedzin nauki innych od tej, w której dane pierwotnie powstały. Wówczas potrzebna jest dokumentacja tłumacząca wszelkie niejasności. Jednak idealnie byłoby móc po prostu pobrać dane wprost do własnego narzędzia analitycznego i porównać je z innymi danymi, które mamy. Zintegrować je. Do tego zaś potrzeba, by dane były zapisane w jakimś standardowym formacie lub przynajmniej w takim, który jest czytelny dla naszych narzędzi. Potrzebny jest opis, aby narzędzia mogły zrozumieć, z czym mają do czynienia, np. jakie jednostki są wykorzystywane. Wymaga to użycia określonych protokołów pozwalających na płynny transfer danych.

Myślę, że kluczowe znaczenie ma tutaj określony stopień zaufania. Zaufania wobec samych danych, ich źródła, sposobów przechowywania oraz trwałości, jak również wobec metod wykorzystanych do ich pozyskania. Uważam więc, że otwartość to dopiero pierwszy krok. Otwarcie danych i zapewnienie im funkcjonalności, a także umożliwienie ich ponownego wykorzystania – to znacznie bardziej skomplikowane i na tym właśnie stara się skupiać nasza instytucja.

Jeśli zatem istotą otwartych danych jest możliwość ich ponownego wykorzystania, to co jest najważniejsze, by to umożliwić? Infrastruktura? Dobrze opracowany plan zabezpieczania danych? Zmiany w prawie? Czy może jeszcze coś innego?

Wszystko razem. Jeśli dane zostały zebrane, to trzeba je zabezpieczyć. To sprawa zasadnicza. Nie jest to może kluczowe dla misji RDA, ale naturalnie nie da się ponownie wykorzystywać danych, jeśli nie są zabezpieczone. Uważam, że w tym przypadku szczególnie zobowiązane są rządy. Jeśli płacą za zbieranie danych, to zapewne powinny płacić również za ich zabezpieczanie. Dane należy postrzegać jako dobro wspólne, za którego ochronę jesteśmy odpowiedzialni. Ale dane wymagają także rzetelnej dokumentacji, zwłaszcza niejasności w danych muszą być udokumentowane, aby było wiadomo, do jakich zastosowań się nadają, a do jakich nie. Trzeba się tu trzymać wysokich standardów.

Otwarte dane kojarzy się często z innym popularnym dziś zjawiskiem, czyli Big Data. I rzeczywiście, wytwarzane obecnie zbiory danych mogą być ogromne. Czy jednak największym problemem jest sama objętość, czy może niejednorodność danych?

Moim zdaniem chodzi o coś więcej niż niejednorodność. Big Data to dziś modne pojęcie. I dobrze, bo zwraca uwagę na same dane, jednak szczególnie w przemyśle jest nadużywane i niewiele znaczy. Ktoś mówi: „Przechowujemy Big Data”. Czyli ile? Bo to względne: dla jednych kilka gigabajtów to dużo, dla innych dużo to dopiero eksabajty. Przy okazji Big Data często mówi się o objętości, szybkości i różnorodności. Niekiedy wspomina się też o innych cechach, ale te trzy są podstawowe.

Objętość bez wątpienia stanowi wyzwanie. Na przykład wtedy, gdy danych jest zbyt dużo, by móc je przekazać do jakiegoś laboratorium, i trzeba raczej przyjść z samym laboratorium do zbioru danych. Prędkość również jest wyzwaniem. Niektóre dane napływają szybciej niż jesteśmy je w stanie przetwarzać, jak choćby w przypadku fizyki wysokich energii. Chodzi o sytuacje, w których nie tylko wytwarzane są ogromne ilości danych, ale dzieje się to bardzo szybko.

Jednak moim zdaniem największy problem stanowi różnorodność czy niejednorodność danych. Jest to szczególnie widoczne w przypadku tzw. długiego ogona danych, gdzie dane zbierane są przez pojedynczych naukowców lub małe grupy badawcze. Z doświadczenia wiem, że są to często dane tabelaryczne zapisane w arkuszu obliczeniowym czy pliku tekstowym. Jednak jako całość stanowią one zupełny groch z kapustą. Ktoś umieszcza temperaturę w jednej kolumnie i oznaczą ją jako t, a ktoś inny w drugiej kolumnie i oznacza jako temp. Co więcej, jedna odnosi się do temperatury powietrza, a druga gruntu. I wszystko dostosowane jest do potrzeb konkretnego badacza zbierającego te dane.

A zatem większe uspójnienie zbioru danych, tak abyśmy mogli je integrować, wymaga wielu zmian zarówno w wymiarze społecznym, jak i technologicznym. Myślę, że kwestia objętości i prędkości to w znacznej mierze problem techniczny. Owszem, ilość danych może i przerasta nasze możliwości analityczne, ale jestem pewien, że pod względem technologicznym będziemy w stanie to nadrobić. To zawsze stanowiło kłopot. Zawsze mieliśmy więcej danych, niż byliśmy w stanie przetworzyć. Od kilkunastu lat słyszę, że w ciągu ostatnich pięciu lat wytworzyliśmy więcej danych niż przez wszystkie lata poprzedzające ten okres. To pewnie prawda, jednak zastanawiam się, jak długo trwa ten stan. Zapewne przynajmniej od lat 90.

Myślę, że jeśli chodzi o stronę techniczną, to poradzimy sobie z objętością i prędkością, jednak różnorodność będzie wymagała znacznie większej zmiany. Nie tylko z technicznego punktu widzenia, ale także ze względu na samych badaczy i ich praktyki stosowane przy zbieraniu i prezentowaniu danych.

Additional information