Społeczeństwo zyskuje, gdy otwieramy dane i pozwalamy z nich korzystać – transkrypcja

Dzięki otwartemu udostępnianiu danych możemy prowadzić lepsze badania i bardziej zbliżyć się do prawdy, ponieważ dysponujemy większą ilością danych. Badania odbywają się szybciej – przekonuje dr Kevin Ashley, dyrektor Digital Curation Centre w rozmowie z Maciejem Chojnowskim.Także postęp odbywa się szybciej, bo dzięki wielkiej ilości danych spada koszt prowadzenia badań. Tak więc możemy albo szybciej przeprowadzić więcej badań za te same pieniądze, albo – jeśli środki się zmniejszą – wciąż osiągnąć te same efekty co wcześniej. Istnieją też korzyści innego typu, których wartość trudniej jest określić pod względem ekonomicznym, ale jest ona bezdyskusyjna. Jedna z nich dotyczy integralności badań. Niemal każdy przypadek oszustwa lub błędu w badaniach znany z przeszłości mógłby być wykryty o wiele wcześniej, gdyby dysponowano dostępem do danych leżących u podstaw tych badań.

Maciej Chojnowski: Otwarte dane wydają się naturalną kontynuacją otwartego dostępu. Jednak złożonych zbiorów danych nie potrafimy odczytywać równie łatwo jak artykułów naukowych. Czego potrzeba, by ponowne wykorzystywanie danych mogło odbywać się w sposób efektywny?

Kevin Ashley: Podzielę swoją odpowiedź na dwie części. Zacznę od tego, że nie jestem pewien, czy otwarte dane to prosta kontynuacja otwartego dostępu. Z punktu widzenia polityki – w takiej właśnie kolejności zmiany zachodzą w świecie zachodnim. Jednak patrząc wstecz... Swoją karierę rozpoczynałem przed wieloma laty w obszarze nauk medycznych. W owym czasie ponowne wykorzystywanie danych było czymś powszechnym w wielu dyscyplinach naukowych. Historia takich organizacji jak CODATA, zajmujących się właśnie ponownym użyciem danych, sięga ponad 50 lat wstecz. Istniejące już wtedy repozytoria danych tworzyły kulturę wykorzystywania danych w niektórych dziedzinach (niezbyt wielu – to fakt), co wyprzedzało jakikolwiek pomysł otwartego dostępu. Z drugiej strony 50 lat temu sytuacja na rynku wydawnictw naukowych znacznie różniła się od obecnej.

Myślę więc, że otwarte dane i otwarty dostęp wywodzą się z różnych obszarów. A to, czy artykuły, czy też dane są bardziej czytelne, także zależy od punktu wyjścia. Dla mnie na przykład niektóre dane są bardziej zrozumiałe niż niektóre artykuły. Nie wszyscy naukowcy świetnie radzą sobie z pisaniem o swoich badaniach. Mogą być doskonali w ich przeprowadzaniu, ale zarazem mieć kłopoty z wytłumaczeniem, o co w nich chodzi, komuś spoza ich własnej dziedziny. Dlatego istnieją specjaliści od komunikacji naukowej, których zadaniem jest pomagać w zrozumieniu i wykorzystaniu określonych informacji osobom niebędącym specjalistami w danej dziedzinie. Jednak ogólnie rzecz biorąc, artykuły faktycznie powstają z myślą o żywym czytelniku, podczas gdy dane nie. Potrzebne są zatem materiały dodatkowe, dokumentacja pomagająca zrozumieć, o co w nich chodzi. Choćby w tak podstawowym zakresie, jak dokumentowanie zmiennych, np. określenie rodzaju liczb czy stopnia precyzji dokonanych pomiarów. Lub wskazanie technik użytych do czyszczenia danych, ponieważ ktoś może ich nie akceptować i chcieć zastosować własne metody. Może chodzić o dokumentowanie danych jako całości – określenie sposobu pomiaru np. w przypadku badań ankietowych: w jaki sposób wybraliśmy ludzi, którzy złożyli się na badaną grupę.

Jest wiele kwestii, z których każda jest mniej lub bardziej istotna w zależności od dziedziny badań i rodzaju danych. I faktycznie, takich rzeczy nie trzeba określać w przypadku artykułów naukowych. Nie potrzeba tworzyć dodatkowego zbioru wyjaśnień wspomagającego właściwe zrozumienie. Zaś żeby otwarte dane naprawdę nadawały się do ponownego wykorzystania, takie wsparcie jest ważne – dokumentacja uzupełniająca oraz wskazówki, jak dotrzeć do danych. Sama chęć udostępnienia danych nie wystarczy, jeśli brakuje informacji, jak się do nich dostać. Potrzebna jest możliwość ich odnalezienia. Byłoby idealnie, gdyby ta możliwość nie była uzależniona ode mnie. Ponieważ dziś tutaj jestem, ale jutro może mnie już nie być. A nawet jeśli będę, to nie zawsze odpowiadam na maile. Istnieje wiele powodów, dla których warto mieć repozytoria danych, których zadaniem – by zacytować stosowany przez nas standard OAIS – jest umożliwienie niezależnego powtórnego wykorzystania danych. Oznacza to, że nie jest konieczne zwracanie się do twórcy danych z prośbą o zgodę lub wyjaśnienia. To bardzo pomaga wielu badaczom. Choć niektórzy obawiają się wyzbyć kontroli nad danymi, to jednak widzą, że to pomaga. Kiedy dysponujesz zbiorem danych cieszącym się dużą popularnością i nie chcesz spędzić reszty życia, odpowiadając na pytania o znaczenie takiego czy innego elementu lub o warunki wykorzystania zbioru, pomoże ci repozytorium, które wyręczy cię, pośrednicząc między tobą a ludźmi chcącymi skorzystać z twoich danych.

Zarządzanie danymi badawczymi może wydawać się względnie łatwe, kiedy myślimy o jednej instytucji czy dziedzinie, jednak staje się sporym wyzwaniem, jeśli przyjmie się szerszą perspektywę: dane powstające w różnych dziedzinach, zapisywane w odmiennych formatach,  przetwarzane w skali światowej. Jak dane mogą być skutecznie zbierane, przechowywane i wyszukiwane? Jak efektywnie i wydajnie nimi zarządzać?

Chciałbym bardzo udzielić na to pytanie jednoznacznej odpowiedzi, ale nie mogę. Sądzę, że jesteśmy wciąż na etapie eksperymentowania z przejściem od zarządzania zbiorami danych z wysoce wyspecjalizowanych dziedzin i ich ponownego wykorzystywania do ogólnoświatowej interdyscyplinarnej infrastruktury, o której pan mówił. Nie wydaje mi się, byśmy w pełni rozumieli przeszkody, jakie mogą pojawić się w trakcie dokonywania tych zmian. Wiem za to, że w Wielkiej Brytanii, gdzie pracuję, a także w kilku innych państwach zasadą jest, że tam, gdzie funkcjonuje dobra infrastruktura dziedzinowa, powinno się jej używać. Nie twierdzimy, że globalna podstawowa infrastruktura interdyscyplinarna lub infrastruktura stworzona przez federację uczelnianych repozytoriów danych powinna zastąpić to, co udało się osiągnąć w poszczególnych dziedzinach nauki w tym zakresie.

Myślę, że dążenie do tworzenia infrastruktury na każdym poziomie – od poszczególnych uniwersytetów po takie rozwiązania jak prowadzone przez CERN Zenodo, które stara się być globalnym repozytorium interdyscyplinarnym – otóż dążenie to bierze się stąd, że jest o wiele więcej dyscyplin naukowych niedysponujących infrastrukturą repozytoryjną, aniżeli tych, które ją posiadają. Te ostatnie świetnie sobie radzą z ponownym wykorzystywaniem danych. W przypadku tych pierwszych wiemy, że w wielu dziedzinach są tam naukowcy zdający sobie sprawę z potencjału swoich danych, którzy jednak nie mają komu ich przekazać. To dla nich duży kłopot. Wiemy, że z tego powodu w przeszłości utraciliśmy wiele danych. Pod koniec kariery naukowej ludzie usiłują przekazać komuś zebrane przez siebie dane, ale nie mogą znaleźć chętnych.

Tak więc przekonanie uniwersytetów, że ich obowiązkiem jest przyjmowanie i udostępnianie danych, które nie zostały gdzie indziej zdeponowane, to dobry krok na początek. W repozytoriach uczelnianych dane te nie będą zapewne równie łatwe do odnalezienia i wykorzystania, jak w przypadku repozytoriów dziedzinowych, ale przynajmniej nie zostaną utracone, a ich zabezpieczenie umożliwi ponowne użycie. Przy czym nie uważam, żeby wielkie znaczenie miało to, że niektóre zbiory danych są świetnie opracowane i regularnie używane, a z innych korzysta się znacznie rzadziej. Najważniejsze, żeby w ogóle je zachować – wtedy będzie względnie łatwo doprowadzić wszystko do pożądanego poziomu.

Myślę, że to właśnie miał na myśli Tim Berners-Lee, kiedy w bardziej ogólnym sensie mówił  o otwartych danych w Internecie. Chodzi o pomysł tzw. 5 gwiazdek dla otwartych danych pozwalający oceniać udostępniane dane. Żeby dostać jedną gwiazdkę, trzeba po prostu umieścić dane w sieci. W dowolnym formacie. Nie muszą być dobrze opisane ani nadawać się do łatwego użycia, ale przynajmniej są dostępne. Kolejne gwiazdki przyznaje się za wykorzystywanie otwartych formatów, właściwe opisanie zbiorów umożliwiające ich ponowne użycie i wreszcie za linkowanie ich z innymi zbiorami. Czyli doskonałość pod wieloma względami. Daleko nam do niej w przypadku większości danych badawczych. Nie mamy zbiorów danych, które zawierałyby linki do innych zbiorów na zasadzie: „Ta zmienna odnosi się do innych eksperymentów czy pomiarów”. Dopiero do tego dążymy. Ale by tam dojść, trzeba zrobić pierwszy krok i zebrać dane, zabezpieczyć je i nadać im stały identyfikator, żeby można je było przynajmniej zacytować. Często odwołuję się do analogii z bardziej tradycyjnymi materiałami przechowywanymi przez biblioteki uniwersyteckie.

Na każdym starym uniwersytecie jest masa dokumentów napisanych w językach starożytnych, których większość z nas nie zna. Są one niedostępne dla kogoś takiego jak ja – nieznającego greki, łaciny, sumeryjskiego itp. Ale z tego powodu nie uważam, że są to zbędne dokumenty. Na zasadzie: „Przetłumaczcie to wszystko, bo inaczej na nic się nie przyda. Nic z tego nie ma dla mnie sensu”. Istnieją bowiem ludzie umiejący ten sens zeń wydobyć, gotowi włożyć wiele wysiłku w zrozumienie tych starych dokumentów ze względu na wartość, jaką to przyniesie. Na podobnej zasadzie wkładamy wysiłek w odnalezienie jakichś słabo opisanych danych, ponieważ wiemy, że ma to wartość.

Porozmawiajmy przez chwilę o Digital Curation Centre. Jakie są główne obszary działania tej instytucji? Co przede wszystkim chcą Państwo osiągnąć?

W pańskim pytaniu zawiera się kilka kwestii. Nasz obszar działania i cele, jakie sobie stawiamy, są w znacznym stopniu określane przez zasilające nas fundusze. Większość z nich pochodzi ze środków przeznaczanych na finansowanie szkolnictwa wyższego w Wielkiej Brytanii, w związku z czym nasza działalność musi służyć brytyjskim instytucjom. Dlatego też przede wszystkim skupiamy się na udzielaniu wsparcia wszystkim krajowym instytucjom badawczym w rozwijaniu kompetencji w zabezpieczaniu danych, za które są one odpowiedzialne, a także wspomagamy naukowców tych uczelni w ponownym wykorzystywaniu danych przechowywanych poza ich macierzystymi instytucjami. Ostatecznie jest to już jednak działanie na szczeblu międzynarodowym. Gdybyśmy rozmawiali tylko z ludźmi z Wielkiej Brytanii, nie rozwiązalibyśmy problemu, który ma globalny charakter.

A zatem nasze działania koncentrują się z jednej strony na instytucjach lokalnych, z drugiej zaś – za pośrednictwem takich organizacji jak Research Data Alliance czy CODATA – zajmujemy się prawdziwie globalnymi problemami, współpracując z podobnymi do nas organizacjami, z którymi dzielimy odpowiedzialność za te działania. Czasem sięgamy po coś, co przygotowaliśmy samodzielnie. Na przykład pracowaliśmy nad skatalogowaniem wszystkich istniejących standardów metadanych badawczych dotyczących dokumentacji i opisu danych badawczych, co zajęło nam około 18 miesięcy. Kiedy ukończyliśmy prace nad tym projektem – nota bene jego efekt uważam za bardzo udany – niepokoiłem się, w jaki sposób mielibyśmy aktualizować zebrane informacje. Współpraca z Research Data Alliance okazała się tutaj znakomitym rozwiązaniem, ponieważ wielu ludzi na świecie ceni tę organizację. Wtedy zacząłem zastanawiać się, w jaki sposób ta współpraca mogłaby przyczynić się do ulepszenia naszego opracowania, ponieważ nie było możliwe, abyśmy uwzględnili w nim każdy istniejący standard. Chcieliśmy również, by było ono łatwiejsze w aktualizacji i by różni ludzie mogli w tym partycypować. Moim zdaniem to doskonały przykład, że można zacząć jakiś projekt w jednym kraju, a gdy okaże się on wartościowy dla innych, przekazać jego prowadzenie organizacji działającej na skalę ogólnoświatową.

Powracając do obszarów, w których jesteśmy aktywni – część naszych działań koncentruje się na rozwijaniu podobnych zasobów: uporządkowanych informacji wspomagających badaczy lub też uniwersyteckich bibliotekarzy czy pracowników działów IT, którzy mają za zadanie pomagać naukowcom w realizowaniu określonych celów. Tworzymy zatem przewodniki dotyczące takich kwestii, jak wybór właściwych fragmentów danych do długoterminowego przechowywania, co jest o tyle ważne, że w przypadku większości badań powstaje wiele wersji tego samego zbioru danych. Nie można sobie pozwolić na trzymanie ich wszystkich. Jesteśmy więc zmuszeni dokonywać mądrej selekcji. Trzeba to przyznać: czasem zdarza się, że usuniemy coś, a po latach tego żałujemy. Niestety, takie jest życie.

Tworzymy też materiały szkoleniowe i prowadzimy szkolenia skierowane do badaczy i usługodawców dotyczące różnorakich aspektów zarządzania danymi. Prowadzimy również kilka serwisów w Internecie. Najbardziej znany, DMPonline, pomaga tworzyć plany zarządzania danymi zgodne z wymogami różnych grantodawców i uwzględniające dobre praktyki w poszczególnych dyscyplinach naukowych. Narzędzie to umożliwia uczelniom dostosowanie udzielanych odpowiedzi i porad do warunków danej instytucji, tak żeby np. zachęcać badaczy do wyboru instytucjonalnego repozytorium lub uczelnianego centrum danych, gdy mają oni zadecydować, gdzie będą przechowywać swoje dane. Dzięki temu różni badacze korzystający z tego samego narzędzia uzyskają różne wskazówki i różne odpowiedzi na te same pytania. Mamy nadzieję, że to narzędzie pomoże ludziom w planowaniu. Wprawdzie samo nie napisze planu, ale przynajmniej może ułatwić ten proces.

Co do naszych innych działań, to są one ukierunkowane na politykę otwartych danych – na wspieranie krajowych i międzynarodowych organów w podejmowaniu optymalnych decyzji w tym zakresie. Mają nam one również pomóc określić, jakim potencjałem dysponujemy w skali krajowej. Chcemy na przykład zrozumieć, co sprawia brytyjskim uczelniom największy kłopot w obszarze otwartych danych. Żeby wiedzieć, na co przeznaczać pieniądze w sytuacji, gdy mamy ograniczone środki. Gdzie są największe przeszkody, na których pokonanie powinniśmy przeznaczyć dodatkowe fundusze. Z drugiej strony istnieją też takie obszary, gdzie słyszymy ze strony ludzi: „W porządku, powiedzieliście nam, co robić. To proste. Damy radę. Nie potrzebujemy już więcej pomocy”.

Istnieje wiele powodów, dla których naukowcy wstrzymują się z udostępnianiem swoich danych. Mogą na przykład utrzymywać, że jest to do pewnego stopnia przeciwskuteczne. Sami spędzają mnóstwo czasu zbierając dane, a później ktoś chce, żeby je publicznie udostępniali. Czują się okradani. Jakie korzyści z dzielenia się danymi mogłyby przekonać naukowców do ich udostępniania bez poczucia, że coś im się odbiera?

Przekonać ludzi – to duże wyzwanie. Uważam, że w niektórych obszarach konieczna jest kulturowa zmiana i aby ona nastąpiła, być może potrzeba też zmiany pokolenia. Mogę podać dowody, które pomogłyby przeciwstawić się wspomnianym argumentom, jednak aby poradzić sobie z obawami przed byciem okradzionym, same dowody nie wystarczą. Trzeba móc zobaczyć kulturową zmianę dokoła siebie. Moim zdaniem jedne z najbardziej przekonujących dowodów, pokazujących w jaki sposób może dokonać się zmiana, pochodzą z obszaru astronomii, gdzie dzielenie się danymi stało się normą częściowo w wyniku zmiany technologicznej dokonującej się w tej dziedzinie.

Kiedy rozpoczynałem swoją karierę naukową, większość badań w astronomii nie była przeprowadzana cyfrowo. Wykorzystywano płyty fotograficzne, które umieszczano za teleskopami. Dysponowano zatem materialnym zasobem, stanowiącym poniekąd dane badawcze, rezultat badania. Dzielenie się nimi było dość trudne. W rezultacie większość badań astronomicznych była przeprowadzana przez badaczy pracujących nad własnymi obserwacjami. Dostawało się określony czas na korzystanie z teleskopu, wykonywało się zdjęcia, zabierało je, a potem oglądało razem z kolegami i wspólnie tworzyło artykuł w oparciu o to, co udało się odkryć. A później ewentualnie kolejny... Tak to wyglądało. Gdyby ktoś chciał poznać nasze obserwacje i zobaczyć wykonane zdjęcia, zapewne mógłby to zrobić, ale dopiero po opublikowaniu przez nas pierwszego artykułu. Przekazywanie zdjęć nie było proste, dlatego prośby tego rodzaju były rzadkością. Bardzo niewiele badań astronomicznych powstawało w oparciu o obserwacje cudzego autorstwa.

Dopiero Kosmiczny Teleskop Hubble'a i w ogóle zmiany w budowie teleskopów pozwoliły na wykorzystanie cyfrowych sensorów i tworzenie danych w postaci cyfrowej. Odtąd udostępnianie danych stało się proste. Dane są w repozytorium i każdy ma do nich dostęp. Ludzie korzystający z tych instrumentów uznali, że takie rozwiązanie musi być obligatoryjne. Użytkownicy teleskopu Hubble'a dalej robią to w ten sam sposób – planują swoje obserwacje, dostają trochę czasu przy teleskopie. Pozyskane dane są dostępne wyłącznie dla nich przez 6 miesięcy. Następnie – bez względu na to, czy udało im się opublikować artykuł, czy też nie – dane te są otwierane dla każdego. Każdy o tym wie. Jestem pewien, że na początku wielu mówiło: „Ależ to kradzież!” Jednak nie wydaje się, żeby astronomia ucierpiała na takim rozwiązaniu.

W istocie w ciągu niecałych 10 lat liczba artykułów powstałych w oparciu o cudze obserwacje jest większa od liczby artykułów tworzonych na podstawie własnych obserwacji. Na dodatek mamy więcej teleskopów i prowadzimy więcej obserwacji niż kiedykolwiek wcześniej. Każdy astronom ma możliwości dostępu do tego znacznie powiększonego zbioru danych. Umożliwia to przeprowadzanie badań astronomicznych w odmienny sposób. Pozwala na zautomatyzowaną analizę bardzo dużych zbiorów zdjęć. Dzieje się tak dzięki temu, że astronomia jest dziedziną otwartą. I nie słychać, żeby astronomowie nadal narzekali, że ktoś ich okrada. Po prostu w jednym pokoleniu dokonała się zmiana kulturowa i w jej trakcie pojawiały się pewne obawy. Jednak teraz właściwie wszyscy zdają sobie sprawę, że nauce wyszło to na dobre i niczyja kariera nie doznała uszczerbku.

Sądzę więc, że skoro widzimy, że zmiana ta zachodzi w jednej dyscyplinie częściowo w wyniku zmiany technologicznej dotyczącej sposobu dokonywania obserwacji, to można mieć nadzieję, że podobnie stanie się także w innych dziedzinach. W niektórych z nich – np. w humanistyce, gdzie nierzadko było normą, że jedna osoba opierała badania całego życia na pojedynczym zbiorze, nad którym miała pełną kontrolę – taka zmiana kulturowa może być trudniejsza do przyjęcia i potrzeba na nią więcej czasu. Myślę jednak, że i tak nadejdzie. Jeśli zaś chodzi o korzyści, których można by użyć jako argumentu, to – podobnie jak w astronomii – jest to możliwość zdobycia uznania nie tylko za artykuł na temat własnego odkrycia naukowego, ale również za taki, który został poświęcony samym danym czy badawczemu wysiłkowi włożonemu w zebranie tych danych. To korzyści, które mają znaczenie we wszystkich dziedzinach.

A jakie wskazałby Pan ewentualne korzyści ekonomiczne wynikające z otwartych danych? Co jest najważniejszym efektem udostępniania danych? Ograniczenie powtarzania tych samych badań? Lepsza weryfikacja wyników badań eksperymentalnych?

Myślę, że korzyści ekonomiczne całkiem łatwo dostrzec. Dzięki otwartemu udostępnianiu danych możemy prowadzić lepsze badania i bardziej zbliżyć się do prawdy, ponieważ dysponujemy większą ilością danych. Właściwie we wszystkich dziedzinach każdy mógłby powiedzieć: „Gdybym tylko miał więcej czasu, zebrałbym więcej informacji i zrobił lepsze badania”. Dzięki otwartemu dostępowi do wielkiej ilości danych możemy tak właśnie robić. Badania odbywają się szybciej. Także postęp odbywa się szybciej, ponieważ dzięki wielkiej ilości danych spada koszt prowadzenia badań. Tak więc możemy albo szybciej przeprowadzić więcej badań za te same pieniądze, albo – jeśli środki się zmniejszą – wciąż osiągnąć te same efekty co wcześniej. Istnieje wiele badań poświęconych znaczeniu dziedzinowych centrów danych, które dowodzą, że zwrot z inwestycji w przypadku takich centrów wynosi pomiędzy 4 a 12 razy tyle co koszt ich prowadzenia, ponieważ badania mogą być prowadzone szybciej, a ich wartość dla społeczeństwa w sensie korzyści ekonomicznych jest bardzo duża. Szczególnie gdy mamy do czynienia z ludźmi zajmującymi się świetnie opracowanymi danymi wysokiej jakości, które znajdziemy w większości dziedzinowych centrów danych – wtedy w rezultacie powstaną lepsze badania. Mamy tu więc przykład ewidentnych korzyści.

Istnieją też korzyści innego typu, których wartość trudniej jest określić pod względem ekonomicznym, ale jest ona bezdyskusyjna. Jedna z nich dotyczy integralności badań. Niemal każdy przypadek oszustwa lub błędu w badaniach znanych z przeszłości mógłby być wykryty o wiele wcześniej, gdyby dysponowano dostępem do danych leżących u podstaw tych badań. Niech za przykład posłużą studia sprzed kilku lat dotyczące zastosowania chemioterapii w leczeniu raka, w które wielu naukowców powątpiewało. Ileś osób usiłowało dotrzeć do oryginalnych danych stanowiących podstawę publikacji, ale wciąż natykało się na nowe bariery. Dopóki nie dotarli do właściwych danych, dopóty mogli mieć podejrzenia do ogłoszonych twierdzeń, lecz nie mogli ich uzasadnić. Minęły lata zanim dane te zostały ujawnione. Wówczas od razu było jasne, że twierdzenia zostały sfałszowane. W rezultacie cierpieli ludzie, wobec których zastosowano niepotrzebną, być może wręcz szkodliwą terapię. Nie zamierzam tego wartościować, ale jest jasne, że chcemy unikać takich sytuacji. Podobnie jak i innych przejawów naukowych nadużyć, które mogły zaistnieć przez to, że jacyś ludzie ukrywali swoje dane badawcze, a inni nie oczekiwali ich ujawnienia. Świadomość badacza, że może zostać poproszony o udostępnienie danych, zmniejsza ryzyko publikacji zafałszowanych wyników badań.

Na koniec chciałbym zapytać Pana o Polskę. Komisja Europejska zaleca państwom członkowskim wdrażanie polityk dotyczących otwartego dostępu i otwartych danych. Polska pracuje obecnie nad tymi zagadnieniami. O czym powinniśmy szczególnie pamiętać, tworząc nowe prawo w tym obszarze?

Jeśli dobrze rozumiem, to nowe prawo ma mieć zastosowanie nie tylko do badań, ale również do danych publicznych w ogóle, z uwzględnieniem danych wytworzonych przez rząd w trakcie zarządzania państwem. To zdecydowanie jeden z tych obszarów, w które można zainwestować dużo czasu i pieniędzy, lecz wcale nie mieć dobrych wyników. Myślę, że zarówno w Grecji, jak i Wielkiej Brytanii zajęto się tym we właściwy sposób, na spokojnie. Nie starano się za jednym razem rozwiązać wszystkich problemów. Wybrano takie zbiory danych, w których przypadku istniało wysokie prawdopodobieństwo ich ponownego wykorzystania i które nie wymagały wiele wysiłku w zakresie udostępniania czy czytelności. Pomogło to uzyskać poparcie dla udostępniania danych w przypadkach, gdzie nie było to takie proste. Uważam, że pomaga to również zrozumieć procesy, które powinniśmy wdrożyć, aby umożliwić wykorzystywanie wewnętrznych danych administracyjnych przez podmioty zewnętrzne.

Kolejna sprawa to napięcie pomiędzy myśleniem typu: „A może te dane są coś warte i powinniśmy je chronić, sprzedać, opatentować czy wykorzystać w jeszcze inny sposób” a podejściem: „Otwórzmy je i pozwólmy innym z nich korzystać” – w odniesieniu zarówno do danych naukowych, jak i administracyjnych. Wiele wskazuje na to, że dla społeczeństwa jako całości najkorzystniejsze jest otwarcie danych i przyzwolenie na ich jak najszersze wykorzystywanie. Wygenerowana wartość ekonomiczna jest większa, co zapewne przekłada się na wyższe przychody z podatków. Jeśli spojrzy się na produkt krajowy brutto poszczególnych krajów, to te udostępniające dane radzą sobie lepiej. Jedyny kłopot w tym, że w takim układzie koszty ponosi rząd, a korzyści odnosi ktoś inny. Rząd zyskuje pośrednio przez przychody z podatków, ale to trudniejsze do prześledzenia i wykazania.

Doświadczenia krajów, w których rządy usiłowały chronić, licencjonować i sprzedawać dane dowodzą, że owszem – można na tym zarobić, ale niewiele. Bardzo dużo kosztuje już samo administrowanie sprzedażą tych danych i trudno tu wskazać realną korzyść ekonomiczną, ponieważ jest tyle przeszkód na drodze do ich wykorzystania. A jeśli cena danych jest na tyle wysoka, że możesz pokryć wydatki związane z zarządzaniem nimi, ktoś, kto miałby opłacić licencję na ich wykorzystanie, musi mieć świetny pomysł, jak na tym zarobić. Wszystko to stanowi przeszkody. Mamy dowody, że przy zmianie modelu na otwarty niemal zawsze zwiększa się ponowne użycie danych i ostateczne korzyści są większe. Myślę, że warto mieć to na uwadze także w Polsce, ponieważ przy okazji kolejnych zmian politycznych mogą pojawić się spory dotyczące sprzedaży lub otwartego udostępniania danych. Tak jest w każdym kraju.

Dziękuję za Pański czas i ciekawą rozmowę.


Obejrzyj wywiad

 

Additional information