DANS (Data Archiving and Networked Services) – holenderski instytut archiwizacji danych i usług sieciowych

English version

Peter Doorn – dyrektor DANS

(opracowanie pytań: Marta Hoffman-Sommer)

DANS – Data Archiving and Networked Services – to narodowy instytut służący wszystkim naukowcom w Holandii. Jakie usługi oferuje on społeczności naukowej?

DANS promuje długofalowy dostęp do cyfrowych danych badawczych. W tym celu zachęca naukowców do trwałej archiwizacji i do ponownego wykorzystywania danych, na przykład poprzez system archiwizacji online EASY lub serwis Dutch Dataverse Network. Z pomocą serwisu NARCIS DANS oferuje także dostęp do tysięcy naukowych zbiorów danych, e-publikacji i innych holenderskich zasobów naukowych. Nasz instytut zapewnia także szkolenia i konsultacje, jak również prowadzi badania nad stabilnym dostępem do informacji cyfrowych. Dzięki oferowanym przez siebie serwisom oraz uczestnictwu w krajowych i międzynarodowych projektach i sieciach współpracy DANS zapewnia coraz lepszy dostęp do cyfrowych danych badawczych.

DANS jest instytutem Królewskiej Niderlandzkiej Akademii Nauk (KNAW) i Niderlandzkiej Organizacji Badań Naukowych (NWO). Kto  z historycznego punktu widzenia  zainspirował powstanie DANS? Czy instytut powstał z inicjatywy społeczności naukowej? Jakie zapotrzebowanie doprowadziło do założenia narodowego instytutu archiwizacji danych?

Poprzednik DANS, Archiwum Steinmetz (pierwotnie noszące nazwę „Fundacji”), powstało w 1964 roku na potrzeby nauk społecznych. Archiwum zostało założone z inicjatywy społeczności naukowej, zwłaszcza socjologów zajmujących się badaniami ankietowymi. W dalszej kolejności powstały Niderlandzkie Archiwum Danych Historycznych (w 1989 r.) i e-Depot dla Archeologii Niderlandzkiej (EDNA), z których oba wchodzą teraz w skład DANS. Te archiwa również powstały w odpowiedzi na zapotrzebowania społeczności naukowych (historyków i archeologów). We wszystkich trzech przypadkach naukowcy zdali sobie sprawę, że należy zadbać o długofalowe przechowywanie tworzonych przez nich zbiorów danych, oraz że zbiory te nadają się do ponownego wykorzystania przez innych.

Czy udało się zrealizować cele sformułowane w początkowej fazie działania DANS?

DANS powstał w 2005 r. i ewidentnie spełnia postawione przed nim zadania. Ilość danych wzrasta wykładniczo, przypadki ich ponownego wykorzystania też się mnożą. Mimo tego niektóre społeczności naukowe są dużo bardziej niż inne świadome tego, jak wielki pożytek może płynąć z udostępniania danych. W przypadku archeologii istotną rolę odegrała Państwowa Służba Archeologiczna (State Archaeological Service – RACM) poprzez wprowadzenie obowiązku deponowania danych. W niektórych innych dziedzinach, na przykład w psychologii, tylko niewielki procent danych jest archiwizowanych w DANS.

W ciągu ostatnich kilku lat można było zauważyć, że na uczelniach, a także w innych organizacjach naukowych i w instytucjach finansujących naukę, wzrasta świadomość tego, że dane badawcze muszą być właściwie zarządzane. DANS pełni rolę doradczą dla tych organizacji, a także dostarcza usługi wspierające zarządzanie danymi.

Wykres 1. Liczba zbiorów danych w DANS w poszczególnych latach

Wspomniał Pan, że wykorzystanie danych szybko wzrasta. Jak się to mierzy?

Rejestrujemy każde pobranie zbioru danych. Roczne zestawienie pobrań pokazuje ich wyraźny wzrost. Biorąc pod uwagę specjalistyczną naturę danych i ograniczoną liczbę badaczy w naszym kraju, uważam, że statystyki wykorzystania danych są bardzo wysokie. Każdy zbiór danych jest pobierany średnio raz do roku, chociaż potwierdza się zasada 80–20: 20 procent zbiorów generuje 80 procent pobrań. Popularny zbiór danych potrafi mieć ponad sto pobrań.

Wykres 2. Ponowne wykorzystanie zbiorów danych DANS w latach 2005–2014


Mówił Pan o tym, że RACM wprowadził obowiązek deponowania danych. Czy dane te muszą być otwarte, aby mogły być ponownie wykorzystywane? Czy w Holandii są jeszcze jakieś inne instytucje, które wprowadziły obowiązek deponowania danych?

Dane nie zawsze są otwarte dla wszystkich. Dane archeologiczne mogą zawierać szczegółowe opisy miejsc wykopalisk, co może budzić zainteresowanie archeologów-hobbystów albo poszukiwaczy skarbów z wykrywaczami metalu i zwabić ich do miejsc historycznych, które powinny być objęte ochroną. A zatem około 25 procent tych zbiorów jest dostępnych wyłącznie dla zawodowych archeologów. Wiele socjologicznych zbiorów danych zawiera informacje dotyczące pojedynczych osób, których nie należy rozpowszechniać z uwagi na ochronę prywatności. 11 procent naszych danych należy do tej kategorii. 63 procent zbiorów jest udostępnianych w sposób otwarty, większość z nich wymaga jedynie rejestracji. Z puntu widzenia purystów, nie jest to prawdziwy „otwarty dostęp”. Obecnie wdrażamy zatem otwarty dostęp bez rejestracji, na licencji Creative Commons „CC0” .

Jakie są Pana zdaniem wady i zalety działania na szczeblu krajowym (w przeciwieństwie do instytucjonalnego) z punktu widzenia dostawców danych, użytkowników i instytucji archiwizujących dane?

Nie chcę tu twierdzić, że jedno konkretne rozwiązanie – scentralizowane lub zdecentralizowane – jest najlepsze. Promujemy „federacyjną” infrastrukturę danych, w której różni gracze mają do wypełnienia różne role i różne obowiązki na różnych szczeblach. „Federacyjna” struktura oparta jest na modelu kolaboracyjnym opisanym w raporcie Riding the Wave, opublikowanym przed około pięciu laty. DANS skupia się raczej na funkcjach przydatnych dla zaplecza operacyjnego (back-office), przy jednoczesnym wspieraniu uczelnianych punktów pierwszego kontaktu (front-office), które wspomagają naukowców bezpośrednio na macierzystej uczelni. Opublikowaliśmy broszurę, gdzie bardziej szczegółowo wyjaśniamy nasz model front-office/back-office.

DANS prowadzi krajowe repozytorium danych badawczych – EASY. Czy w Holandii funkcjonuje wiele repozytoriów instytucjonalnych lub dziedzinowych? Jaka jest Państwa koncepcja podziału zadań pomiędzy tymi trzema typami repozytoriów: instytucjonalnymi, dziedzinowymi i krajowymi?

Każda holenderska uczelnia prowadzi repozytorium instytucjonalne przeznaczone do przechowywania publikacji naukowych. DANS zbiera dane z tych repozytoriów i agreguje informacje przy użyciu portalu Narcis.nl. Jest także kilka repozytoriów dziedzinowych, jak np. Archiwum Językowe przy Instytucie Psycholingwistyki Maxa Plancka w Nijmegen. DataverseNL, hostowane przez DANS, jest obecnie używane przez osiem uczelni do przechowywania danych w trakcie prowadzonych badań oraz jako archiwum w krótkiej i średniej perspektywie czasowej. Trzy holenderskie politechniki prowadzą wspólne centrum danych 3TU.Datacentrum, blisko współpracujące z DANS. Poza tym istnieją także międzynarodowe repozytoria danych, zarówno „uniwersalne” (jak Figshare czy Zenodo), jak i dziedzinowe (dla kilku różnych dyscyplin).

Także poza samym środowiskiem akademickim istnieją repozytoria danych bardzo istotne dla badaczy, np. archiwa krajowe, biblioteka narodowa, archiwa radiowe i telewizyjne oraz inne archiwa sektora kultury. Z ich pomocą utworzyliśmy Narodową Koalicję ds. Archiwizacji Cyfrowej (National Coalition for Digital Preservation, NCDD). DANS stanowi również punkt dostępu dla naukowców wykorzystujących dane statystyczne z Niderlandzkiego Urzędu Statystycznego (CBS).

Cały ten krajobraz składa się z dość rozproszonych elementów. Tworząc koalicje z najważniejszymi graczami krajowymi, na przykład w ramach Research Data Netherlands (RDNL) czy ze wspomnianym wyżej NCDD, staramy się koordynować te działania. W skali międzynarodowej DANS jest ważnym członkiem organizacji zajmujących się danymi badawczymi (RDA, CoData, APA) i infrastrukturą badawczą (DARIAH, CLARIN, CESSDA itd.).

Jakie działania podejmuje DANS, aby promować udostępnianie danych wśród badaczy? Czy któreś z nich ocenia Pan jako szczególnie udane?

Najskuteczniejsze jest promowanie otwartości wśród grantodawców, zarówno krajowych (w przypadku Holandii: NWO), jak i europejskich (DG Research, DG Connect). Wygłaszamy też wiele prezentacji, wydajemy broszury, publikacje i inne materiały informacyjne, prowadzimy newsletter itd. Bardzo wymowny jest tu przypadek archeologów: zdołaliśmy przekonać RACM, że warto wprowadzić obowiązek udostępniania danych cyfrowych.

Jakie aspekty dzielenia się danymi stanowią obecnie największe wyzwanie? Czy są to trudności techniczne związane z przechowywaniem i zabezpieczaniem danych, przeszkody prawne, stosunek społeczności naukowej czy jeszcze coś innego?

Osobiście uważam, że czynnik ludzki jest kwestią najbardziej złożoną i że przekonanie naukowców o konieczności udostępniania danych stanowi największe wyzwanie. Trzeba zdać sobie sprawę, że (widoczne) korzyści, jakie płyną z udostępniania danych dla badacza lub badaczki, którzy decydują się je udostępnić, są dość niewielkie – choć istnieją pewne dowody na to, że naukowcy, którzy udostępniają dane, są częściej cytowani. To zrozumiałe, że naukowcy postrzegają deponowanie danych raczej jako obciążenie niż jako szansę.

Kolejne wyzwanie stanowią trudności organizacyjne: jak skoordynować ogólnoświatowy system danych? Organizacje takie jak RDA stawiają to sobie za swój główny cel, ale sam proces jest obecnie równie skomplikowany jak obiecujący. Oczywiście, istnieją też trudności techniczne. Związane są głównie z ilością danych, które produkujemy, ale także – a może nawet bardziej – z ich selekcjonowaniem i z dbałością o nie. Co chcemy przechowywać? Jak długo? Dla kogo ma to jakąś wartość? Jak te dane powinny być udostępniane? Jak możemy je odnaleźć? Jaka dokumentacja lub metadane są potrzebne, by zrozumieć zawartość danych? Nie ma sensu próbować przechowywać wszystkiego. Ale brak wyczulenia na kwestie związane z udostępnianiem danych może sprawić, że nieumyślnie stracimy lub zniszczymy dużo wiedzy naukowej.

Dziękuję za rozmowę.

Additional information