DANS – Data Archiving and Networked Services (The Netherlands)

Peter Doorn – DANS Director

(interviewer: Marta Hoffman-Sommer)

DANS – Data Archiving and Networked Services – is a national institution serving all Dutch researchers. What services does it offer to the research community?

DANS promotes sustained access to digital research data. For this, DANS encourages scientific researchers to archive and reuse data in a sustained form, for instance via the online archiving system EASY and the Dutch Dataverse Network. With NARCIS, DANS also provides access to thousands of scientific datasets, e-publications and other research information in the Netherlands. The institute furthermore provides training and consultancy and carries out research on sustained access to digital information. Driven by data, DANS with its services and participation in (inter)national projects and networks ensures the further improvement of access to digital research data.

DANS is an institute of the Royal Netherlands Academy of Arts and Sciences (KNAW) and the Netherlands Organization for Scientific Research (NWO). Historically, who has inspired the launching of DANS? Was it an initiative of the research community? What needs have led to the founding of a national institution for data archiving?

The first predecessor of DANS was founded in 1964: the Steinmetz Archive (originally: Foundation) for the social sciences. That was an initiative of the research community, viz. of social scientists engaged in survey research. Also the Netherlands Historical Data Archive (founded 1989) and the e-Depot for Netherlands Archaeology (EDNA), which are now part of DANS, were inspired by research communities (respectively, historians and archaeologists).
In all cases, those communities realized that the digital datasets they were compiling were in need of preservation and could be re-used by others.

Have you succeeded in achieving the initial goals set at the founding stage of DANS?

DANS was created in 2005 and it clearly serves its purpose. The amounts of archived data are growing exponentially, and the re-use also increases rapidly. Nevertheless, some research communities are much more aware of the use of sharing data than others. In Archaeology, the State Archaeological Service was important in making the deposit of data obligatory. In an area such as psychology, only a small proportion of the data is archived at DANS.

In recent years we see a growing awareness among universities, other research organizations and funders that data need to be well-managed. DANS plays an advisory role for these organizations, and also delivers services supporting data management.

Chart 1. Datasets at DANS sccording to year

You just mentioned that data re-use is growing rapidly. How do you measure this?

We register every download of a dataset. A plot of the downloads per year displays a clear growth. Taking into consideration that the data are of a specialist nature and that the number of researchers in our country is limited, I consider the usage statistics quite good. On average every dataset is downloaded once yearly, although an 80-20 rule applies: 20% of the datasets is responsible for 80% of the downloads. A successful dataset is downloaded up to a hundred times or more.

Chart 2. Reuse of datasets from DANS archive 2005–2014

You said the State Archaeological Service has made data deposit obligatory. Does this data have to be made open for re-use? And are there any other institutions in the Netherlands that have made data sharing obligatory?

The data is not always open to everyone. The archaeological data can contain detailed site descriptions, which might attract hobby-archaeologists or treasure hunters with metal detectors to heritage that needs to be protected. Hence about 25% of the datasets is only open for professional archaeologists. Many social science datasets contain information on individuals, which can also not be shared openly, in this case for privacy reasons. 11% of our data fall in this protected category. 63% of the datasets is openly accessible, most of them require just registration. For the purists this is not yet full open access. Therefore we are now implementing open access without registration under a creative commons “CC0” licence.

What – in your experience – are the advantages and disadvantages of operating on the national (vs institutional) level, from the viewpoints of the data provider, the data user, and the data archiving institution?

I do not want to claim that any one solution, either central or decentralized, is the best solution; we are promoting a federated data infrastructure, with roles and responsibilities for different players at different levels. This federated approach is based on the idea of the “collaborative” model described in the report “Riding the Wave”, which was published about five years ago. DANS tends to concentrate more on back-office functions, supporting front-offices at the universities, which serve the researchers at the home institution. We published a brochure on this which explains the front-office back-office model in more detail.

DANS runs a national research data repository, EASY. Are there many institutional or thematic data repositories in the Netherlands and what is your concept of task division between these three types of repositories: institutional, thematic, national?

All Dutch universities maintain an institutional repository, oriented towards publications. DANS harvests these repositories and aggregates the information via the Narcis.nl portal. There are also several thematic repositories, such as The Language Archive at the Max Planck Institute for Psycholinguistics in Nijmegen. DataverseNL, hosted by DANS, is currently used by eight universities to store data during the research process and as an archive for the short and midterm. The three technical universities run a joint 3TU.datacentre, with which DANS has a close collaboration. On top of these, there are also international data repositories, both “universal” (such as Figshare and Zenodo) and disciplinary (for a couple of domains).

Outside of science and scholarship, there are also data repositories that are of great relevance to researchers, for instance those of the national archives, the national library, the broadcasting archives and those of the cultural sector. With these we set up the National Coalition for Digital Preservation (NCDD). And DANS is the access portal for researchers using data from Statistics Netherlands (CBS).

The overall landscape is very much fragmented. By creating coalitions with the most important national players, such as in the Research Data Netherlands (RDNL) and with the NCDD mentioned above, we aim to create a certain coordination. Internationally, DANS is member of a substantial number of research data organizations (RDA, CoData, APA) and research infrastructures (DARIAH, CLARIN, CESSDA, etc).

What actions does DANS undertake to promote data sharing among researchers? Which of these actions do you consider particularly successful?

The most effective strategy is to promote this with the research funders, both national (NWO in the Dutch case) and European-wide (DG Research, DG Connect). Additionally, we give many presentations, provide brochures, publications and other information materials, run a newsletter, etc. The case of the archaeologists is also illustrative: here it was the State Service of Archaeology that we managed to convince of the importance of making the deposit of digital data obligatory.

Which aspects of research data sharing do you think pose currently the biggest challenges: are these technical difficulties related to data curation and preservation, legal issues, the attitude of the research community, or something else?

Personally I think that the human factor is the most complicated one, and to win the hearts and minds of the researcher to share his or her data is the greatest challenge. It is important to realize that the (perceived) rewards for data sharing for the researcher who wants to make data available are minimal (although there are indications that researchers who share data get cited more often). It is understandable that they see it as a burden rather than as a benefit.

The second challenge is one of organization: how do we get coordination in the world-wide data system? Organizations such as the RDA have this as their prime objective, but the process is as confusing as it is promising. And of course there are technical challenges as well. These have to do both with the data volumes we are producing, but perhaps even more with selection and curation. What do we want to preserve? For how long? To whom has it value? How should the data be accessible? How do we find it back? What documentation or metadata is needed to understand the contents? It makes no sense to try to preserve everything. But not being alert to the issues of data sharing means that we will inadvertently lose or destroy a lot of scientific knowledge.

Thank you.

DANS (Data Archiving and Networked Services) – holenderski instytut archiwizacji danych i usług sieciowych

English version

Peter Doorn – dyrektor DANS

(opracowanie pytań: Marta Hoffman-Sommer)

DANS – Data Archiving and Networked Services – to narodowy instytut służący wszystkim naukowcom w Holandii. Jakie usługi oferuje on społeczności naukowej?

DANS promuje długofalowy dostęp do cyfrowych danych badawczych. W tym celu zachęca naukowców do trwałej archiwizacji i do ponownego wykorzystywania danych, na przykład poprzez system archiwizacji online EASY lub serwis Dutch Dataverse Network. Z pomocą serwisu NARCIS DANS oferuje także dostęp do tysięcy naukowych zbiorów danych, e-publikacji i innych holenderskich zasobów naukowych. Nasz instytut zapewnia także szkolenia i konsultacje, jak również prowadzi badania nad stabilnym dostępem do informacji cyfrowych. Dzięki oferowanym przez siebie serwisom oraz uczestnictwu w krajowych i międzynarodowych projektach i sieciach współpracy DANS zapewnia coraz lepszy dostęp do cyfrowych danych badawczych.

DANS jest instytutem Królewskiej Niderlandzkiej Akademii Nauk (KNAW) i Niderlandzkiej Organizacji Badań Naukowych (NWO). Kto  z historycznego punktu widzenia  zainspirował powstanie DANS? Czy instytut powstał z inicjatywy społeczności naukowej? Jakie zapotrzebowanie doprowadziło do założenia narodowego instytutu archiwizacji danych?

Poprzednik DANS, Archiwum Steinmetz (pierwotnie noszące nazwę „Fundacji”), powstało w 1964 roku na potrzeby nauk społecznych. Archiwum zostało założone z inicjatywy społeczności naukowej, zwłaszcza socjologów zajmujących się badaniami ankietowymi. W dalszej kolejności powstały Niderlandzkie Archiwum Danych Historycznych (w 1989 r.) i e-Depot dla Archeologii Niderlandzkiej (EDNA), z których oba wchodzą teraz w skład DANS. Te archiwa również powstały w odpowiedzi na zapotrzebowania społeczności naukowych (historyków i archeologów). We wszystkich trzech przypadkach naukowcy zdali sobie sprawę, że należy zadbać o długofalowe przechowywanie tworzonych przez nich zbiorów danych, oraz że zbiory te nadają się do ponownego wykorzystania przez innych.

Czy udało się zrealizować cele sformułowane w początkowej fazie działania DANS?

DANS powstał w 2005 r. i ewidentnie spełnia postawione przed nim zadania. Ilość danych wzrasta wykładniczo, przypadki ich ponownego wykorzystania też się mnożą. Mimo tego niektóre społeczności naukowe są dużo bardziej niż inne świadome tego, jak wielki pożytek może płynąć z udostępniania danych. W przypadku archeologii istotną rolę odegrała Państwowa Służba Archeologiczna (State Archaeological Service – RACM) poprzez wprowadzenie obowiązku deponowania danych. W niektórych innych dziedzinach, na przykład w psychologii, tylko niewielki procent danych jest archiwizowanych w DANS.

W ciągu ostatnich kilku lat można było zauważyć, że na uczelniach, a także w innych organizacjach naukowych i w instytucjach finansujących naukę, wzrasta świadomość tego, że dane badawcze muszą być właściwie zarządzane. DANS pełni rolę doradczą dla tych organizacji, a także dostarcza usługi wspierające zarządzanie danymi.

Wykres 1. Liczba zbiorów danych w DANS w poszczególnych latach

Wspomniał Pan, że wykorzystanie danych szybko wzrasta. Jak się to mierzy?

Rejestrujemy każde pobranie zbioru danych. Roczne zestawienie pobrań pokazuje ich wyraźny wzrost. Biorąc pod uwagę specjalistyczną naturę danych i ograniczoną liczbę badaczy w naszym kraju, uważam, że statystyki wykorzystania danych są bardzo wysokie. Każdy zbiór danych jest pobierany średnio raz do roku, chociaż potwierdza się zasada 80–20: 20 procent zbiorów generuje 80 procent pobrań. Popularny zbiór danych potrafi mieć ponad sto pobrań.

Wykres 2. Ponowne wykorzystanie zbiorów danych DANS w latach 2005–2014


Mówił Pan o tym, że RACM wprowadził obowiązek deponowania danych. Czy dane te muszą być otwarte, aby mogły być ponownie wykorzystywane? Czy w Holandii są jeszcze jakieś inne instytucje, które wprowadziły obowiązek deponowania danych?

Dane nie zawsze są otwarte dla wszystkich. Dane archeologiczne mogą zawierać szczegółowe opisy miejsc wykopalisk, co może budzić zainteresowanie archeologów-hobbystów albo poszukiwaczy skarbów z wykrywaczami metalu i zwabić ich do miejsc historycznych, które powinny być objęte ochroną. A zatem około 25 procent tych zbiorów jest dostępnych wyłącznie dla zawodowych archeologów. Wiele socjologicznych zbiorów danych zawiera informacje dotyczące pojedynczych osób, których nie należy rozpowszechniać z uwagi na ochronę prywatności. 11 procent naszych danych należy do tej kategorii. 63 procent zbiorów jest udostępnianych w sposób otwarty, większość z nich wymaga jedynie rejestracji. Z puntu widzenia purystów, nie jest to prawdziwy „otwarty dostęp”. Obecnie wdrażamy zatem otwarty dostęp bez rejestracji, na licencji Creative Commons „CC0” .

Jakie są Pana zdaniem wady i zalety działania na szczeblu krajowym (w przeciwieństwie do instytucjonalnego) z punktu widzenia dostawców danych, użytkowników i instytucji archiwizujących dane?

Nie chcę tu twierdzić, że jedno konkretne rozwiązanie – scentralizowane lub zdecentralizowane – jest najlepsze. Promujemy „federacyjną” infrastrukturę danych, w której różni gracze mają do wypełnienia różne role i różne obowiązki na różnych szczeblach. „Federacyjna” struktura oparta jest na modelu kolaboracyjnym opisanym w raporcie Riding the Wave, opublikowanym przed około pięciu laty. DANS skupia się raczej na funkcjach przydatnych dla zaplecza operacyjnego (back-office), przy jednoczesnym wspieraniu uczelnianych punktów pierwszego kontaktu (front-office), które wspomagają naukowców bezpośrednio na macierzystej uczelni. Opublikowaliśmy broszurę, gdzie bardziej szczegółowo wyjaśniamy nasz model front-office/back-office.

DANS prowadzi krajowe repozytorium danych badawczych – EASY. Czy w Holandii funkcjonuje wiele repozytoriów instytucjonalnych lub dziedzinowych? Jaka jest Państwa koncepcja podziału zadań pomiędzy tymi trzema typami repozytoriów: instytucjonalnymi, dziedzinowymi i krajowymi?

Każda holenderska uczelnia prowadzi repozytorium instytucjonalne przeznaczone do przechowywania publikacji naukowych. DANS zbiera dane z tych repozytoriów i agreguje informacje przy użyciu portalu Narcis.nl. Jest także kilka repozytoriów dziedzinowych, jak np. Archiwum Językowe przy Instytucie Psycholingwistyki Maxa Plancka w Nijmegen. DataverseNL, hostowane przez DANS, jest obecnie używane przez osiem uczelni do przechowywania danych w trakcie prowadzonych badań oraz jako archiwum w krótkiej i średniej perspektywie czasowej. Trzy holenderskie politechniki prowadzą wspólne centrum danych 3TU.Datacentrum, blisko współpracujące z DANS. Poza tym istnieją także międzynarodowe repozytoria danych, zarówno „uniwersalne” (jak Figshare czy Zenodo), jak i dziedzinowe (dla kilku różnych dyscyplin).

Także poza samym środowiskiem akademickim istnieją repozytoria danych bardzo istotne dla badaczy, np. archiwa krajowe, biblioteka narodowa, archiwa radiowe i telewizyjne oraz inne archiwa sektora kultury. Z ich pomocą utworzyliśmy Narodową Koalicję ds. Archiwizacji Cyfrowej (National Coalition for Digital Preservation, NCDD). DANS stanowi również punkt dostępu dla naukowców wykorzystujących dane statystyczne z Niderlandzkiego Urzędu Statystycznego (CBS).

Cały ten krajobraz składa się z dość rozproszonych elementów. Tworząc koalicje z najważniejszymi graczami krajowymi, na przykład w ramach Research Data Netherlands (RDNL) czy ze wspomnianym wyżej NCDD, staramy się koordynować te działania. W skali międzynarodowej DANS jest ważnym członkiem organizacji zajmujących się danymi badawczymi (RDA, CoData, APA) i infrastrukturą badawczą (DARIAH, CLARIN, CESSDA itd.).

Jakie działania podejmuje DANS, aby promować udostępnianie danych wśród badaczy? Czy któreś z nich ocenia Pan jako szczególnie udane?

Najskuteczniejsze jest promowanie otwartości wśród grantodawców, zarówno krajowych (w przypadku Holandii: NWO), jak i europejskich (DG Research, DG Connect). Wygłaszamy też wiele prezentacji, wydajemy broszury, publikacje i inne materiały informacyjne, prowadzimy newsletter itd. Bardzo wymowny jest tu przypadek archeologów: zdołaliśmy przekonać RACM, że warto wprowadzić obowiązek udostępniania danych cyfrowych.

Jakie aspekty dzielenia się danymi stanowią obecnie największe wyzwanie? Czy są to trudności techniczne związane z przechowywaniem i zabezpieczaniem danych, przeszkody prawne, stosunek społeczności naukowej czy jeszcze coś innego?

Osobiście uważam, że czynnik ludzki jest kwestią najbardziej złożoną i że przekonanie naukowców o konieczności udostępniania danych stanowi największe wyzwanie. Trzeba zdać sobie sprawę, że (widoczne) korzyści, jakie płyną z udostępniania danych dla badacza lub badaczki, którzy decydują się je udostępnić, są dość niewielkie – choć istnieją pewne dowody na to, że naukowcy, którzy udostępniają dane, są częściej cytowani. To zrozumiałe, że naukowcy postrzegają deponowanie danych raczej jako obciążenie niż jako szansę.

Kolejne wyzwanie stanowią trudności organizacyjne: jak skoordynować ogólnoświatowy system danych? Organizacje takie jak RDA stawiają to sobie za swój główny cel, ale sam proces jest obecnie równie skomplikowany jak obiecujący. Oczywiście, istnieją też trudności techniczne. Związane są głównie z ilością danych, które produkujemy, ale także – a może nawet bardziej – z ich selekcjonowaniem i z dbałością o nie. Co chcemy przechowywać? Jak długo? Dla kogo ma to jakąś wartość? Jak te dane powinny być udostępniane? Jak możemy je odnaleźć? Jaka dokumentacja lub metadane są potrzebne, by zrozumieć zawartość danych? Nie ma sensu próbować przechowywać wszystkiego. Ale brak wyczulenia na kwestie związane z udostępnianiem danych może sprawić, że nieumyślnie stracimy lub zniszczymy dużo wiedzy naukowej.

Dziękuję za rozmowę.

OpenAIRE — e-infrastruktura umożliwiająca publikowanie wyników badań naukowych w otwartym dostępie

Natalia Manola

OpenAIRE – e-infrastruktura umożliwiająca publikowanie wyników badań naukowych w otwartym dostępie

 


Natalia Manola – project manager w OpenAIRE

(opracowanie pytań: Marta Hoffman-Sommer)

 

Projekt OpenAIRE został zainaugurowany w 2009 r. jako narzędzie służące Komisji Europejskiej do monitorowania badań finansowanych przez Europejską Radę ds. Badań Naukowych (ERC) oraz siódmy program ramowy (7PR), a w szczególności do monitorowania stopnia realizacji wytycznych dotyczących otwartego dostępu zawartych w Pilotażu Otwartego Dostępu w 7PR i w ERC Guidelines. Kolejny projekt, OpenAIREplus, miał znacznie szersze cele. Jak można je zdefiniować? 

OpenAIREplus rozszerzył zakres działań zarówno jeśli chodzi o infrastrukturę techniczną, jak i zasoby ludzkie, wykraczając poza obszar rozwiązań dotyczących publikacji pochodzących jedynie z projektów finansowanych przez KE (klauzula specjalna nr 39). W rezultacie infrastruktura OpenAIRE jest otwarta dla całości produkcji naukowej powstającej w Europejskiej Przestrzeni Badawczej. Oprócz publikacji uwzględnione zostały także zbiory danych. Jest to możliwe dzięki szeregowi usług obejmujących automatyczną, półautomatyczną lub manualną identyfikację powiązań między publikacjami i zbiorami danych, projektami lub innymi publikacjami.

OpenAIRE prowadzi portal oferujący użytkownikom różne usługi. Jakie usługi są dostępne już teraz, a jakie dopiero pojawią się w przyszłości? Do jakich grup użytkowników są one skierowane?

Dzięki OpenAIRE Europa znalazła się na wiodącej pozycji w dziedzinie otwartej nauki, działając jako zaufany partner podobnych inicjatyw na arenie międzynarodowej. OpenAIRE, rozpoczynając etap związany z programem Horyzont 2020 (H2020), dostarcza cenione, wartościowe usługi szerokiemu gronu użytkowników:

  • badaczom, którzy mogą się dowiedzieć, jak wypełnić zobowiązania wynikające z H2020 lub innych programów krajowych czy instytucjonalnych, a także gdzie zdeponować wyniki badań, jak je wzajemnie powiązać i w jaki sposób zaprezentować je w najlepszym kontekście;
  • koordynatorom projektów i osobom odpowiedzialnym za obsługę projektów, którym pomaga monitorować i raportować postępy prac badawczych i ich zgodność z polityką otwartości;
  • instytucjom i społecznościom badawczym, którym dostarcza informacji na temat mechanizmów agregowania wyników badań i ich wpływu;
  • dostawcom danych i wydawcom publikującym w otwartym dostępie, którym ułatwia włączenie się w kształtującą się e-infrastrukturę międzynarodową;
  • i wreszcie instytucjom zarządzającym nauką i grantodawcom, którym umożliwia analizowanie realizowanych badań i podejmowanie decyzji w oparciu o prowadzone analizy.


Czy wiadomo, kto faktycznie korzysta z usług OpenAIRE i które funkcjonalności są używane najczęściej?

Z OpenAIRE korzystają przede wszystkim naukowcy, koordynatorzy projektów i administratorzy badań, którzy chcą się dowiedzieć, jak prawidłowo realizować obowiązujące ich otwarte mandaty KE oraz jak monitorować i raportować działalność badawczą  całych projektów lub całych jednostek naukowych. Po drugie, są to osoby wytwarzające dane, które korzystają z infrastruktury OpenAIRE, by swoje zasoby udostępnić.

OpenAIRE obejmuje także sieć Krajowych Biur Otwartego Dostępu (NOAD, National Open Access Desks) funkcjonujących w trzydziestu trzech krajach europejskich. Co należy do ich obowiązków? Jakie są wady i zalety takiej rozproszonej struktury krajowej?

Kluczową sprawą dla OpenAIRE jest zrozumienie i wspieranie użytkowników, dostawców treści i innych uczestników systemu komunikacji naukowej w ich jednostkach badawczych. Właśnie dlatego utrzymujemy tę szczególną sieć społeczną we wszystkich państwach członkowskich UE (i pięciu krajach stowarzyszonych), którą stanowią właśnie Krajowe Biura Otwartego Dostępu. Krajowe Biura mają swoich lokalnych przedstawicieli, którzy dobrze rozumieją lokalne problemy i mogą komunikować się w językach narodowych. Współpracują z ministerstwami oraz innymi instytucjami, jak również z wydawcami, administratorami danych i z samymi badaczami. Dzięki nim dobre praktyki przenoszą się z kraju do kraju, przełamując bariery geograficzne i dziedzinowe. W rezultacie ich działań zwiększa się świadomość otwartego dostępu i chęć wdrożenia odpowiednich polityk krajowych i unijnych. Co nie mniej ważne, promują one również usługi OpenAIRE. Ich zaangażowanie w OpenAIRE zaowocowało wzrostem i wzmocnieniem lokalnych polityk otwartego dostępu, zarówno na poziomie instytucjonalnym, jak i finansowym. Jednocześnie Biura zdobyły silną pozycję na scenach krajowych, co pozwala im wpływać na decydentów, zwracać uwagę na pojawiające się problemy związane z zarządzaniem danymi, i wzmacniać rolę bibliotek instytucjonalnych w ramach infrastruktury krajowej.


Co jest dla Pani najważniejszym osiągnięciem OpenAIRE?

Podczas trwania całego Pilotażu Otwartego Dostępu w ramach 7PR OpenAIRE konsekwentnie budował infrastrukturę zorientowaną na usługi, obecnie uważaną za punkt odniesienia dla całego otwartego dostępu w Europie. W ten sposób ustanowiona została dobrze rozpoznawalna marka, doceniana również poza europejskimi granicami. Po pięciu latach nieprzerwanej działalności dzięki OpenAIRE Europa stała się liderem w dziedzinie otwartej nauki, działając jako godny zaufania partner dla podobnych inicjatyw na arenie międzynarodowej.

Projekt OpenAIRE2020 rozpoczął się w styczniu 2015 r. i ma trwać trzy i pół roku. Jakie są najważniejsze cele, które Pani zdaniem należy w tym czasie osiągnąć? Jakich rezultatów się Państwo spodziewają?

OpenAIRE2020 to wielopoziomowy projekt, którego głównym celem jest konsolidacja istniejących sieci i usług, by lepiej realizowały zadania sformułowane w programie Horyzont 2020 i lepiej służyły europejskim naukowcom. Szczegółowy opis planu pracy i działań można znaleźć tutaj. Poniżej wymieniamy kilka przykładowych działań.

a. Monitorowanie i raportowanie wyników badań finansowanych z H2020, tak by uzyskać jak najlepsze pokrycie Europejskiej Przestrzeni Badawczej. Będziemy aktywne dążyć do współpracy z europejskimi instytucjami finansującymi naukę i wydawcami, by uwzględnić w OpenAIRE wszystkie programy finansowania badań. Celem jest włączenie w naszą infrastrukturę 75% wszystkich repozytoriów zawierających publikacje naukowe, rozszerzenie powiązań pomiędzy publikacjami a zbiorami danych i projektami oraz uwzględnienie pozostałych największych europejskich grantodawców.
b. Wspieranie realizacji uruchomionego przez Komisję Europejską Pilotażu Otwartych Danych Badawczych poprzez szkolenia, edukację i wykorzystanie konkretnych usług (np. rozbudowa repozytorium Zenodo, by zapewniło przestrzeń dla „długiego ogona” nauki, albo opracowanie usług anonimizacyjnych, by umożliwić naukowcom publikowanie wyników badań bez narażania źródeł na utratę anonimowości i w ten sposób ograniczyć stosowanie zasady opt out obowiązującej w H2020).
c. Dostarczanie narzędzi i usług pozwalających naukowcom zarówno tworzyć, jak i odczytywać powiązania pomiędzy literaturą i danymi badawczymi.
d. Współpraca z twórcami podobnych infrastruktur na całym świecie ukierunkowana na stworzenie globalnej otwartej infrastruktury repozytoryjnej.
e. Poszukiwanie nowych sposobów umiejscowienia platform do otwartego recenzowania w systemie komunikacji naukowej. Będziemy też analizować, jak takie platformy mogą kształtować przyszłość komunikacji naukowej.
f. Analiza sposobów i modeli procesowania i rozliczania opłat za artykuły w czasopismach otwartych w odniesieniu do publikacji powstałych w ramach zakończonych już grantów z 7PR1.

Finansowanie przez UE projektu OpenAIRE zakończy się w 2018 r. Z tego właśnie powodu konsorcjum analizuje i dyskutuje obecnie potencjalne modele długofalowego, zrównoważonego finansowania oferowanych usług. Jakie są dostępne opcje? Jaki model byłby najlepszy? Jakie działania będą kontynuowane: czy tylko portal i oferowane tam usługi, czy także inne aktywności, na przykład związane z propagowaniem otwartego dostępu wśród społeczności naukowej  czy z funkcjonowaniem sieci Krajowych Biur?

Zamówiliśmy w centrum badań ICRE8 analizę, której celem była ocena możliwości ekonomicznych projektu OpenAIRE, przy uwzględnieniu oszacowanego poziomu gotowości do zaangażowania (WTE) i gotowości do płacenia (WTP) za jego usługi. Rezultaty okazały się obiecujące, jako że kluczowa grupa interesariuszy – pracownicy instytucji zarządzających nauką, koordynatorzy projektów i dostawcy treści – zdawała się doceniać wartość infrastruktury OpenAIRE (jej interoperacyjność techniczną i stojącą za nią sieć ludzką) oraz dostarczanych usług. Zespół ICRE8 połączył te dane z informacjami na temat wysokości i alokacji środków wydawanych na badania w poszczególnych krajach członkowskich i z pomocą dalszych symulacji opracował alternatywne modele subskrypcji/kontrybucji dla państw członkowskich. Wyniki tych prac są obecnie dyskutowane, jako że OpenAIRE jest w trakcie ustanawiania osobowości prawnej.

Czy istnieją plany zintegrowania infrastruktury OpenAIRE z innymi, pozaeuropejskimi sieciami? Czy w przyszłości OpenAIRE może stać się częścią globalnej infrastruktury otwartego dostępu?

Zdajemy sobie sprawę, że otwarty dostęp odniesie pełny sukces tylko wtedy, gdy stanie się inicjatywą globalną. Właśnie z tego powodu OpenAIRE nawiązał bliską współpracę z COAR, by razem pracować nad stworzeniem międzynarodowej sieci repozytoryjnej. Nawiązaliśmy też współpracę z CLARA / LaReferencia, by stworzyć podobną infrastrukturę, a pierwsze wyniki powinny być widoczne już niedługo, po przyjęciu wytycznych OpenAIRE przez repozytoria i rozpoczęciu korzystania z walidatora. Jednocześnie współpracujemy z takimi organizacjami jak Jisc w Wielkiej Brytanii, SHARE w USA i ANDS w Australii, by zapewnić interoperacyjność w wymiarze globalnym.

1. W kontekście projektu OpenAIRE2020 Komisja Europejska uruchamia obecnie Pilotaż Złotej Drogi Otwartego Dostępu dla post-grantowych publikacji z 7PR. W ramach pilotażu będą dystrybuowane środki finansowe na opłacenie APC (opłat za publikację; article processing charges) za publikowanie w złotym otwartym dostępie w tych sytuacjach, gdy badania były prowadzone w ramach grantów z 7PR, ale ich publikacja nie może zostać opłacona z budżetu grantu, ponieważ następuje już po zakończeniu projektu i zamknięciu jego budżetu. Gdy pilotaż zostanie uruchomiony, na portalu openaire.eu będzie można znaleźć wszystkie szczegółowe informacje na jego temat.

OpenAIRE — an e-infrastructure for Open Access publishing of research outputs

Natalia Manola

OpenAIRE – an e-infrastructure for Open Access publishing of research outputs

 


Natalia Manola – project manager at OpenAIRE

(interviewer: Marta Hoffman-Sommer)

 

OpenAIRE started in 2009 as a tool for the European Commission to facilitate the monitoring of ERC- and FP7-funded research, in particular to monitor compliance with the Open Access Pilot in FP7 and the ERC Guidelines. The follow-up project OpenAIREplus had much broader goals. How would you define them?

OpenAIREplus expanded the scope in both the technical and human infrastructure aspects beyond the restricted realm of publications from projects funded by the EC (Special Clause 39), effectively offering an Open Access infrastructure to the entire scientific production of the European Research Area. In addition to dealing with publications, it  opened up to scientific datasets through a range of services for the automatic, semi-automatic, or manual identification of links between publications and related datasets, projects, or other publications.

OpenAIRE runs a web portal and several associated services for its users. What services are offered now, what will be added in the future? What groups of users are expected to benefit from these services?

OpenAIRE has placed Europe in a leading position for open scholarship, acting as a trusted partner with similar initiatives in the international arena. OpenAIRE, currently entering into the EC’s Horizon2020 (H2020), provides trusted, value added services to a wide range of stakeholders:

  • researchers to find how to comply with the H2020 and other national or institutional policies, where to deposit their research results, and how to interlink them or present them in the right research context;
  • project coordinators and project officers on how to monitor and report a project’s scientific outcome progress and its OA policy compliance;
  • institutions and research communities on mechanisms to aggregate their research outcome and impact;
  • data providers and OA publishers to interoperate with emerging e-Infrastructures beyond national boundaries;
  • finally research administrators and the funders themselves to perform research analytics for evidence-based policy making.


Do you know who the actual users of the OpenAIRE services are and which functionalities are used most?

It is primarily used by researchers, project coordinators and research administrators to find out how to comply to the EC's Open Access mandates, to monitor and report the project's or institution's outcomes. Secondly it is used by data providers to participate in the infrastructure.

OpenAIRE also includes a network of NOADs - National Open Access Desks - based in 33 European countries. What are their responsibilities? What are the strengths and weaknesses of this kind of dispersed, national structure?

Key to OpenAIRE is understanding and supporting the users, providers and consumers of the scholarly communication ecosystem at their research places. For this reason it operates a unique network of people in all EU member states (and five associate countries), namely the National Open Access Desks (NOADs). NOADs have representatives on the ground who understand the local issues and are able to reach out with relevant messages in the local language. They engage and support ministries, institutions, publishers and curators of data and researchers alike, breaking down geographical and thematic boundaries by transferring best practices from one country to the other. They have a multiplication effect on the awareness and implementation of the EC and national OA policies and, equally importantly, promote the OpenAIRE services. Their involvement in OpenAIRE has resulted in a growth and enforcement of local open access policies, both at institutional and funder levels. In parallel they have established a strong position within the national scenes, allowing them to influence decisions makers, to emphasize emerging data management issues, and to enforce the role of  institution libraries within the national infrastructures.


What do you consider OpenAIRE's most important achievements?

Throughout the EC’s FP7 Open Access pilot, OpenAIRE has progressively been building a service-oriented infrastructure, now considered the reference point for Open Access in Europe, establishing a well-recognized brand name within and outside Europe. After five years of continuous operation, OpenAIRE has placed Europe in a leading position for open scholarship, acting as a trusted partner with similar initiatives in the international arena.

The OpenAIRE2020 project is starting in January 2015 and will operate for 3,5 years. What are in your opinion the most important goals to be achieved during this time? What particular results do you expect to be produced?

OpenAIRE2020 is a multifaceted project, its major aim being the consolidation of the established network and services, to better serve the Horizon2020 mandates and European researchers. A detailed description of the workplan and activities can be found here, below we just name a few of the activities:


a. Monitor and report H2020 research outputs, towards an effective coverage of the European Research Area, actively pursue collaborations with Europe’s funding organizations and publishers to integrate all funding schemes. The target is to cover 75% of literature repositories, expand the publication links to datasets and projects, and integrate additional major European funders.
b. Support the EC’s Open Research Data Pilot with training, education and the use  of tangible services (i.e. enhancing Zenodo to accommodate the long tail of science, developing anonymization services that help researchers publish without endangering the anonymity of the data sources, thus easing the “opting out” H2020 rules).
c. Provide tools and services to allow researchers to link and resolve cross-references from literature to data.  
d. Work with similar infrastructures around the world towards a global repository and OA infrastructure.
e. Look into new venues for open peer review platforms and how these can shape up the future of scholarly communication.
f.  Explore policies and workflows for processing APCs for FP7 post-grant publications, as well as their monitoring.1


EU-financing of the OpenAIRE project series will come to an end in 2018. For this reason, the consortium is currently analyzing and discussing possible models of sustainable, long-term financing of its services. What are the possible options, what would be the best model? And which activities will be maintained: only the web portal and services, or other activities – such as community outreach, the NOAD network – as well?

OpenAIRE  commissioned a study to the ICRE8 team in order to assess the economic sustainability of the OpenAIRE project, allowing the monetary measurement of willingness to engage (WTE) and willingness to pay (WTP) for its services. The results were encouraging as key stakholder groups like research administrators, project coordinators and data providers seemed to appreciate the value of the infrastructure (technical interoperability and human network) and its services. The ICRE8 team combined the data from the study with member state research spending and allocation, and with further simulations came up with alternative subscription/contribution models for members. The results of this work are currently under consideration as OpenAIRE is in the process of creating a legal entity.

Are there any plans for the integration of the OpenAIRE infrastructure with other networks, outside of Europe? Will OpenAIRE become in the future part of a global open access infrastructure?

We realize that Open Access implementation can only succeed when it becomes a global endeavour. For this reason OpenAIRE has established close links with COAR and they work together toward an international repository network alignment. We have already started working with CLARA/LaReferencia to establish a similar infrastructure, and the first results will soon be visible with the adoption of the OpenAIRE guidelines by repositories and the use of the Validator service. In parallel, we are working with Jisc from the UK, SHARE from the US, and ANDS from Australia to ensure global interoperability with other regions of the world.


1. Within the context of OpenAIRE2020, the EC is now launching a Gold Open Access Pilot for FP7 post-grant publications. In this pilot, funds will be distributed for paying APCs (article processing charges) for OA publication of work that has been carried out in the frames of FP7-funded grants in situations, where the publication takes place after the projects had been completed and their budgets closed. When the pilot is launched, detailed information on how to apply will be available on the openaire.eu website.

COAR (Confederation of Open Access Repositories) — international association of repository initiatives

Kathleen Shearer

COAR (Confederation of Open Access Repositories) – international association of repository initiatives

 

Kathleen Shearer – Executive Director of COAR

(interviewer: Lidia Stępińska-Ustasiak)

 

The mission of COAR is defined as raising the visibility of research outputs through a global network of repositories. What measures and actions do you take to put this mission into effect?

This mission is actualized through a variety of activities that promote open access repositories and support their adoption, management and evolution. COAR works at two levels: On the one hand, we work at the practical level by fostering communities of practice around areas of interest for our members. On the other hand, we also work at the strategic level. We feel it is increasingly important that repositories remain visible and are perceived as a viable solution for supporting access to research outputs.

The COAR strategy is put into practice by dedicated working and interest groups. What are the priorities that the groups are currently working on?

Our current priorities fall in the areas of advocacy and promotion of OA repositories, alignment and interoperability, value added services, and training and education. We have working groups looking at controlled vocabularies, linked data, usage statistics, licensing language for deposit into repositories, and new competences for librarians. We have also been very involved in the Research Data Alliance (RDA) to ensure that as institutions expand services to include research data management, we can help build capacity and also ensure they are adopting best practices. We have recently published a major report about repository interoperability, based on community consultation.

COAR’s highest priority activity involves aligning repository networks. In March 2014, COAR launched a major initiative to align repository networks across the world. The aim of the initiative is to establish a mechanism for ongoing dialogue between repository networks. This will give the repository community a stronger global voice and raise the visibility of the role of repositories as critical research infrastructure. It will also provide an important venue whereby repository networks can discuss strategy, interoperability, and best practices for metadata standards, vocabularies and services. As a first step, we have been working with representatives from major repository networks: OpenAIRE, SHARE and La Referencia to ensure greater technical interoperability of these networks.

At the moment green and gold OA co-exist, they are developed simultaneously. However, this balance is constantly being challenged - for example through the policies of the Research Councils UK and the European Commission, when they allocated separate funds for gold OA. Should repositories somehow redefine their role in scholarly communication in order to respond to the growing support for the gold model? Do you think the balance between green and gold OA will tip significantly either way in the near future?

I think that we are at a pivotal moment for open access. Many of the major publishers are positioning themselves to provide gold open access through Article Processing Costs (APCs). However, there is a huge concern that if the APC model of open access becomes prevalent, this could further marginalize researchers from certain countries and regions. With average fees of 1500-2000 Euros per article to publish, APCs are completely out of reach for many researchers and make it very difficult to publish research they generate, and certainly not in the prestigious international journals produced in the north that would give them visibility and prestige.

As funders and governments adopt open access policies, we want to make sure that they are aware that decisions could have a negative impact on researchers in terms of their ability to participate in the international system of scholarly communication.

In terms of redefining their role, yes, I think repositories need to reposition themselves from an afterthought at the end of the process, to be at the centre of scholarly communication. This means providing more value added services, such as those offered by publishers. And, since scholarly communication is international, this repositioning must also take place at the global level across the repository community.

For the past few years we have been observing a tension arising between two competing scenarios: something that has been termed the research-driven and the publisher-driven transition to Open Access. The crucial difference is which community will lead the changes in the scholarly communication system and, as a result, whose interests will be better represented in the final outcome. What do you identify as the main challenges for COAR in this context?

One of the major challenges is that of visibility. Funders policies will be key in determining which scenario wins out. The nature of these policies can be influenced by lobbying from stakeholder communities. We are facing a very strong and well-funded publisher lobby. They have far more financial resources to devote to promoting their solution. Promoting our vision will be absolutely critical, despite having access to less resources.

Another really important challenge is the perceived value of repositories. As mentioned earlier, repositories are not highly valued at the moment, and to improve this, we need to begin to position repositories closer to the centre of the scholarly communication process. However, this is difficult since repository services at many institutions are just being launched.

Originally repositories were defined as places where papers published in subscription journals can be self-archived by researchers. Now repositories play more diverse roles, e.g. they provide access to multimedia, educational materials, grey literature etc. How does COAR define the current and future role of repositories?

Although COAR does not have an official position on this, our general approach has been that institutions have an important role to play in collecting the whole range of outputs created through research, whether that be articles, research data or other materials deemed of value by the research community. However, we recognize that it is important to be able to distinguish these different types of material from each other. Therefore, I argue that repositories should try to adhere to metadata standards and vocabularies that allow this to happen. To date, repositories have not been completely successful, but as the services mature and standards become global, I think this will get better.

The Horizon 2020 Open Data Pilot is one of the factors which has stimulated a debate on open research data. However, the discussion on what is the best strategy for developing e-infrastructures for this purpose is still at a very early stage. Is it realistic to expect that institutions will create dedicated institutional data repositories for their researchers or do you think that the e-infrastructure will be based on disciplinary repositories established and maintained by research consortia or research funders?

I think we will need both. Domain data repositories are important. They support integration of discipline-based data, which leads to new discoveries and further scientific progress. However, existing domain repositories cover only a small portion of the data sets produced through research. Institutional data repositories will be needed in order to support comprehensive data sharing and open data policies. However, I don’t anticipate that every institution will maintain their own data repository. Research data management takes specialized skills and can also be expensive. I think we need to pursue collaborative models for RDM services that involve several institutions taking on different roles as well as sharing the infrastructure and storage. We are beginning to see such models emerge in a number of countries including Netherlands, Austria and Canada. In an environment with a diverse data repository landscape, the key will be to ensure we have interoperable metadata standards so that the repositories are not individual silos.

According to the report “Open Science in Poland 2014. A Diagnosis”, there are currently 22 institutional repositories in Poland, while the number of academic schools in Poland exceeds 150, and further there are 79 institutes and research centers of the Polish Academy of Sciences and 123 separate research institutes. So currently the role of repositories is not strategic. At the same time, the Ministry of Science and Higher Education has just launched a public consultation of OA implementation, which shows that we are at the point of defining what the future model of OA in Poland will be. In the context of this discussion, how should repository managers communicate the role of repositories to make them an important part of the emerging new system of scholarly communication system in Poland?

My advice would be to position repositories as the most sustainable solution for open access over the long term. This will require more investment in repository infrastructure in the short term future, but it will end up saving the government money over the long term. [The cost comparisons have been explored by the economist John Houghton who found significant savings via the green route]. I would also note that most countries which have already adopted OA policies or laws have either favored the green road or remained neutral in terms of green or gold. I would also explain about the potential negative consequences of allowing the publisher-based solutions to drive the future of scholarly communication, especially for countries and regions that cannot afford to pay these huge APC fees.

 

Additional information