Z jakich rozwiązań będzie korzystał Plan S?

Do 1 lutego 2019 roku zgłaszać można uwagi dotyczące Planu S, który realizować będą instytucje finansujące badania naukowe zrzeszone w cOAlition S (aktualnie 16 agencji i fundacji). Celem Planu S jest otwarte i natychmiastowe udostępnianie publikacji naukowych od początku 2020 roku, zatem działania podjęte w 2019 roku zadecydują o powodzeniu całego przedsięwzięcia.

cOAlition S, CC BY 4.0

Plan S uwzględnia różne drogi wprowadzania otwartego dostępu, a konsultowane wytyczne są propozycją warunków organizacyjnych, technicznych i prawnych, które muszą zostać spełnione przez czasopisma lub repozytoria. Niektóre warunki sformułowane zostały w oparciu o istniejące już rozwiązania, inicjatywy oraz działania. Wpisane do Planu S oraz oficjalnie uznane przez instytucje finansujące badania, mogą zmienić swój charakter, zaczną bowiem odgrywać rolę obowiązujących standardów, a nie - jak dotychczas - fakultatywnych opcji, zaleceń czy źródeł informacji. Poniżej zebraliśmy podstawowe informacje na temat proponowanych w Planie S rozwiązań. 

Plan S. Przegląd opinii

Ogłoszony na początku września 2018 r. Plan S to inicjatywa 11 narodowych agencji finansujących badania naukowe, w tym Narodowego Centrum Nauki, występujących wspólnie jako cOAlition S. Nadrzędnym celem koalicji jest udostępnianie w sposób otwarty publikacji powstałych w ramach grantów. Plan zakłada, że wymóg otwartości wejdzie w życie już z początkiem 2020 roku.

Zawiązanie cOAlition S odbiło się szerokim echem w kręgach naukowców, ekspertów do spraw akademickich i aktywistów działających na rzecz otwartej nauki. Opinie na temat planu są jednak podzielone. Obok wyważonych i wnikliwych analiz pojawiają się głosy entuzjastów, którzy widzą w Planie S szansę na szybsze wprowadzenie otwartego dostępu do wyników badań, oraz krytyków, którzy zwracają uwagę m.in. na ograniczenie wolności naukowców.

Poniżej zebraliśmy linki do najważniejszych opinii i komentarzy na temat Planu S.

Otwarte recenzje naukowe – warsztaty OpenAIRE 2020

Marta Hoffman-Sommer

Dotychczasowe doświadczenia wskazują, że ujawnianie treści recenzji zawsze wpływa pozytywnie na stylistykę i ton recenzji, mniej jest w nich uwag obraźliwych lub bezzasadnych. A zalety ujawniania tożsamości recenzentów? Tu zdania są bardziej podzielone. Niektórzy zauważają, że podpisana, jawna recenzja, jeżeli posiada wartość merytoryczną, może stanowić istotną pozycję w dorobku naukowym samego recenzenta.

 

7 czerwca 2016 w Getyndze odbyły się całodzienne warsztaty „Open Peer Review: Models, benefits and limitations”. Warsztaty zostały zorganizowane przez projekt OpenAIRE 2020, a poprowadzili je Tony Ross-Hellauer i Arvid Deppe z Uniwersytetu w Getyndze.

Punktem wyjścia było omówienie tradycyjnego systemu recenzji naukowych (traditional peer review; TPR). W modelu tradycyjnym artykuł naukowy jest wysyłany do redakcji czasopisma, następnie jest recenzowany przez ekspertów, których wybiera redakcja, i dopiero po uzyskaniu pozytywnych recenzji jest publikowany. Najczęściej stosowany jest system recenzji jednostronnie anonimowych – tożsamość autorów artykułu jest znana, natomiast recenzenci pozostają anonimowi. Ten tradycyjny model jest od dawna krytykowany z różnych powodów. Często od napisania tekstu do jego publicznego udostępnienia mija dużo czasu (czasem proces poszukiwania recenzentów się przeciąga, przygotowanie recenzji trwa długo, a recenzenci proszą o wiele różnych poprawek; czasem ten sam artykuł jest wysyłany do kolejnych czasopism, gdzie cały proces jest prowadzony od początku, zanim któreś zdecyduje się go opublikować). Jawne tożsamości autorów mogą wpływać na nastawienie recenzentów. Brak w tym systemie zachęt dla naukowców, by dobrze i rzetelnie recenzować – ich praca nie jest w żaden sposób wynagradzana. Nie jest też w pełni wykorzystywana, bo toczące się między autorami i recenzentami merytoryczne dyskusje pozostają ukryte; gdyby toczyły się publicznie, miałyby wartość intelektualną i edukacyjną. Wiadomo również, że tradycyjny proces recenzyjny jest omylny: często nawet poważne błędy metodologiczne pozostają niezauważone.

Sprawdzone modele

W czasie warsztatów zaprezentowane zostały wybrane innowacyjne modele recenzyjne. Pierwszym przykładem było czasopismo Atmospheric Chemistry and Physics (ACP), które już od 2001 roku stosuje model wieloetapowego otwartego recenzowania (multi-stage open peer review). Przysyłane do redakcji artykuły są po wstępnej ocenie redaktora natychmiast publicznie udostępniane. Zostają oznaczone jako „artykuły poddane pod dyskusję” (Discussion paper). Można je czytać, cytować, a także – pod warunkiem podpisania się imieniem i nazwiskiem – dodawać komentarze i sugestie. W tym samym czasie toczy się standardowy proces recenzyjny: zaproszeni eksperci przygotowują recenzje, które są następnie dołączane do publicznej dokumentacji artykułu. Treść recenzji zawsze jest ujawniana, natomiast tożsamość recenzentów tylko na ich życzenie. Decyduje się na to jedynie około 30% recenzentów. Odpowiedzi autorów również są publiczne. Artykuł zaakceptowany przez redaktorów zostaje odpowiednio oznaczony (Final paper), co znajduje odzwierciedlenie w sposobie jego cytowania.

Redakcja ACP wskazuje na wiele zalet tego modelu. Od czasu jego wprowadzenia spadła liczba zgłaszanych artykułów kiepskiej jakości. Dzięki temu, przy zachowaniu poziomu pisma (mierzonego między innymi przez impact factor), liczba odrzucanych artykułów spadła do zaledwie 5% spośród tych, które redaktorzy przekazują do recenzji. Pozwala to zaoszczędzić czas i pracę recenzentów i redaktorów oraz obniżyć koszty. Jednocześnie wyniki naukowe dużo szybciej wchodzą do obiegu naukowego, bo już z chwilą wstępnej akceptacji przez redaktora. Ten model daje czytelnikom możliwość komentowania badań na etapie, gdy ich uwagi mają szansę przydać się autorom, ponieważ mają oni jeszcze czas na wprowadzenie poprawek. Artykuły uzyskują dzięki temu więcej merytorycznych komentarzy niż w serwisach umożliwiających jedynie komentowanie opublikowanych już tekstów.

Wśród pozostałych prezentowanych przykładów znalazło się czasopismo The Winnower oraz platformy recenzyjno-publikacyjne ScienceOpen (wraz z czasopismem ScienceOpen Research) i  Self-Journal of Science. Wszystkie te inicjatywy stosują w pełni transparentne modele recenzyjne, w których przysyłane do publikacji lub deponowane artykuły (lub inne teksty naukowe) są natychmiast udostępniane, a dyskusja na ich temat odbywa się wyłącznie publicznie i pod nazwiskiem.

Więcej transparentności

W czasie warsztatów przedyskutowane zostały bardzo liczne aspekty recenzowania tekstów naukowych. Panowała zasadnicza zgoda co do tego, że ujawnianie treści recenzji naukowych jest korzystne dla wszystkich. Dotychczasowe doświadczenia wskazują, że zawsze wpływa pozytywnie na stylistykę i ton recenzji, mniej jest w nich uwag obraźliwych lub bezzasadnych.

A zalety ujawniania tożsamości recenzentów? Tu zdania były bardziej podzielone. Niektórzy wskazywali, że podpisana, jawna recenzja, jeżeli posiada wartość merytoryczną, może stanowić istotną pozycję w dorobku naukowym samego recenzenta. Może to być ważna zachęta dla naukowców do pisania recenzji. Obecnie, jako główne powody, dla których zgadzają się recenzować cudze prace, naukowcy podają poczucie obowiązku i chęć jak najwcześniejszego zapoznania się z cudzymi wynikami. Wiele osób zwracało uwagę, że jeżeli omawiane artykuły są i tak publicznie dostępne, ten drugi powód traci znaczenie, więc może postrzeganie recenzji jako odrębnych publikacji zyska na znaczeniu. Przeczą temu jednak obserwacje poczynione przez redakcję omówionego wcześniej ACP, która nie zanotowała większych niż dawniej trudności w znalezieniu recenzentów po tym, jak zaczęła udostępniać artykuły przed recenzją, ale 70% recenzentów nadal odmawia ujawnienia swojej tożsamości. Najwyraźniej nie widzą w recenzjach źródła prestiżu, przynajmniej obecnie. Z ujawnianiem tożsamości wiążą się też oczywiście lęki, zwłaszcza młodych naukowców, przed publicznym krytykowaniem innych, bardziej utytułowanych badaczy. Wiele osób uważa jednak, że transparentność całego procesu może właśnie zabezpieczać recenzenta przed nieuzasadnionymi przyszłymi przykrościami.

Dyskutowano także nad celem i funkcją systemu recenzyjnego. Czy powinien jedynie potwierdzać, że tekst spełnia minimalne wymagania, czy również zapewniać ocenę jakości artykułów, tworzyć ranking? Większość mówców była zdania, że należy przede wszystkim rozdzielić ocenę jakości od samego publikowania – współczesne czasopismo naukowe powinno dostarczać narzędzi do oceny artykułów, a nie stanowić platformę publikacyjną. Niektórzy zwracali również uwagę, że należy dążyć do tego, żeby to recenzent wybierał tekst, który chciałby zrecenzować, a nie redaktor musiał namawiać do recenzowania. Dotychczasowe doświadczenia wskazują jednak, że jakaś forma pośrednictwa w poszukiwaniu recenzentów jest potrzebna: samo publiczne udostępnienie artykułu gdzieś w sieci nie zapewnia, że zostanie zrecenzowany.

W dyskusjach poruszane były również problemy etyczne związane z recenzowaniem (jawnym i niejawnym), kwestie oceny jakości w nauce w ogóle, padały pytania o to, kto jest uprawniony do recenzowania i jaka powinna być rola poszczególnych uczestników procesu recenzyjnego w jego przemianach. Choć proces recenzyjny jest postrzegany przez wszystkich jako jeden z filarów współczesnej nauki, to było wyraźnie widać, że w obecnym kształcie budzi wiele kontrowersji, i że większa transparentność mogłaby przynieść korzyści.

 

 

Google Scholar - zaawansowane narzędzia wyszukiwania

W lutym 2017 roku E. Orduna-Malea, A. Martin-Martin i E.D. Lopez-Cozar opublikowali w archiwum internetowym arXiv preprint artykułu “Google Scholar and the Grey Literature: Reply to Bonato's Interview”. W zamyśle autorów stanowi on odpowiedź na artykuł S. Bonato, “Google Scholar and Scopus for finding gray literature publications”, opublikowany w 2016 roku w Journal of the Medical Library Association, a zwłaszcza, na ten fragment artykułu, w którym Bonato wskazuje na możliwe ograniczenia w odnajdywaniu w Google Scholar pewnego typu publikacji w określonego rodzaju kontekstach. Odpowiedź (odrzucona przez Journal of the Medical Library Association) wskazuje na niektóre strategie i narzędzia wyszukiwania, jakie może obrać użytkownik, by, wbrew sugestiom Bonato, odnaleźć jednak w Google Scholar pożądane publikacje. W niniejszym tekście chciałbym streścić te spostrzeżenia, które dotyczą prezentacji zaawansowanych narzędzi wyszukiwania w Google Scholar. Mogą się one okazać przydatne nie tylko w kontekście odnajdywania szarej literatury. Niniejszy przegląd pozwoli też przyjrzeć się procesowi budowania zapytania przez Google Scholar w oparciu o wprowadzone słowa kluczowe.

Ryc.1

Wspólną cechą wymienionych poniżej narzędzi jest to, że wszystkie one znacząco zawężają liczbę prezentowanych przez Google Scholar wyników. Wspólnym wnioskiem [Bonato 2016] i [Orduna-Malea i in. 2017] jest spostrzeżenie, że obszerność wyników wyszukiwania Google Scholar ze względu na ogromne rozmiary dostępnej biblioteki tekstów naukowych może w znaczącym stopniu utrudnić odnalezienie tych rekordów, których się poszukuje. Dzieje się tak ze względu na specyfikę działania głównego paska wyszukiwania. Wyszukiwanie proste polega na wprowadzeniu przez użytkownika ciągu słów kluczowych. Google Scholar najpierw eliminuje z zapytania spójniki, a następnie prezentuje wyniki, wśród których dowolne z wprowadzonych słów kluczowych znajduje się w dowolnym z następujących miejsc: tytuł publikacji, imię i nazwisko autora, czasopismo, wydawca, tekst publikacji (jeśli publikacja jest przeszukiwalna pełnotekstowo), bibliografia, afiliacja autora i inne. Na początku prezentowanych wyników znajdować się będą linki do profili zarejestrowanych w Google Scholar autorów, o ile imię i nazwisko będą pasować do dowolnego słowa kluczowego. Wyniki prezentowane będą tak, jakbyśmy połączyli wszystkie wprowadzone słowa kluczowe spójnikami logicznymi OR (alternatywa logiczna), tj. zbiór prezentowanych wyników będzie sumą zbiorów wyników dla wszystkich wprowadzonych słów kluczowych (z preferencją trafności, to znaczy elementy zawarte w części wspólnej wymienionych zbiorów zostaną zaprezentowane wcześniej, niż elementy zawarte w jednym z nich, a nie zawarte w innych). Zauważmy, że w większości przypadków prezentowane wyniki spełniają oczekiwania użytkownika, zwłaszcza jeśli z góry zna on tytuł lub autora poszukiwanej publikacji. Istnieją jednak takie konteksty, w których wśród prezentowanych przez Google Scholar wyników prostego wyszukiwania obecna będzie duża ilość szumu. Przykład takiego kontekstu podaje właśnie [Bonato 2016]: poszukiwania publikacji pokonferencyjnych (z konkretnego roku) w sytuacji, w której znamy tylko tytuł cyklicznej konferencji. Jak podpowiada [Orduna-Malea 2016], zaawansowane narzędzia wyszukiwania przychodzą nam na pomoc właśnie w takich sytuacjach. Przyjrzyjmy im się po kolei.

Posłużmy się następującym przykładem. Załóżmy, że na pasku wyszukiwania wprowadziliśmy słowo kluczowe 'mickiewicz'. Prezentowane przez Google Scholar wyniki będą zawierać wszystkie spośród wymienionych elementów:

  • publikacje z zakresu medycyny, w których jednym z autorów jest E. Mickiewicz;
  • publikacje z zakresu ekonomii, w których jednym z autorów jest T. Mickiewicz;
  • b. wysoko cytowany artykuł "Block copolymer nanocomposites: perspectives for tailored functional materials" (jednym z autorów jest R.A. Mickiewicz);
  • artykuły wielu innych autorów o nazwisku Mickiewicz;
  • cytowania książki "Adam Mickiewicz. Dzieła" Gubrynowicza i Schmidta (1885);
  • Książki Adama Mickiewicza (z books.google.com): "Dziady", "Księgi narodu polskiego i pielgrzymstwa polskiego" itd.;
  • Adam Sikora, "Posłannicy słowa: Hoene-Wroński, Towiański, Mickiewicz", PWN 1967; Tadeusz Sinko, "Mickiewicz i antyk", Ossolineum 1957 itp.;
  • publikacje Uniwersytetu im. Adama Mickiewicza w Poznaniu.

Przykład jest oczywiście trochę sztuczny: przeciętny użytkownik dysponuje zazwyczaj znacznie skuteczniejszymi strategiami wyszukiwania, nawet bez użycia zaawansowanych narzędzi. Zobaczmy jednak, w jaki sposób poszczególne zaawansowane narzędzia wyszukiwania zmienią prezentowane przez Google Scholar wyniki.
Pojedynczym cudzysłowem zaznaczał będę poniżej tekst, jaki wpisujemy do danego paska wyszukiwania, np. 'duży dom' oznacza, że do paska wyszukiwania wprowadzamy to, co znajduje się między znakami ', tj. ciąg znaków d-u-ż-y-spacja-d-o-m. W szczególności odróżnić należy pojedynczy cudzysłów od podwójnego cudzysłowu (np. "duży dom"). Ponieważ cudzysłów posiada w wyszukiwaniach Google swoje znaczenie, zapytanie 'duży dom' jest znacząco różne od zapytania "duży dom" (o szczegółowym charakterze tej różnicy poniżej).

1. Komenda 'allintitle'
Zamiast 'mickiewicz' w pasek wyszukiwania wprowadzamy 'allintitle:mickiewicz'.
Google Scholar prezentuje nam wyłącznie wyniki, w których tytule zawarte jest słowo 'Mickiewicz' (czyli np. Alina Witkowska, "Mickiewicz, słowo i czyn", PWN 1998).
Uwaga: 'allintitle: adam mickiewicz' zadziała tak, jakby słowa "adam" i "mickiewicz" były połączone spójnikiem logicznym AND (koniunkcja logiczna), tj. wśród wyników znajdziemy "Adam Mickiewicz: zarys bibliograficzny", ale nie znajdziemy "Mickiewicz i antyk". 'allintitle: adam mickiewicz' oraz 'allintitle: mickiewicz adam' zwracają te same zbiory wyników (prezentowane wyniki mogą się różnić jednak kolejnością wyświetlania).

2. Komenda 'site'
Załóżmy, że zależy nam na publikacjach uniwersytetu Adama Mickiewicza. W takim wypadku wprowadzenie w pasek wyszukiwań ciągu znaków 'site:repozytorium.amu.edu.pl' zwróci wszystkie te i tylko te rekordy, które pochodzą z repozytorium Uniwersytetu Adama Mickiewicza. Zapytanie 'site:mickiewicz' - lub w ogólności, jakikolwiek ciąg znaków, który nie jest dokładnym adresem domeny internetowej - nie zwróci żadnych wyników).

3. Komenda 'author'
Zapytanie 'author:mickiewicz', jak można się domyślać, powinno w wynikach zwracać wyłącznie artykuły, których autor ma na nazwisko Mickiewicz. Zwraca jednak również (jako cytowania) artykuły, w których bibliografii pojawia się autor o nazwisku Mickiewicz. Uwaga na spację: zapytanie 'author: adam mickiewicz' zwraca jako cytowania artykuły, których autor ma w afiliacji Uniwersytet im. Adama Mickiewicza. Zapytanie 'author:adam mickiewicz' zwraca, zgodnie z oczekiwaniami, rekordy autorstwa Adama Mickiewicza.

4. Cudzysłów
Zapytanie 'adam mickiewicz', jak wspominaliśmy powyżej, zwróci nam wyniki tak, jakbyśmy połączyli słowa "adam" i "mickiewicz" spójnikiem logicznym OR. Zapytanie "adam mickiewicz" zwróci nam tylko te wyniki, które zawierają ciąg znaków “Adam Mickiewicz” w dowolnym fragmencie artykułu lub metadanych. Kolejność jest ważna – zapytanie “Adam Mickiewicz” jest różne od “Mickiewicz Adam” (odwrotnie niż w przypadku użycia spójnika logicznego AND – tam kolejność nie ma znaczenia).

5. Okienko zaawansowanego wyszukiwania
Okienko to dostępne jest po kliknięciu strzałki w dół obecnej po prawej stronie paska wyszukiwania na głównej stronie Google Scholar (patrz ryc. 1). Przyjrzyjmy się wszystkim elementom tego okienka po kolei (patrz ryc. 2). Pierwszy pasek pozwala użyć spójnika AND (koniunkcja logiczna): wpisanie 'adam mickiewicz' daje ten sam efekt, co wpisanie 'adam AND mickiewicz' w pasek wyszukiwania prostego.

Ryc.2


Drugi pasek pozwala użyć wyrażenia. Wpisanie w ten pasek słów kluczowych ma ten sam efekt, co wpisanie w pasek wyszukiwania prostego tych samych słów kluczowych otoczonych cudzysłowem (patrz punkt 4).
Trzeci pasek pozwala użyć spójnika logicznego OR (alternatywa logiczna). Wpisanie weń ciągu słów kluczowych daje taki sam efekt, co wpisanie ich w pasek wyszukiwania prostego.
Czwarty pasek pozwala użyć spójnika logicznego NOT (negacja). Wpisanie weń 'mickiewicz' sprawi, że ze zbioru wyników zostaną wyeliminowane te, które zawierają słowo kluczowe 'mickiewicz'.
Pod czwartym paskiem możemy wybrać opcję (w trybie 'radio', tzn. zawsze musi być wybrana dokładnie jedna z podanych opcji), czy słowa kluczowe wprowadzone powyżej mają być szukane w dowolnym miejscu artykułu, czy tylko w tytule. Użycie opcji "w tytule" daje taki sam efekt, co użycie komendy 'allintitle' (patrz punkt 1.)
Piąty pasek pozwala nam zawęzić wyszukiwanie do imienia i nazwiska autora. Wprowadzenie weń ciągu słów kluczowych daje ten sam efekt, co zastosowanie komendy 'author:' (patrz punkt 3.)

Powyższe opcje dostępne w okienku zaawansowanego wyszukiwania mają swoje ścisłe odpowiedniki w komendach dostępnych w pasku wyszukiwania prostego. Wpisanie do pierwszego paska "adam mickiewicz", do czwartego "Dziady" i zaznaczenie opcji "w tytule" daje ten sam efekt, co wpisanie do paska wyszukiwania prostego ciągu znaków 'allintitle:(adam AND mickiewicz) NOT Dziady'. Obsługa okienka zaawansowanego wyszukiwania może być jednak odbierana jako prostsza, gdyż nie wymaga znajomości brzemienia poszczególnych komend i uodparnia wyszukiwanie na literówki oraz pomyłki w zakresach nawiasów.

W dwóch następnych punktach wymienię te elementy okienka zaawansowanego wyszukiwania, które nie mają swoich ścisłych odpowiedników w komendach wpisywanych do paska wyszukiwania prostego.

6. pole "Publikacja"
Pole to pozwala wybrać spośród dostępnych wyników tylko te, które zostały opublikowane przez określone wydawnictwo.

7. Pole "Data publikacji"
Pole to pozwala zawęzić wyniki do rekordów publikowanych w wybranym przedziale czasowym. Liczy się, oczywiście, data publikacji uwzględniona w metadanych, a nie data zdeponowania artykułu w danym repozytorium lub na danej stronie internetowej wydawnictwa.

8. Opcja wyłączenia patentów i cytowań spośród prezentowanych wyników.
(patrz ryc. 3)
Prosta opcja, lecz często się ją przeocza. Pozwala na wyeliminowanie spośród prezentowanych wyników zarówno patentów, jak i cytowań. To ostatnie jest przydatne zwłaszcza w kontekstach podobnych do opisanego w punkcie 3.

 

Ryc. 3

 

Zaawansowane narzędzia wyszukiwania Google Scholar są bardzo podobne do zaawansowanych narzędzi głównego Google – również pod tym względem, że często zapominamy o ich istnieniu. Są przy tym dość dobrze dopasowane do specyfiki artykułów naukowych – praktycznie wszystkie rodzaje metadanych są w nich uwzględnione na tyle, by znacząco ułatwić życie każdego użytkownika (może przydałaby się jeszcze opcja odfiltrowania książek tak, jak odfiltrowuje się cytaty i patenty). Są one oczywiście mniej zaawansowane od tego, do czego przyzwyczaiły nas bazy bibliograficzne i biblioteki: brakuje przede wszystkim wyszukiwania semantycznego - nawet termin “słowo kluczowe” nie oznacza słowa kluczowego w sensie, w jakim ten termin używany jest w dziedzinie informacji naukowej i bibliotekoznawstwa, a raczej jakikolwiek ciąg znaków (oddzielony spacjami), wprowadzony do wyszukiwarki. Mimo wszystko Google Scholar pozwala korzystać z ogromnego indeksu zgromadzonych w nim zasobów.

Tomasz Lewandowski

 

Google Scholar a repozytoria i biblioteki cyfrowe w Polsce

Tomasz Lewandowski

Repozytoria i biblioteki cyfrowe mają w zamyśle zwiększać widoczność swoich zasobów. Mimo to treści naukowe zdeponowane w wielu z nich nie są w narzędziach Google właściwie widoczne. Przypadki wypełniania tego zadania na znośnym poziomie są w Polsce pojedyncze, przeważnie wtedy, gdy repozytorium korzysta z oprogramowania DSpace. Jednak nawet tutaj pozostaje wiele do naprawy.

 

The Dark Side

W czerwcu bieżącego roku w arXiv.org zdeponowano zaakceptowany do publikacji w „Scientometrics” artykuł The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories. Jego autorzy, Enrique Orduna-Malea i Emilio Delgado López-Cózar, badali widoczność 137 repozytoriów indeksowanych przez Ranking Web of Repositories, obsługiwanych przez instytucje naukowe krajów Ameryki Łacińskiej. Współczynniki indeksacji (wyjaśnienie ich dokładnego znaczenia w dalszej części tekstu) dla Google określają jako „niskie”, zaś dla Google Scholar jako „właściwie nieistniejące” (virtually nonexistent). Jak przypominają, repozytoria (zwłaszcza instytucjonalne) mają być głównym narzędziem wdrażania otwartego dostępu do treści naukowych w modelu nazywanym powszechnie zieloną drogą. Tymczasem tak niska widoczność w obu wyszukiwarkach Google (ogólnej i przeznaczonej dla akademików) stanowi poważną przeszkodę dla właściwego rozpowszechniania zdeponowanych w repozytoriach prac. Daje to poważne podstawy do niepokoju o uzyskane wyniki (patrz tabela 1).

[Tabela 1]

Rezultaty te korespondują z wcześniejszymi o dwa lata badaniami Kenninga Arlitscha i Patricka S. O'Briena zaprezentowanymi w artykule Invisible institutional repositories: addressing the low indexing ratios of IRs in Google, w których z kolei widoczność przynajmniej niektórych repozytoriów instytucjonalnych na terenie USA zdiagnozowana została jako niska.

Autorzy The dark side... podkreślają jednak, że dla naukowców latynoamerykańskich zła widoczność repozytoriów jest znacznie poważniejszym problemem niż dla ich północnoamerykańskich kolegów. Zwłaszcza ta część ich dorobku, której nie napisali po angielsku, leży bowiem poza głównym nurtem komunikacji naukowej. Mogąc w mniejszym stopniu polegać na WoS czy Scopus, stają się bardziej uzależnieni od widoczności repozytoriów, w których deponują swe prace.

Trudno się oprzeć wrażeniu, że naukowcy w Polsce znajdują się pod tym względem w podobnej sytuacji, co naukowcy z Ameryki Łacińskiej. Z pewnością też widoczność repozytoriów w Polsce stanowi jeden z kluczowych parametrów pozwalających ocenić stan otwartej nauki w Polsce. Warto więc przyjrzeć się repozytoriom i bibliotekom cyfrowym w Polsce. Zrobimy to z użyciem tej samej metody, jaką wykorzystali Orduna-Malea i López-Cózar. Zanim to jednak nastąpi, postaramy się krytycznie spojrzeć na samą metodologię w nadziei lepszego zrozumienia, co tak naprawdę oznaczają uzyskane wyniki.

 

Metoda pod lupą

Metoda pomiaru zastosowana w części The dark side... , którą chcemy tu zrekonstruować, jest stosunkowo prosta: z pomocą komend „site” i „filetype” pytamy daną wyszukiwarkę o liczbę adresów URL (wszystkich lub tylko danego typu) widocznych w danej domenie. Stosunek tej liczby do liczby materiałów zdeponowanych w danym repozytorium stanowić będzie poszukiwany współczynnik indeksacji.

Autorzy zbadali w ten sposób wszystkie repozytoria z próby w dwóch przeglądarkach – Google i Google Scholar – i zdecydowali się na dwa współczynniki dla każdej z nich. Pierwszy mierzył liczbę wszystkich adresów URL indeksowanych przez daną przeglądarkę na domenie danego repozytorium (komenda „site:” z nazwą danej domeny). Drugi ograniczał wyniki do plików w formacie PDF. Intencją tego pomiaru było wybranie stron, co do których istniało jak najwyższe prawdopodobieństwo, że ich zawartością są artykuły naukowe, a nie coś innego.

Zaznaczyć przy tym trzeba, że Google Scholar z definicji indeksować ma wyłącznie strony o zawartości naukowej, lecz sposób, w jaki dokładnie działają algorytmy, za pomocą których odsiewane są treści naukowe od nienaukowych, jest tajemnicą handlową firmy Google. Dobór zapytania odsiewa też oczywiście wszystkie artykuły naukowe przechowywane w innych formatach – pamiętać jednak trzeba, że ogromna większość nie tylko artykułów naukowych w wersji cyfrowej, ale i wszystkich dokumentów w Internecie przechowywana jest w tym właśnie formacie.

Zastrzeżeniami ważniejszymi niż mniejsze lub większe zaniżenie współczynnika widoczności poprzez arbitralny wybór formatu PDF jako reprezentatywnego dla publikacji naukowych są zastrzeżenia dotyczące użycia Google i Google Scholar (zwłaszcza tego ostatniego) jako narzędzia agregującego. Pamiętać należy, że produkty Google zbudowane zostały jako narzędzia do jak najszybszego przeszukania wcześniej zgromadzonej bazy danych i przedstawienia, nadal w najkrótszym możliwym czasie, określonej liczby adresów URL dla danych słów kluczowych.

Twórcy tej wyszukiwarki są na tyle dumni z osiągniętej efektywności algorytmu (co zapewne dostrzegł niemal każdy użytkownik Google), że na górze strony wyników podają czas wykonania zapytania. Jak jednak zauważyło kilku ekscentryków, desperatów lub poszukiwaczy przygód, którzy kiedykolwiek weszli na drugą lub dalszą stronę wyszukiwań, czas ten jest obliczany dla każdej strony wyników oddzielnie, czyli – inaczej mówiąc – każda strona wyników to rezultat oddzielnej operacji.

Przyjrzyjmy się temu: Google oblicza nam w ułamku sekundy tylko określoną, niewielką część wyników (zresztą lojalnie ostrzega, że zwiększenie ustawienia liczby wyników na stronę może wydłużyć czas oczekiwania na odpowiedź). Jednocześnie jednak zawsze wyświetla liczbę wszystkich otrzymanych wyników. Nasuwa się wysoce prawdopodobny wniosek, że liczba wszystkich wyników jest jedynie szacowana. Wniosek ten dodatkowo uprawdopodobnia kilka faktów.

Jak zauważa Péter Jacsó w artykule Google Scholar Revisited, w niektórych przypadkach spójnik logiczny OR zmniejsza w Google Scholar liczbę otrzymanych wyników. Przyjrzyjmy się przykładowi, jaki daje: wyszukiwanie po słowie kluczowym „+the” zwróciło ok. 1 540 000 000 wyników, zaś wyszukiwanie „the OR a” – jedynie ok. 13 900 000 (artykuł jest z 2008 roku, 23 lipca 2014 te zapytania zwróciły odpowiednio 10 700 000 i 9 800 000 wyników, 10 000 000 i 8 950 000 bez uwzględnienia cytowań i patentów, co jest może mniej spektakularne, ale w zupełności wystarcza do stwierdzenia niestandardowego zachowania spójnika OR).

Oczywiście, żadna zaimplementowana alternatywa logiczna nie ma prawa zachowywać się w ten sposób – po prostu liczba wszystkich wyników jest oszacowywana z marginesem błędu, który dopuszcza taki rozstrzał. Zachęcamy Czytelnika do sprawdzenia własnoręcznie pozostałych ciekawostek: podawana liczba wszystkich wyników może się w Google Scholar zmieniać wraz ze zmianą strony wyszukiwania – czyli jest obliczana na nowo wraz z każdą iteracją wyszukiwania.

Niezależnie jednak od otrzymanej liczby wszystkich wyników Google Scholar i tak pozwala nam obejrzeć jedynie 1000 pierwszych adresów URL, co w interesujących nas przypadkach pozwala mu nie obliczać pozostałych 99 999 000 (a nawet jeszcze troszkę większej) – co z kolei pozostawia wyszukiwarce duży margines błędu, skoro i tak nikt nie będzie mógł sprawdzić jego rozmiarów.

Wszystkie opisane powyżej poszlaki pozwalają się domyślać, że Google Scholar, a prawdopodobnie również „zwykły ”Google, podają liczbę wszystkich otrzymanych wyników wyszukiwania jedynie w przybliżeniu, z nieznanym stopniem precyzji. Ten niuans, zupełnie marginalny w czasie codziennej eksploatacji wyszukiwarki, staje się nagle dla Orduna-Malei i López-Cózara (a za nimi również i dla nas) sprawą dość ważną. Narzędzie wykorzystywane do podawania liczby wszystkich zindeksowanych adresów URL na danej domenie (ew. wszystkich adresów określonego typu) może tę liczbę podawać niedokładnie. A właściwie na pewno tak właśnie robi – nasze domysły potwierdzają pracownicy Google:

"Pamiętaj, że licznik wyników w przypadku użycia operatora „site:” nie jest dobrym wskaźnikiem pokrycia Twojej strony w Google Scholar. Po pierwsze, ten operator aktualnie wyszukuje jedynie pierwotne wersje artykułów. Jeśli nie jesteś głównym/pierwotnym wydawcą [primary publisher], część artykułów zamieszczonych na Twej stronie może nie zostać wzięta pod uwagę. Po drugie, liczba wyników jest zazwyczaj oszacowana na podstawie przeszukania niewielkiej części indeksu (podawanie liczby wyników ma na celu pomoc użytkownikom w doborze zapytania, a nie sprawdzanie współczynników pokrycia). W rezultacie, szacunki te mogą nie być precyzyjne. Jeśli jesteś zaniepokojony tym, że licznik wyników dla Twojej strony jest niski, najlepiej potwierdzić problem z pomocą bardziej szczegółowego wyszukiwania. Zalecamy wyszukiwanie próby kilkudziesięciu artykułów z użyciem tytułów."

Mimo wszystko, z szeregu powodów zdecydowaliśmy się na wykorzystanie metody Orduna-Malei i López-Cózara. Po pierwsze, badanie wykonane tą metodą jest proste i relatywnie mało czasochłonne – warto je wykonać, nawet jeśli wyniki są nieco niedokładne (o ile oczywiście pamięta się o tej niedokładności). Po drugie, metoda polecana przez Google zamiast metody „site:” polega na wybraniu reprezentatywnej próby artykułów dostępnych na danej domenie i zbadaniu ich dostępności w Google Scholar. Jest to metoda obarczona własnym błędem pomiaru, poza tym Google nie dostarcza żadnej listy zmiennych, na podstawie których można by opracować próbę reprezentatywną. Po trzecie, jak to zaznaczymy za chwilę w części poświęconej omówieniu tabeli wyników, kontrolowaliśmy część wyników z pomocą Ranking Web of Repositories. Po czwarte, jeśli pomiar wykonany naszą metodą wykaże bardzo mało indeksowanych stron (lub w ogóle żadnej), a zdarzało się to dość często zarówno w przypadku polskich, jak i latynoamerykańskich repozytoriów, to jakiekolwiek zastrzeżenia o niedokładności metody usuwają się na dalszy plan – wynik taki jednoznacznie wskazuje na poważne trudności danego repozytorium w aspekcie indeksowalności w Google i Google Scholar.

Na marginesie warto zauważyć, jak daleką drogę przebył Google Scholar w ciągu 10 lat od premiery pod względem zaufania, jakim darzy się ten produkt. Z przedmiotu badań (niekiedy niezbyt przychylnych) stał się narzędziem badań. Dziś przywykliśmy już do pochwał pod adresem Google Scholar, traktujemy go jak normę, do której trzeba się przystosować, widzimy też, jak wielu naukowców korzysta z niego na co dzień. Być może tym bardziej należy przypominać, że typowa reakcja bibliotekarzy na Google Scholar wyglądała niegdyś inaczej (porównaj także ten przykład).

Krytyczne głosy pod adresem innych niż omówione tutaj aspektów działania Google Scholar zbiera np. M. Schultz w artykule Comparing test searches in PubMed and Google Scholar. Dociekliwi czytelnicy znajdą tam dalszą bibliografię dotyczącą tego tematu.

Ostatnią rzeczą, jaką warto wziąć pod uwagę przy interpretacji wyników prezentowanych w tym tekście, jest opóźnienie, z jakim Google i Google Scholar indeksują nowo zdeponowane zasoby. Z tego powodu przy obranej przez Orduna-Maleę i López-Cózara (oraz przez nas) metodzie pomiaru dyskryminowane są repozytoria szybko rosnące. Zasoby już widoczne w wewnętrznych statystykach, a jeszcze niewidoczne w Google będą stanowiły większą część zawartości niż w przypadku repozytoriów rosnących stosunkowo wolniej.


 

A to Polska właśnie

W tym miejscu warto odnotować, jak w naszych badaniach staraliśmy się uwzględnić „polską specyfikę”.

A. Chociaż specyfika i przeznaczenie bibliotek cyfrowych i repozytoriów, przynajmniej w teorii, zasadniczo się od siebie różnią, to jednak w praktyce zarówno wykorzystanie tych dwóch rodzajów narzędzi, jak i ich nazewnictwo jest w Polsce wyraźnie przemieszane. Jak zauważają autorzy raportu Otwarta nauka w Polsce 2014. Diagnoza, „[o]dbiorcy dyskursu dotyczącego otwartych zasobów naukowych w Polsce mogą doświadczyć konfuzji, próbując rozgraniczyć repozytoria naukowe od bibliotek cyfrowych”. W takiej sytuacji istnieje duża pokusa, by w celu uniknięcia konfuzji nie rozgraniczać obu narzędzi – nie bylibyśmy pierwsi.

Niestety, w interesującym nas tutaj kontekście widoczności w Google Scholar różnice między bibliotekami cyfrowymi a repozytoriami stają się szczególnie wyraźne. Choć Google nigdzie nie pisze, jak to dokładnie robi, to jednak wiadomo powszechnie, że Google Scholar indeksuje jedynie zasoby naukowe. Tymczasem zasoby takie mogą być jedynie ułamkiem, niekiedy bardzo nikłym, zasobów biblioteki cyfrowej. Istnieje duże prawdopodobieństwo przypadków, w których zasoby skądinąd naukowe mogłyby nie zostać zindeksowane, ponieważ robot Google nie znalazł ich wśród przeważającej części zasobów z zakresu kultury i dziedzictwa. W każdym przypadku zaniżenie współczynnika indeksowalności w Google Scholar jest niemal pewne. Ponadto, ze względu na różnorodny charakter multimediów przechowywanych w przynajmniej niektórych bibliotekach cyfrowych, mierzenie dostępności wyłącznie plików PDF mogłoby się okazać niewystarczające nawet w „zwykłym” Google.

Z drugiej strony, wśród w sumie 25 domen uwzględnionych w obu edycjach Ranking Web of Repositories, którym się przyglądaliśmy, aż 14 mieściło biblioteki cyfrowe, a nie repozytoria. Oznacza to, że przynajmniej 14 spośród polskich bibliotek cyfrowych chce być porównywanych z repozytoriami. Nie widzimy powodu, dla którego mielibyśmy im tego odmówić, skoro nie odmówiło im tego Webometrics. Zresztą biblioteki te spełniają przecież po części funkcje repozytoriów.

Ostatecznie, zdecydowaliśmy się uwzględnić w badaniach tylko te biblioteki cyfrowe, które zgłosiły się do Ranking Web of Repositories (zaznaczając jednocześnie, jeśli zakwalifikowaliśmy jakieś narzędzie jako bibliotekę cyfrową). Dlatego w wynikach znajdzie Czytelnik tak niewielkie obiekty, jak Biblioteka Cyfrowa Ośrodka Rozwoju Edukacji (lub repozytorium eRIKA), nie znajdzie natomiast Wielkopolskiej Biblioteki Cyfrowej czy Polony.

B. Było naszą najlepsza intencją, by w obliczaniu współczynników indeksowalności uwzględnić format plików DjVu, o którym wiadomo, że jest stosunkowo szeroko rozpowszechniony w polskich repozytoriach i bibliotekach cyfrowych. W tym celu w tabeli wyników znajdowały się początkowo kolumny wskazujące ilość indeksowanych plików DjVu, zaś do obliczania współczynnika miała być brana pod uwagę suma plików PDF i DjVu. Niestety, okazało się, że Google Scholar w ogóle nie indeksuje plików w tym formacie. Co więcej, dodanie statystki DjVu dla Google okazałoby się mnożeniem kolumn bez znaczącego wzbogacenia treści: wynik różny od zera uzyskaliśmy tylko w 6 przypadkach i tylko w jednym z nich rezultat zbliżył się do bariery 100.

Już sam ten rezultat może zaniepokoić: jeden z najpowszechniej wykorzystywanych przez polskie biblioteki cyfrowe formatów nie ma praktycznie żadnej reprezentacji ani w Google, ani w Google Scholar. Rezultaty naszych badań prezentujemy w tabeli 2. Oto omówienie znaczenia poszczególnych kolumn i konwencji, jakie stosowaliśmy:

  • Nazwa: Pola tej kolumny zawierają nazwę opisywanego w danym wierszu repozytorium. Jeśli w użyciu jest skrót zastępujący pełną nazwę, używaliśmy tego skrótu. W pozostałych przypadkach skracaliśmy nazwy uczelni oraz często powtarzające sie elementy: "Repozytorium" do "Rep.", "Biblioteka Cyfrowa" do "BC".
  • Domain: Pola tej kolumny zawierają adres domeny opisywanego w danym wierszu repozytorium. To ta nazwa używana była jako podstawa zapytań wykonywanych w wyszukiwarkach.
  • Items: Pole tej kolumny zawierają liczbę rekordów zdeponowanych w opisywanym w danym wierszu repozytorium, będącą podstawą wyliczania wszystkich współczynników widoczności. Wartość każdego pola w tej kolumnie została uzyskana na podstawie informacji dostępnych na stronie danego repozytorium lub biblioteki cyfrowej.
  • Scholar / Pages: Szacowana liczba wyników, jakie zwraca Google Scholar dla zapytania "site:nazwa.domeny".
  • Scholar / Pages %: Wartość pola "Scholar Pages" podzielona przez 0.01 * wartość pola
  • "Items" Scholar / PDF: Szacowana liczb wyników, jakie zwraca Google Scholar dla zapytania "site:nazwa.domeny filetype:pdf".
  • Scholar / PDF %: Wartość pola "Scholar PDF" podzielona przez 0.01 * wartość pola "Items".
  • Google / Pages: Szacowana liczba wyników, jakie zwraca Google dla zapytania "site:nazwa.domeny"[16].
  • Google / PDF: Szacowana liczba wyników, jakie zwraca Google dla zapytania "site:nazwa.domeny filetype:pdf".
  • Google / PDF %: Wartość pola "Google PDF" podzielona przez 0.01 * wartość pola "Items".
  • System: Nazwa oprogramowania, w jakim napisane zostało dane repozytorium.
  • RWoR: Pozycja w Ranking Web of Repositories, jakie zajmowało dane repozytorium pod względem widoczności w Google Scholar w – odpowiednio do grupy – 14. lub 15. edycji. Wartość tę należy traktować jako sposób weryfikacji metody tu stosowanej, gdyż Ranking Web of Repositories stara się zmierzyć to samo, co my i autorzy The dark side... .
  • Group: Pomiary dla repozytoriów i bibliotek cyfrowych z grupy A zostały przeprowadzone 8 lipca 2014 roku. Pozycja w Ranking Web of Repositories podana dla tych repozytoriów dotyczy jego 14. edycji. Pomiary dla repozytoriów z grupy B zostały przeprowadzone 21 i 22 lipca 2014 roku. Pozycja w Ranking Web of Repositories podana dla tych repozytoriów dotyczy jego 15. edycji. Pomiary dla repozytoriów z grupy C zostały przeprowadzone 25 lipca 2014 roku, a z grupy D – 20 sierpnia 2014 roku. Repozytoria z tych dwóch grup nie występują w Ranking Web of Repositories - informacje o nich zostały z raportu Centrum Otwartej Nauki „Otwarta Nauka w Polsce 2014. Diagnoza”.
  • BC: Jeśli wymienione w danym wierszu narzędzie zostało zakwalifikowane jako biblioteka cyfrowa (w odróżnieniu od repozytorium), zaznaczyliśmy to w polu tej kolumny.

[Tabela 2]


 

Rezultaty

Na początek warto zauważyć, że kontrola przeprowadzona przez porównanie w kolumnie System wyników pomiaru metodą zaczerpniętą z The dark side... oraz wyników uzyskanych przez Ranking Web of Repositories (Webometrics) wskazuje na korelację pomiędzy wysokim współczynnikiem indeksacji a wysoką pozycją w rankingu repozytoriów (tabela 3). Korelacja ta uwidacznia się jeszcze bardziej, gdy uwzględni się pięć par wyników 0% Scholar Pages – 1812. (ostatnie) miejsce w RWoR.

Wynik 105% jest oczywistym artefaktem, zaś bardzo wysokie wyniki indeksacji (powyżej 50%) zdarzały się jedynie w przypadku bardzo małych repozytoriów (317, 159 i 327 rekordów, a także jeden wynik 45% dla 1048 rekordów). Wyniki dla niemal wszystkich repozytoriów korzystających z oprogramowania DSpace miały pewną charakterystyczną cechę, którą omówimy za chwilę, a która mogła wpłynąć na zaburzenie porównania wyników.

Jeśli weźmie się pod uwagę wszystkie te czynniki, metoda Orduna-Maleę i López-Cózara okazuje się nadspodziewanie skuteczna, zwłaszcza ze względu na jej prostotę.

[Tabela 3]

  1. Rzuca się w oczy, że Repozytorium Politechniki Krakowskiej – jedyne repozytorium, które posiada solidny współczynnik indeksacji zarówno dla wszystkich adresów (46%), jak i dla plików formatu pdf (36%), jednocześnie posiadające stosunkowo wiele zasobów (6145) – również bardzo pozytywnie wyróżnia się w rankingu Webometrics. 82. pozycja jest godna pozazdroszczenia – następne pod tym względem AMUR plasuje się na 234. miejscu. Repozytorium to skonstruowane zostało w oparciu o autorskie oprogramowanie – SUW (Zintegrowany System Wymiany Wiedzy i Udostępniania Akademickich Publikacji z Zakresu Nauk Technicznych).
  2. Repozytoria korzystające z oprogramowania DSpace miały przeważnie wysoki wskaźnik Scholar Pages (na 11 wyników tylko 4 poniżej 15%, w tym jedyny wynik 0% wynikał z intencjonalnego zamknięcia zasobów dla robotów Google, zaś 6 wyników wypadło powyżej 40%, w tym 2 powyżej 70%). Mimo to plasowały się dość nisko w rankingu RWoR. Przyczyną tego mogły być zadziwiająco niskie współczynniki Scholar PDF: w 4 przypadkach 0%, w dalszych 2 – poniżej 15 rekordów, zaś we wszystkich – poniżej 10%, z dwoma wyjątkami: RUM@K-a i eRIK-i. RUM@K miał przy tym dość niski (12%) wskaźnik ogólnej indeksacji, prawdziwie więc chlubnym wyjątkiem była eRIKA, choć samo repozytorium jest stosunkowo niewielkie (327 rekordów), zaś różnica między Scholar Pages a Scholar PDF wyniosła w tym przypadku niemal dokładnie 40%.
  3. Oprogramowanie dLibra okazało się największym rozczarowaniem. Na 19 zbadanych repozytoriów i bibliotek cyfrowych aż 3 nie były w ogóle widoczne w Google Scholar, a 9 pokazywało jedynie do 101 rekordów. Jeśli nie liczyć jednego wyniku 105% i jednego wyniku 38% przy zaledwie 26 rekordach, jedynie Biblioteka Cyfrowa Uniwersytetu Warmińsko-Mazurskiego posiada wynik powyżej 20%. Współczynniki indeksacji pozostałych nie sięgają 10%. Za to dla kontrastu z DSpace, współczynniki Scholar PDF są równe lub niemal równe współczynnikom Scholar Pages. DLibra jest oprogramowaniem zaprojektowanym na potrzeby bibliotek cyfrowych. 12 na 14 bibliotek cyfrowych uwzględnionych w Ranking Web of Repositories korzysta z tego oprogramowania (w dwóch pozostałych przypadkach oprogramowania nie dało się określić). Przypadki zerowej widoczności w Google Scholar zdarzają się jedynie w tej grupie, z drugiej strony – dwa z trzech największych wyników również przypadło w udziale bibliotekom cyfrowym.                                                   Dalsze siedem instytucji korzystających z oprogramowania dLibra to jednak – co należy szczególnie podkreślić – typowe repozytoria, zarówno ze względu na rodzaj przechowywanych zasobów, jak i pełnione funkcje, a nawet nazewnictwo. Jeszcze bardziej trzeba podkreślić fakt, że przeciętny współczynnik indeksowalności wśród tej grupy nie różnił się znacząco od przeciętnego współczynnika indeksowalności wśród bibliotek cyfrowych. Pozwala to oddalić wątpliwość, jakoby niski współczynnik indeksacji wynikał wyłącznie z faktu, iż duża część zasobów biblioteki cyfrowej z definicji nie jest indeksowana przez Google Scholar. Jak widać, ta składowa miała o wiele mniejszy wpływ na ostateczny wynik niż oprogramowanie, na jakim oparte jest dane repozytorium (lub biblioteka cyfrowa).
  4. Inny popularne na świecie oprogramowanie, EPrints, posiada w naszym rankingu tylko dwóch reprezentantów. Oba repozytoria są jeszcze bardzo niewielkie (poniżej 400 rekordów). Współczynniki indeksacji jednego z nich są obiecujące, za wcześnie jeszcze jednak, by wyciągać wnioski.
  5. Pozostałe cztery mało popularne oprogramowania repozytoryjne reprezentowane w naszym rankingu – Invenio, refBase, Open Repository i Omega PSIR – nie są w Google Scholar indeksowane w ogóle lub prawie w ogóle. Domyślać się można, że wina nie leży tutaj po stronie obsługi repozytoriów. Google – gigant, który może sobie pozwolić, by od 2008 roku nie obsługiwać protokołu OAI-PMH z uwagi na deklarowaną nieopłacalność przedsięwzięcia – przypuszczalnie może sobie również pozwolić na nieindeksowanie lub słabe indeksowanie każdego systemu repozytoryjnego poza tymi największymi (na przywoływanej już stronie Google Scholar podane są trzy: Digital Commons, Eprints i DSpace). Możliwe więc, że ten czynnik jest w dużej mierze odpowiedzialny za słabe wyniki oprogramowania dLibra.
  6. Spośród badanych repozytoriów jedno (Czytelnia Wirtualna Biblioteki Uniwersyteckiej KUL) było w czasie przeprowadzania pomiaru nieczynne w związku z pracami technicznymi. Jedno też nie było indeksowane (a dokładniej, indeksowana była jedynie strona domowa całego serwisu) ze względu na robots.txt. Trudno stwierdzić, czy był to zabieg celowy ze strony webmasterów Wirtualnego Archiwum Polskich Ormian. Zabiegiem z pewnością celowym, bo podyktowanym kwestiami związanymi z prawem autorskim było natomiast zamknięcie Repozytorium Biblioteki Narodowej dla wszystkich komputerów poza terminalami bibliotecznymi. Skutkiem ubocznym było zamknięcie Repozytorium Biblioteki Narodowej również dla robotów Google, przez co repozytorium to nie jest indeksowane w Google ani w Google Scholar.
  7. Repozytorium Centrum Otwartej Nauki jeszcze nie jest uwzględnione w rankingu Webometrics (ma się tam pojawić w styczniu 2015). Wysoki współczynnik indeksacji ogólnej i niski współczynnik indeksacji PDF jest reprezentatywny dla repozytoriów w systemie DSpace. Jeśli ten ostatni problem zostanie do 2015 roku rozwiązany, repozytorium ze stajni ICM może śmiało wypatrywać dnia premiery w rankingu.

Wysoki średni poziom współczynnika Scholar Pages dla repozytoriów korzystających z oprogramowiania DSpace przy bardzo niskim średnim poziomie współczynnika Scholar PDF z pewnością dziwi. Co prawda przywoływana już strona Google Scholar naprowadza nas na jedno z możliwych wytłumaczeń takiego stanu rzeczy: jeśli plik PDF obecny na stronie nie jest wersją pierwotną artykułu, to nie pojawi się jako rezultat w ramach wyszukiwania z użyciem operatora „site:”. Wytłumaczenie to nie jest jednak wystarczające z kilku powodów.

Po pierwsze, wydaje się, że sam operator „site:” zwraca więcej plików PDF niż „site: filetype:pdf”. Po drugie, duża część plików PDF deponowanych w Repozytorium CeON jest wersją pierwotną, przynajmniej w tym znaczeniu, że stanowi wersję najwcześniejszą (lub jedyną), jaka pojawiła się w internecie. Można domyślać się, że jest to prawdą, jeśli chodzi o większości repozytoriów, podczas gdy w wypadku bibliotek cyfrowych – co do zasady nie. Tymczasem nie widać pod tym względem większej różnicy między repozytoriami a bibliotekami cyfrowymi. Po trzecie, nie wyjaśnia to niemal zupełnego braku różnicy między współczynnikami Scholar Pages a Scholar PDF w przypadku np. repozytoriów i bibliotek cyfrowych korzystających z oprogramowania dLibra. Po czwarte, przykład repozytorium eRIKA wskazuje, że problem ten nie jest nie do przezwyciężenia.

 

Na Zachodzie bez zmian?

Wypada w tym miejscu porównać zarówno Polskę, jak i Amerykę Łacińską z resztą akademickiego świata – zwłaszcza, że Invisible institutional repositories… pozwala się domyślać, że „nawet” USA nie są wolne od problemów z Google Scholar. W tym celu badanie powtórzyliśmy dla kilku repozytoriów na całym świecie. Oprócz największych i najbardziej uznanych staraliśmy się też wziąć pod uwagę kilka średnich i najmniejszych (kierowaliśmy się przy tym wskazaniami rankingu Webometrics tam, gdzie – jak w przypadku ArXiv czy DASH – marka nie mówiła sama za siebie). Rezultaty przywołuje tabela 4.

[Tabela 4]

Od razu widać, że ani arXiv, ani PubMed Central, ani nawet Harvard nie muszą się kłopotać Google Scholar – są na to zbyt duzi i zbyt znani. Pozostałe wyniki są bardzo zróżnicowane – choćby repozytorium Uniwersytetu w Porto jest bardzo słabo widoczne. Istnieją jednak także przykłady, że nawet mimo nieustających problemów stwarzanych przez samą przeglądarkę, współczynnik indeksowalności można utrzymać na poziomie znacznie wyższym niż robią to repozytoria w Polsce.

Przy okazji potwierdzają się niektóre trendy widoczne przy badaniu krajowych repozytoriów. Bardzo słabo indeksowane są pliki PDF dla repozytoriów opartych w oprogramowanie DSpace. Bardziej egzotyczne systemy w ogóle są pomijane. Wydaje się, że Digital Commons bardzo dobrze współpracuje z Google Scholar – sprawa wymaga bliższego zbadania.

 

Podsumowanie badania

Razem wzięte, wyniki naszego badania można uznać za niezadowalające jeśli chodzi o funkcjonowanie repozytoriów w Polsce, zwłaszcza gdy weźmie się pod uwagę, za jak alarmujące zostały uznane niewiele lepsze wyniki w przypadku Ameryki Łacińskiej. Szczególnie palącym problemem staje się to w kontekście otwartego dostępu.

Repozytoria i biblioteki cyfrowe mają w zamyśle zwiększać widoczność swoich zasobów. Mimo to treści naukowe zdeponowane w wielu z nich nie są w narzędziach Google właściwie widoczne. Przypadki wypełniania tego zadania na znośnym poziomie są w Polsce pojedyncze, przeważnie wtedy, gdy repozytorium korzysta z oprogramowania DSpace. Jednak nawet tutaj pozostaje wiele do naprawy: istnieje możliwość, że same treści, które obudowuje się metadanymi – przede wszystkim pliki PDF – są widoczne słabiej, niż to obiecują możliwości Google Scholar.

Warto odnotować, że jedyne polskie repozytorium, które mogło pochwalić się dużą widocznością zarówno metadanych, jak i samych plików, działa w oparciu o autorskie oprogramowanie (Repozytorium Politechniki Krakowskiej). Z drugiej strony, było to jedyne repozytorium nie oparte o DSpace, dLibrę ani o EPrints, które w Google nie miało widoczności równej praktycznie zeru.

 

Co mogą zrobić repozytoria?

Możliwości naprawy istniejącego stanu rzeczy jest wiele. Sam artykuł Invisible institutional repositories... wskazuje kilka z nich i odsyła do bibliografii tematu. Czytelnikom bliżej zainteresowanym problematyką z pewnością możemy polecić tę pozycję.

Zwiększenie wrażliwości na problematykę SEO wśród obsługi repozytoriów też zapewne pomoże rozwiązać wiele z zaistniałych problemów. Jak podaje raport Otwarta Nauka w Polsce 2014. Diagnoza, repozytoria w Polsce są w znacznej większości prowadzone przez bibliotekarzy, wśród których znajomość problematyki pozycjonowania stron w Google i widoczności w sieci WWW, choć zapewne stosunkowo rozpowszechniona, nie jest oczywista sama przez się.

Dostosowaniu repozytoriów do współpracy z Google Scholar jest kolejnym polem, na którym można wiele zrobić. Nawet oprogramowania inne niż „wielka trójka” DSpace, Digital Commons, EPrints mogą znacząco podnieść współczynniki indeksowalności w Google Scholar.

 

Co mogą zrobić autorzy?

Według niezbyt wyczerpujących wytycznych Google Scholar sam wygląd tekstu zawartego w pliku w PDF również może mieć znaczenie przy indeksowaniu go przez roboty Google. Trzy wytyczne wymienione są explicite: pierwsza strona pliku PDF powinna zawierać nazwiska autorów oraz (wyróżniony wielkością czcionki) tytuł publikacji, zaś na jej końcu powinna znajdować się wyraźnie wydzielona bibliografia. Z pewnością też plik musi zawierać warstwę tekstową – tj. tekst w pliku PDF musi być „zaznaczalny” (inaczej jest zwykłym obrazem, niemożliwym do odczytania przez roboty Google).

Co do innych branych pod uwagę właściwości możemy już tylko spekulować; całkiem możliwe, że sam rozmiar tekstu może mieć tutaj znaczenie. Google nie po raz pierwszy stara się „wychować” użytkowników Internetu do stosowania pewnych (przeważnie dość zdroworozsądkowych) standardów publikowanej treści. Użytkownicy, jak zwykle, nie muszą się do nich stosować; jedyne co ryzykują, to bycie pominiętym przez roboty Google. Wobec autorów, którym zależy na tym, by ich publikacje były widoczne, możemy pokusić się o jedną radę ogólną: im staranniej i „ładniej” (dla oka czytelnika) opracowana publikacja, tym wyższe szanse na jej zindeksowanie. O ile oczywiście repozytorium ze swej strony zachowa odpowiednie standardy.

 

Co jeszcze można zrobić?

Problem widoczności repozytoriów w najbardziej rozpowszechnionych wyszukiwarkach jest bardzo ważny dla ogólnej kondycji otwartego dostępu do polskich publikacji naukowych. Z pewnością należy go zbadać z pomocą bardziej wyrafinowanych narzędzi. Bez wątpienia można rozszerzyć zakres badań na pozostałe wyszukiwarki, np. Microsoft Academic Search. Jednocześnie należy sukcesywnie monitorować zmieniający się stan rzeczy. Metoda zaproponowana w The dark side... jest na tyle prosta i nieczasochłonna, że wielu spośród Czytelników może z łatwością stosować ją na własny użytek.

 

Tomasz Lewandowski jest pracownikiem Centrum Otwartej Nauki. Specjalizuje się w logice formalnej, posiada doświadczenie programistyczne.

 

Bibliografia:

Arlitsch K., O’Brien P.S., (2012) Invisible institutional repositories: addressing the low indexing ratios of IRs in Google, " Library Hi Tech" 30(1), 60-81, preprint dostępny pod adresem: http://scholarworks.montana.edu/xmlui/bitstream/handle/1/3193/Arlitsch-Obrien-LHT-GS-final-revised_2012-02-18.pdf.

Björk B.C., Laakso M., Welling P., Paetau P., (2014) Anatomy of green open access, "Journal of the American Society for Information Science and Technology". In Press. DOI: 10.1002/asi.22963.

Burright M., Google Scholar - Science & Technology, "Issues in Science and Technology Librarianship", DOI:10.5062/F45H7D7K, dostępny na: http://www.istl.org/06-winter/databases2.html.

Cothran T., (2011) Google Scholar acceptance and use among graduate students: A quantitative study, "Library and Information Science Research", Vol. 33 issue 4, ss. 293-301, dostępny pod adresem: http://www.sciencedirect.com/science/article/pii/S0740818811000594.

Jacso P., (2008) Google Scholar Revisited, "Online Information Review", Vol. 32, No. 1, ss. 102-114, preprint dostępny pod adresem: http://cs.unibo.it/~cianca/wwwpages/dd/08Jacso.pdf.

Kemann M., Kleppe M., Scagliola S., Just Google It – Digital Research Practices of Humanities Scholars, w: Mills C., Pidd M., Ward E., Proceedings of the Digital Humanities Congress 2012. Studies in the Digital Humanities, Sheffield: HRI Online Publications, 2014, preprint dostępny pod adresem: http://arxiv.org/abs/1309.2434v3.

Orduna-Malea E., López-Cózar E.D., The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories. Preprint http://arxiv.org/abs/1406.4331.

S., Salter J., Bath P., Hubbard B., Millington P., Anders J.H.S., Hussain A., (2014) Open-access repositories wordlwide, 2005-2012: Past growth, current characteristics and future possibilities, "Journal of American Society for Information Science and Technology". Preprint dostępny pod adresem: http://eprints.whiterose.ac.uk/76839/15/wrro_76839.pdf.

Shultz M., (2007) "Comparing test searches in PubMed and Google Scholar", Journal of the Medical Library Association, Vol. 95 No. 4, ss. 442-445, dostępny pod adresem: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2000776/.

Szprot J. (red.), Otwarta nauka w Polsce 2014. Diagnoza, Wydawnictwa ICM, Warszawa 2014, dostępny pod adresem: http://pon.edu.pl/index.php/nasze-publikacje?pubid=13.

Additional information