Google Scholar a repozytoria i biblioteki cyfrowe w Polsce

Tomasz Lewandowski

Repozytoria i biblioteki cyfrowe mają w zamyśle zwiększać widoczność swoich zasobów. Mimo to treści naukowe zdeponowane w wielu z nich nie są w narzędziach Google właściwie widoczne. Przypadki wypełniania tego zadania na znośnym poziomie są w Polsce pojedyncze, przeważnie wtedy, gdy repozytorium korzysta z oprogramowania DSpace. Jednak nawet tutaj pozostaje wiele do naprawy.

The Dark Side

W czerwcu bieżącego roku w arXiv.org zdeponowano zaakceptowany do publikacji w „Scientometrics” artykuł The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories. Jego autorzy, Enrique Orduna-Malea i Emilio Delgado López-Cózar, badali widoczność 137 repozytoriów indeksowanych przez Ranking Web of Repositories, obsługiwanych przez instytucje naukowe krajów Ameryki Łacińskiej. Współczynniki indeksacji (wyjaśnienie ich dokładnego znaczenia w dalszej części tekstu) dla Google określają jako „niskie”, zaś dla Google Scholar jako „właściwie nieistniejące” (virtually nonexistent). Jak przypominają, repozytoria (zwłaszcza instytucjonalne) mają być głównym narzędziem wdrażania otwartego dostępu do treści naukowych w modelu nazywanym powszechnie zieloną drogą. Tymczasem tak niska widoczność w obu wyszukiwarkach Google (ogólnej i przeznaczonej dla akademików) stanowi poważną przeszkodę dla właściwego rozpowszechniania zdeponowanych w repozytoriach prac. Daje to poważne podstawy do niepokoju o uzyskane wyniki (patrz tabela 1).

[Tabela 1]

Rezultaty te korespondują z wcześniejszymi o dwa lata badaniami Kenninga Arlitscha i Patricka S. O'Briena zaprezentowanymi w artykule Invisible institutional repositories: addressing the low indexing ratios of IRs in Google, w których z kolei widoczność przynajmniej niektórych repozytoriów instytucjonalnych na terenie USA zdiagnozowana została jako niska.

Autorzy The dark side... podkreślają jednak, że dla naukowców latynoamerykańskich zła widoczność repozytoriów jest znacznie poważniejszym problemem niż dla ich północnoamerykańskich kolegów. Zwłaszcza ta część ich dorobku, której nie napisali po angielsku, leży bowiem poza głównym nurtem komunikacji naukowej. Mogąc w mniejszym stopniu polegać na WoS czy Scopus, stają się bardziej uzależnieni od widoczności repozytoriów, w których deponują swe prace.

Trudno się oprzeć wrażeniu, że naukowcy w Polsce znajdują się pod tym względem w podobnej sytuacji, co naukowcy z Ameryki Łacińskiej. Z pewnością też widoczność repozytoriów w Polsce stanowi jeden z kluczowych parametrów pozwalających ocenić stan otwartej nauki w Polsce. Warto więc przyjrzeć się repozytoriom i bibliotekom cyfrowym w Polsce. Zrobimy to z użyciem tej samej metody, jaką wykorzystali Orduna-Malea i López-Cózar. Zanim to jednak nastąpi, postaramy się krytycznie spojrzeć na samą metodologię w nadziei lepszego zrozumienia, co tak naprawdę oznaczają uzyskane wyniki.

Metoda pod lupą

Metoda pomiaru zastosowana w części The dark side... , którą chcemy tu zrekonstruować, jest stosunkowo prosta: z pomocą komend „site” i „filetype” pytamy daną wyszukiwarkę o liczbę adresów URL (wszystkich lub tylko danego typu) widocznych w danej domenie. Stosunek tej liczby do liczby materiałów zdeponowanych w danym repozytorium stanowić będzie poszukiwany współczynnik indeksacji.

Autorzy zbadali w ten sposób wszystkie repozytoria z próby w dwóch przeglądarkach – Google i Google Scholar – i zdecydowali się na dwa współczynniki dla każdej z nich. Pierwszy mierzył liczbę wszystkich adresów URL indeksowanych przez daną przeglądarkę na domenie danego repozytorium (komenda „site:” z nazwą danej domeny). Drugi ograniczał wyniki do plików w formacie PDF. Intencją tego pomiaru było wybranie stron, co do których istniało jak najwyższe prawdopodobieństwo, że ich zawartością są artykuły naukowe, a nie coś innego.

Zaznaczyć przy tym trzeba, że Google Scholar z definicji indeksować ma wyłącznie strony o zawartości naukowej, lecz sposób, w jaki dokładnie działają algorytmy, za pomocą których odsiewane są treści naukowe od nienaukowych, jest tajemnicą handlową firmy Google. Dobór zapytania odsiewa też oczywiście wszystkie artykuły naukowe przechowywane w innych formatach – pamiętać jednak trzeba, że ogromna większość nie tylko artykułów naukowych w wersji cyfrowej, ale i wszystkich dokumentów w Internecie przechowywana jest w tym właśnie formacie.

Zastrzeżeniami ważniejszymi niż mniejsze lub większe zaniżenie współczynnika widoczności poprzez arbitralny wybór formatu PDF jako reprezentatywnego dla publikacji naukowych są zastrzeżenia dotyczące użycia Google i Google Scholar (zwłaszcza tego ostatniego) jako narzędzia agregującego. Pamiętać należy, że produkty Google zbudowane zostały jako narzędzia do jak najszybszego przeszukania wcześniej zgromadzonej bazy danych i przedstawienia, nadal w najkrótszym możliwym czasie, określonej liczby adresów URL dla danych słów kluczowych.

Twórcy tej wyszukiwarki są na tyle dumni z osiągniętej efektywności algorytmu (co zapewne dostrzegł niemal każdy użytkownik Google), że na górze strony wyników podają czas wykonania zapytania. Jak jednak zauważyło kilku ekscentryków, desperatów lub poszukiwaczy przygód, którzy kiedykolwiek weszli na drugą lub dalszą stronę wyszukiwań, czas ten jest obliczany dla każdej strony wyników oddzielnie, czyli – inaczej mówiąc – każda strona wyników to rezultat oddzielnej operacji.

Przyjrzyjmy się temu: Google oblicza nam w ułamku sekundy tylko określoną, niewielką część wyników (zresztą lojalnie ostrzega, że zwiększenie ustawienia liczby wyników na stronę może wydłużyć czas oczekiwania na odpowiedź). Jednocześnie jednak zawsze wyświetla liczbę wszystkich otrzymanych wyników. Nasuwa się wysoce prawdopodobny wniosek, że liczba wszystkich wyników jest jedynie szacowana. Wniosek ten dodatkowo uprawdopodobnia kilka faktów.

Jak zauważa Péter Jacsó w artykule Google Scholar Revisited, w niektórych przypadkach spójnik logiczny OR zmniejsza w Google Scholar liczbę otrzymanych wyników. Przyjrzyjmy się przykładowi, jaki daje: wyszukiwanie po słowie kluczowym „+the” zwróciło ok. 1 540 000 000 wyników, zaś wyszukiwanie „the OR a” – jedynie ok. 13 900 000 (artykuł jest z 2008 roku, 23 lipca 2014 te zapytania zwróciły odpowiednio 10 700 000 i 9 800 000 wyników, 10 000 000 i 8 950 000 bez uwzględnienia cytowań i patentów, co jest może mniej spektakularne, ale w zupełności wystarcza do stwierdzenia niestandardowego zachowania spójnika OR).

Oczywiście, żadna zaimplementowana alternatywa logiczna nie ma prawa zachowywać się w ten sposób – po prostu liczba wszystkich wyników jest oszacowywana z marginesem błędu, który dopuszcza taki rozstrzał. Zachęcamy Czytelnika do sprawdzenia własnoręcznie pozostałych ciekawostek: podawana liczba wszystkich wyników może się w Google Scholar zmieniać wraz ze zmianą strony wyszukiwania – czyli jest obliczana na nowo wraz z każdą iteracją wyszukiwania.

Niezależnie jednak od otrzymanej liczby wszystkich wyników Google Scholar i tak pozwala nam obejrzeć jedynie 1000 pierwszych adresów URL, co w interesujących nas przypadkach pozwala mu nie obliczać pozostałych 99 999 000 (a nawet jeszcze troszkę większej) – co z kolei pozostawia wyszukiwarce duży margines błędu, skoro i tak nikt nie będzie mógł sprawdzić jego rozmiarów.

Wszystkie opisane powyżej poszlaki pozwalają się domyślać, że Google Scholar, a prawdopodobnie również „zwykły ”Google, podają liczbę wszystkich otrzymanych wyników wyszukiwania jedynie w przybliżeniu, z nieznanym stopniem precyzji. Ten niuans, zupełnie marginalny w czasie codziennej eksploatacji wyszukiwarki, staje się nagle dla Orduna-Malei i López-Cózara (a za nimi również i dla nas) sprawą dość ważną. Narzędzie wykorzystywane do podawania liczby wszystkich zindeksowanych adresów URL na danej domenie (ew. wszystkich adresów określonego typu) może tę liczbę podawać niedokładnie. A właściwie na pewno tak właśnie robi – nasze domysły potwierdzają pracownicy Google:

"Pamiętaj, że licznik wyników w przypadku użycia operatora „site:” nie jest dobrym wskaźnikiem pokrycia Twojej strony w Google Scholar. Po pierwsze, ten operator aktualnie wyszukuje jedynie pierwotne wersje artykułów. Jeśli nie jesteś głównym/pierwotnym wydawcą [primary publisher], część artykułów zamieszczonych na Twej stronie może nie zostać wzięta pod uwagę. Po drugie, liczba wyników jest zazwyczaj oszacowana na podstawie przeszukania niewielkiej części indeksu (podawanie liczby wyników ma na celu pomoc użytkownikom w doborze zapytania, a nie sprawdzanie współczynników pokrycia). W rezultacie, szacunki te mogą nie być precyzyjne. Jeśli jesteś zaniepokojony tym, że licznik wyników dla Twojej strony jest niski, najlepiej potwierdzić problem z pomocą bardziej szczegółowego wyszukiwania. Zalecamy wyszukiwanie próby kilkudziesięciu artykułów z użyciem tytułów."

Mimo wszystko, z szeregu powodów zdecydowaliśmy się na wykorzystanie metody Orduna-Malei i López-Cózara. Po pierwsze, badanie wykonane tą metodą jest proste i relatywnie mało czasochłonne – warto je wykonać, nawet jeśli wyniki są nieco niedokładne (o ile oczywiście pamięta się o tej niedokładności). Po drugie, metoda polecana przez Google zamiast metody „site:” polega na wybraniu reprezentatywnej próby artykułów dostępnych na danej domenie i zbadaniu ich dostępności w Google Scholar. Jest to metoda obarczona własnym błędem pomiaru, poza tym Google nie dostarcza żadnej listy zmiennych, na podstawie których można by opracować próbę reprezentatywną. Po trzecie, jak to zaznaczymy za chwilę w części poświęconej omówieniu tabeli wyników, kontrolowaliśmy część wyników z pomocą Ranking Web of Repositories. Po czwarte, jeśli pomiar wykonany naszą metodą wykaże bardzo mało indeksowanych stron (lub w ogóle żadnej), a zdarzało się to dość często zarówno w przypadku polskich, jak i latynoamerykańskich repozytoriów, to jakiekolwiek zastrzeżenia o niedokładności metody usuwają się na dalszy plan – wynik taki jednoznacznie wskazuje na poważne trudności danego repozytorium w aspekcie indeksowalności w Google i Google Scholar.

Na marginesie warto zauważyć, jak daleką drogę przebył Google Scholar w ciągu 10 lat od premiery pod względem zaufania, jakim darzy się ten produkt. Z przedmiotu badań (niekiedy niezbyt przychylnych) stał się narzędziem badań. Dziś przywykliśmy już do pochwał pod adresem Google Scholar, traktujemy go jak normę, do której trzeba się przystosować, widzimy też, jak wielu naukowców korzysta z niego na co dzień. Być może tym bardziej należy przypominać, że typowa reakcja bibliotekarzy na Google Scholar wyglądała niegdyś inaczej (porównaj także ten przykład).

Krytyczne głosy pod adresem innych niż omówione tutaj aspektów działania Google Scholar zbiera np. M. Schultz w artykule Comparing test searches in PubMed and Google Scholar. Dociekliwi czytelnicy znajdą tam dalszą bibliografię dotyczącą tego tematu.

Ostatnią rzeczą, jaką warto wziąć pod uwagę przy interpretacji wyników prezentowanych w tym tekście, jest opóźnienie, z jakim Google i Google Scholar indeksują nowo zdeponowane zasoby. Z tego powodu przy obranej przez Orduna-Maleę i López-Cózara (oraz przez nas) metodzie pomiaru dyskryminowane są repozytoria szybko rosnące. Zasoby już widoczne w wewnętrznych statystykach, a jeszcze niewidoczne w Google będą stanowiły większą część zawartości niż w przypadku repozytoriów rosnących stosunkowo wolniej.

A to Polska właśnie

W tym miejscu warto odnotować, jak w naszych badaniach staraliśmy się uwzględnić „polską specyfikę”.

A. Chociaż specyfika i przeznaczenie bibliotek cyfrowych i repozytoriów, przynajmniej w teorii, zasadniczo się od siebie różnią, to jednak w praktyce zarówno wykorzystanie tych dwóch rodzajów narzędzi, jak i ich nazewnictwo jest w Polsce wyraźnie przemieszane. Jak zauważają autorzy raportu Otwarta nauka w Polsce 2014. Diagnoza, „[o]dbiorcy dyskursu dotyczącego otwartych zasobów naukowych w Polsce mogą doświadczyć konfuzji, próbując rozgraniczyć repozytoria naukowe od bibliotek cyfrowych”. W takiej sytuacji istnieje duża pokusa, by w celu uniknięcia konfuzji nie rozgraniczać obu narzędzi – nie bylibyśmy pierwsi.

Niestety, w interesującym nas tutaj kontekście widoczności w Google Scholar różnice między bibliotekami cyfrowymi a repozytoriami stają się szczególnie wyraźne. Choć Google nigdzie nie pisze, jak to dokładnie robi, to jednak wiadomo powszechnie, że Google Scholar indeksuje jedynie zasoby naukowe. Tymczasem zasoby takie mogą być jedynie ułamkiem, niekiedy bardzo nikłym, zasobów biblioteki cyfrowej. Istnieje duże prawdopodobieństwo przypadków, w których zasoby skądinąd naukowe mogłyby nie zostać zindeksowane, ponieważ robot Google nie znalazł ich wśród przeważającej części zasobów z zakresu kultury i dziedzictwa. W każdym przypadku zaniżenie współczynnika indeksowalności w Google Scholar jest niemal pewne. Ponadto, ze względu na różnorodny charakter multimediów przechowywanych w przynajmniej niektórych bibliotekach cyfrowych, mierzenie dostępności wyłącznie plików PDF mogłoby się okazać niewystarczające nawet w „zwykłym” Google.

Z drugiej strony, wśród w sumie 25 domen uwzględnionych w obu edycjach Ranking Web of Repositories, którym się przyglądaliśmy, aż 14 mieściło biblioteki cyfrowe, a nie repozytoria. Oznacza to, że przynajmniej 14 spośród polskich bibliotek cyfrowych chce być porównywanych z repozytoriami. Nie widzimy powodu, dla którego mielibyśmy im tego odmówić, skoro nie odmówiło im tego Webometrics. Zresztą biblioteki te spełniają przecież po części funkcje repozytoriów.

Ostatecznie, zdecydowaliśmy się uwzględnić w badaniach tylko te biblioteki cyfrowe, które zgłosiły się do Ranking Web of Repositories (zaznaczając jednocześnie, jeśli zakwalifikowaliśmy jakieś narzędzie jako bibliotekę cyfrową). Dlatego w wynikach znajdzie Czytelnik tak niewielkie obiekty, jak Biblioteka Cyfrowa Ośrodka Rozwoju Edukacji (lub repozytorium eRIKA), nie znajdzie natomiast Wielkopolskiej Biblioteki Cyfrowej czy Polony.

B. Było naszą najlepsza intencją, by w obliczaniu współczynników indeksowalności uwzględnić format plików DjVu, o którym wiadomo, że jest stosunkowo szeroko rozpowszechniony w polskich repozytoriach i bibliotekach cyfrowych. W tym celu w tabeli wyników znajdowały się początkowo kolumny wskazujące ilość indeksowanych plików DjVu, zaś do obliczania współczynnika miała być brana pod uwagę suma plików PDF i DjVu. Niestety, okazało się, że Google Scholar w ogóle nie indeksuje plików w tym formacie. Co więcej, dodanie statystki DjVu dla Google okazałoby się mnożeniem kolumn bez znaczącego wzbogacenia treści: wynik różny od zera uzyskaliśmy tylko w 6 przypadkach i tylko w jednym z nich rezultat zbliżył się do bariery 100.

Już sam ten rezultat może zaniepokoić: jeden z najpowszechniej wykorzystywanych przez polskie biblioteki cyfrowe formatów nie ma praktycznie żadnej reprezentacji ani w Google, ani w Google Scholar. Rezultaty naszych badań prezentujemy w tabeli 2. Oto omówienie znaczenia poszczególnych kolumn i konwencji, jakie stosowaliśmy:

Nazwa: Pola tej kolumny zawierają nazwę opisywanego w danym wierszu repozytorium. Jeśli w użyciu jest skrót zastępujący pełną nazwę, używaliśmy tego skrótu. W pozostałych przypadkach skracaliśmy nazwy uczelni oraz często powtarzające sie elementy: "Repozytorium" do "Rep.", "Biblioteka Cyfrowa" do "BC".
Domain: Pola tej kolumny zawierają adres domeny opisywanego w danym wierszu repozytorium. To ta nazwa używana była jako podstawa zapytań wykonywanych w wyszukiwarkach.
Items: Pole tej kolumny zawierają liczbę rekordów zdeponowanych w opisywanym w danym wierszu repozytorium, będącą podstawą wyliczania wszystkich współczynników widoczności. Wartość każdego pola w tej kolumnie została uzyskana na podstawie informacji dostępnych na stronie danego repozytorium lub biblioteki cyfrowej.
Scholar / Pages: Szacowana liczba wyników, jakie zwraca Google Scholar dla zapytania "site:nazwa.domeny".
Scholar / Pages %: Wartość pola "Scholar Pages" podzielona przez 0.01 * wartość pola
"Items" Scholar / PDF: Szacowana liczb wyników, jakie zwraca Google Scholar dla zapytania "site:nazwa.domeny filetype:pdf".
Scholar / PDF %: Wartość pola "Scholar PDF" podzielona przez 0.01 * wartość pola "Items".
Google / Pages: Szacowana liczba wyników, jakie zwraca Google dla zapytania "site:nazwa.domeny"[16].
Google / PDF: Szacowana liczba wyników, jakie zwraca Google dla zapytania "site:nazwa.domeny filetype:pdf".
Google / PDF %: Wartość pola "Google PDF" podzielona przez 0.01 * wartość pola "Items".
System: Nazwa oprogramowania, w jakim napisane zostało dane repozytorium.
RWoR: Pozycja w Ranking Web of Repositories, jakie zajmowało dane repozytorium pod względem widoczności w Google Scholar w – odpowiednio do grupy – 14. lub 15. edycji. Wartość tę należy traktować jako sposób weryfikacji metody tu stosowanej, gdyż Ranking Web of Repositories stara się zmierzyć to samo, co my i autorzy The dark side... .
Group: Pomiary dla repozytoriów i bibliotek cyfrowych z grupy A zostały przeprowadzone 8 lipca 2014 roku. Pozycja w Ranking Web of Repositories podana dla tych repozytoriów dotyczy jego 14. edycji. Pomiary dla repozytoriów z grupy B zostały przeprowadzone 21 i 22 lipca 2014 roku. Pozycja w Ranking Web of Repositories podana dla tych repozytoriów dotyczy jego 15. edycji. Pomiary dla repozytoriów z grupy C zostały przeprowadzone 25 lipca 2014 roku, a z grupy D – 20 sierpnia 2014 roku. Repozytoria z tych dwóch grup nie występują w Ranking Web of Repositories - informacje o nich zostały z raportu Centrum Otwartej Nauki „Otwarta Nauka w Polsce 2014. Diagnoza”.
BC: Jeśli wymienione w danym wierszu narzędzie zostało zakwalifikowane jako biblioteka cyfrowa (w odróżnieniu od repozytorium), zaznaczyliśmy to w polu tej kolumny.

[Tabela 2]

Rezultaty

Na początek warto zauważyć, że kontrola przeprowadzona przez porównanie w kolumnie System wyników pomiaru metodą zaczerpniętą z The dark side... oraz wyników uzyskanych przez Ranking Web of Repositories (Webometrics) wskazuje na korelację pomiędzy wysokim współczynnikiem indeksacji a wysoką pozycją w rankingu repozytoriów (tabela 3). Korelacja ta uwidacznia się jeszcze bardziej, gdy uwzględni się pięć par wyników 0% Scholar Pages – 1812. (ostatnie) miejsce w RWoR.

Wynik 105% jest oczywistym artefaktem, zaś bardzo wysokie wyniki indeksacji (powyżej 50%) zdarzały się jedynie w przypadku bardzo małych repozytoriów (317, 159 i 327 rekordów, a także jeden wynik 45% dla 1048 rekordów). Wyniki dla niemal wszystkich repozytoriów korzystających z oprogramowania DSpace miały pewną charakterystyczną cechę, którą omówimy za chwilę, a która mogła wpłynąć na zaburzenie porównania wyników.

Jeśli weźmie się pod uwagę wszystkie te czynniki, metoda Orduna-Maleę i López-Cózara okazuje się nadspodziewanie skuteczna, zwłaszcza ze względu na jej prostotę.

[Tabela 3]

Rzuca się w oczy, że Repozytorium Politechniki Krakowskiej – jedyne repozytorium, które posiada solidny współczynnik indeksacji zarówno dla wszystkich adresów (46%), jak i dla plików formatu pdf (36%), jednocześnie posiadające stosunkowo wiele zasobów (6145) – również bardzo pozytywnie wyróżnia się w rankingu Webometrics. 82. pozycja jest godna pozazdroszczenia – następne pod tym względem AMUR plasuje się na 234. miejscu. Repozytorium to skonstruowane zostało w oparciu o autorskie oprogramowanie – SUW (Zintegrowany System Wymiany Wiedzy i Udostępniania Akademickich Publikacji z Zakresu Nauk Technicznych).
Repozytoria korzystające z oprogramowania DSpace miały przeważnie wysoki wskaźnik Scholar Pages (na 11 wyników tylko 4 poniżej 15%, w tym jedyny wynik 0% wynikał z intencjonalnego zamknięcia zasobów dla robotów Google, zaś 6 wyników wypadło powyżej 40%, w tym 2 powyżej 70%). Mimo to plasowały się dość nisko w rankingu RWoR. Przyczyną tego mogły być zadziwiająco niskie współczynniki Scholar PDF: w 4 przypadkach 0%, w dalszych 2 – poniżej 15 rekordów, zaś we wszystkich – poniżej 10%, z dwoma wyjątkami: RUM@K-a i eRIK-i. RUM@K miał przy tym dość niski (12%) wskaźnik ogólnej indeksacji, prawdziwie więc chlubnym wyjątkiem była eRIKA, choć samo repozytorium jest stosunkowo niewielkie (327 rekordów), zaś różnica między Scholar Pages a Scholar PDF wyniosła w tym przypadku niemal dokładnie 40%.
Oprogramowanie dLibra okazało się największym rozczarowaniem. Na 19 zbadanych repozytoriów i bibliotek cyfrowych aż 3 nie były w ogóle widoczne w Google Scholar, a 9 pokazywało jedynie do 101 rekordów. Jeśli nie liczyć jednego wyniku 105% i jednego wyniku 38% przy zaledwie 26 rekordach, jedynie Biblioteka Cyfrowa Uniwersytetu Warmińsko-Mazurskiego posiada wynik powyżej 20%. Współczynniki indeksacji pozostałych nie sięgają 10%. Za to dla kontrastu z DSpace, współczynniki Scholar PDF są równe lub niemal równe współczynnikom Scholar Pages. DLibra jest oprogramowaniem zaprojektowanym na potrzeby bibliotek cyfrowych. 12 na 14 bibliotek cyfrowych uwzględnionych w Ranking Web of Repositories korzysta z tego oprogramowania (w dwóch pozostałych przypadkach oprogramowania nie dało się określić). Przypadki zerowej widoczności w Google Scholar zdarzają się jedynie w tej grupie, z drugiej strony – dwa z trzech największych wyników również przypadło w udziale bibliotekom cyfrowym. Dalsze siedem instytucji korzystających z oprogramowania dLibra to jednak – co należy szczególnie podkreślić – typowe repozytoria, zarówno ze względu na rodzaj przechowywanych zasobów, jak i pełnione funkcje, a nawet nazewnictwo. Jeszcze bardziej trzeba podkreślić fakt, że przeciętny współczynnik indeksowalności wśród tej grupy nie różnił się znacząco od przeciętnego współczynnika indeksowalności wśród bibliotek cyfrowych. Pozwala to oddalić wątpliwość, jakoby niski współczynnik indeksacji wynikał wyłącznie z faktu, iż duża część zasobów biblioteki cyfrowej z definicji nie jest indeksowana przez Google Scholar. Jak widać, ta składowa miała o wiele mniejszy wpływ na ostateczny wynik niż oprogramowanie, na jakim oparte jest dane repozytorium (lub biblioteka cyfrowa).
Inny popularne na świecie oprogramowanie, EPrints, posiada w naszym rankingu tylko dwóch reprezentantów. Oba repozytoria są jeszcze bardzo niewielkie (poniżej 400 rekordów). Współczynniki indeksacji jednego z nich są obiecujące, za wcześnie jeszcze jednak, by wyciągać wnioski.
Pozostałe cztery mało popularne oprogramowania repozytoryjne reprezentowane w naszym rankingu – Invenio, refBase, Open Repository i Omega PSIR – nie są w Google Scholar indeksowane w ogóle lub prawie w ogóle. Domyślać się można, że wina nie leży tutaj po stronie obsługi repozytoriów. Google – gigant, który może sobie pozwolić, by od 2008 roku nie obsługiwać protokołu OAI-PMH z uwagi na deklarowaną nieopłacalność przedsięwzięcia – przypuszczalnie może sobie również pozwolić na nieindeksowanie lub słabe indeksowanie każdego systemu repozytoryjnego poza tymi największymi (na przywoływanej już stronie Google Scholar podane są trzy: Digital Commons, Eprints i DSpace). Możliwe więc, że ten czynnik jest w dużej mierze odpowiedzialny za słabe wyniki oprogramowania dLibra.
Spośród badanych repozytoriów jedno (Czytelnia Wirtualna Biblioteki Uniwersyteckiej KUL) było w czasie przeprowadzania pomiaru nieczynne w związku z pracami technicznymi. Jedno też nie było indeksowane (a dokładniej, indeksowana była jedynie strona domowa całego serwisu) ze względu na robots.txt. Trudno stwierdzić, czy był to zabieg celowy ze strony webmasterów Wirtualnego Archiwum Polskich Ormian. Zabiegiem z pewnością celowym, bo podyktowanym kwestiami związanymi z prawem autorskim było natomiast zamknięcie Repozytorium Biblioteki Narodowej dla wszystkich komputerów poza terminalami bibliotecznymi. Skutkiem ubocznym było zamknięcie Repozytorium Biblioteki Narodowej również dla robotów Google, przez co repozytorium to nie jest indeksowane w Google ani w Google Scholar.
Repozytorium Centrum Otwartej Nauki jeszcze nie jest uwzględnione w rankingu Webometrics (ma się tam pojawić w styczniu 2015). Wysoki współczynnik indeksacji ogólnej i niski współczynnik indeksacji PDF jest reprezentatywny dla repozytoriów w systemie DSpace. Jeśli ten ostatni problem zostanie do 2015 roku rozwiązany, repozytorium ze stajni ICM może śmiało wypatrywać dnia premiery w rankingu.

Wysoki średni poziom współczynnika Scholar Pages dla repozytoriów korzystających z oprogramowiania DSpace przy bardzo niskim średnim poziomie współczynnika Scholar PDF z pewnością dziwi. Co prawda przywoływana już strona Google Scholar naprowadza nas na jedno z możliwych wytłumaczeń takiego stanu rzeczy: jeśli plik PDF obecny na stronie nie jest wersją pierwotną artykułu, to nie pojawi się jako rezultat w ramach wyszukiwania z użyciem operatora „site:”. Wytłumaczenie to nie jest jednak wystarczające z kilku powodów.

Po pierwsze, wydaje się, że sam operator „site:” zwraca więcej plików PDF niż „site: filetype:pdf”. Po drugie, duża część plików PDF deponowanych w Repozytorium CeON jest wersją pierwotną, przynajmniej w tym znaczeniu, że stanowi wersję najwcześniejszą (lub jedyną), jaka pojawiła się w internecie. Można domyślać się, że jest to prawdą, jeśli chodzi o większości repozytoriów, podczas gdy w wypadku bibliotek cyfrowych – co do zasady nie. Tymczasem nie widać pod tym względem większej różnicy między repozytoriami a bibliotekami cyfrowymi. Po trzecie, nie wyjaśnia to niemal zupełnego braku różnicy między współczynnikami Scholar Pages a Scholar PDF w przypadku np. repozytoriów i bibliotek cyfrowych korzystających z oprogramowania dLibra. Po czwarte, przykład repozytorium eRIKA wskazuje, że problem ten nie jest nie do przezwyciężenia.

Na Zachodzie bez zmian?

Wypada w tym miejscu porównać zarówno Polskę, jak i Amerykę Łacińską z resztą akademickiego świata – zwłaszcza, że Invisible institutional repositories… pozwala się domyślać, że „nawet” USA nie są wolne od problemów z Google Scholar. W tym celu badanie powtórzyliśmy dla kilku repozytoriów na całym świecie. Oprócz największych i najbardziej uznanych staraliśmy się też wziąć pod uwagę kilka średnich i najmniejszych (kierowaliśmy się przy tym wskazaniami rankingu Webometrics tam, gdzie – jak w przypadku ArXiv czy DASH – marka nie mówiła sama za siebie). Rezultaty przywołuje tabela 4.

[Tabela 4]

Od razu widać, że ani arXiv, ani PubMed Central, ani nawet Harvard nie muszą się kłopotać Google Scholar – są na to zbyt duzi i zbyt znani. Pozostałe wyniki są bardzo zróżnicowane – choćby repozytorium Uniwersytetu w Porto jest bardzo słabo widoczne. Istnieją jednak także przykłady, że nawet mimo nieustających problemów stwarzanych przez samą przeglądarkę, współczynnik indeksowalności można utrzymać na poziomie znacznie wyższym niż robią to repozytoria w Polsce.

Przy okazji potwierdzają się niektóre trendy widoczne przy badaniu krajowych repozytoriów. Bardzo słabo indeksowane są pliki PDF dla repozytoriów opartych w oprogramowanie DSpace. Bardziej egzotyczne systemy w ogóle są pomijane. Wydaje się, że Digital Commons bardzo dobrze współpracuje z Google Scholar – sprawa wymaga bliższego zbadania.

Podsumowanie badania

Razem wzięte, wyniki naszego badania można uznać za niezadowalające jeśli chodzi o funkcjonowanie repozytoriów w Polsce, zwłaszcza gdy weźmie się pod uwagę, za jak alarmujące zostały uznane niewiele lepsze wyniki w przypadku Ameryki Łacińskiej. Szczególnie palącym problemem staje się to w kontekście otwartego dostępu.

Repozytoria i biblioteki cyfrowe mają w zamyśle zwiększać widoczność swoich zasobów. Mimo to treści naukowe zdeponowane w wielu z nich nie są w narzędziach Google właściwie widoczne. Przypadki wypełniania tego zadania na znośnym poziomie są w Polsce pojedyncze, przeważnie wtedy, gdy repozytorium korzysta z oprogramowania DSpace. Jednak nawet tutaj pozostaje wiele do naprawy: istnieje możliwość, że same treści, które obudowuje się metadanymi – przede wszystkim pliki PDF – są widoczne słabiej, niż to obiecują możliwości Google Scholar.

Warto odnotować, że jedyne polskie repozytorium, które mogło pochwalić się dużą widocznością zarówno metadanych, jak i samych plików, działa w oparciu o autorskie oprogramowanie (Repozytorium Politechniki Krakowskiej). Z drugiej strony, było to jedyne repozytorium nie oparte o DSpace, dLibrę ani o EPrints, które w Google nie miało widoczności równej praktycznie zeru.

Co mogą zrobić repozytoria?

Możliwości naprawy istniejącego stanu rzeczy jest wiele. Sam artykuł Invisible institutional repositories... wskazuje kilka z nich i odsyła do bibliografii tematu. Czytelnikom bliżej zainteresowanym problematyką z pewnością możemy polecić tę pozycję.

Zwiększenie wrażliwości na problematykę SEO wśród obsługi repozytoriów też zapewne pomoże rozwiązać wiele z zaistniałych problemów. Jak podaje raport Otwarta Nauka w Polsce 2014. Diagnoza, repozytoria w Polsce są w znacznej większości prowadzone przez bibliotekarzy, wśród których znajomość problematyki pozycjonowania stron w Google i widoczności w sieci WWW, choć zapewne stosunkowo rozpowszechniona, nie jest oczywista sama przez się.

Dostosowaniu repozytoriów do współpracy z Google Scholar jest kolejnym polem, na którym można wiele zrobić. Nawet oprogramowania inne niż „wielka trójka” DSpace, Digital Commons, EPrints mogą znacząco podnieść współczynniki indeksowalności w Google Scholar.

Co mogą zrobić autorzy?

Według niezbyt wyczerpujących wytycznych Google Scholar sam wygląd tekstu zawartego w pliku w PDF również może mieć znaczenie przy indeksowaniu go przez roboty Google. Trzy wytyczne wymienione są explicite: pierwsza strona pliku PDF powinna zawierać nazwiska autorów oraz (wyróżniony wielkością czcionki) tytuł publikacji, zaś na jej końcu powinna znajdować się wyraźnie wydzielona bibliografia. Z pewnością też plik musi zawierać warstwę tekstową – tj. tekst w pliku PDF musi być „zaznaczalny” (inaczej jest zwykłym obrazem, niemożliwym do odczytania przez roboty Google).

Co do innych branych pod uwagę właściwości możemy już tylko spekulować; całkiem możliwe, że sam rozmiar tekstu może mieć tutaj znaczenie. Google nie po raz pierwszy stara się „wychować” użytkowników Internetu do stosowania pewnych (przeważnie dość zdroworozsądkowych) standardów publikowanej treści. Użytkownicy, jak zwykle, nie muszą się do nich stosować; jedyne co ryzykują, to bycie pominiętym przez roboty Google. Wobec autorów, którym zależy na tym, by ich publikacje były widoczne, możemy pokusić się o jedną radę ogólną: im staranniej i „ładniej” (dla oka czytelnika) opracowana publikacja, tym wyższe szanse na jej zindeksowanie. O ile oczywiście repozytorium ze swej strony zachowa odpowiednie standardy.

Co jeszcze można zrobić?

Problem widoczności repozytoriów w najbardziej rozpowszechnionych wyszukiwarkach jest bardzo ważny dla ogólnej kondycji otwartego dostępu do polskich publikacji naukowych. Z pewnością należy go zbadać z pomocą bardziej wyrafinowanych narzędzi. Bez wątpienia można rozszerzyć zakres badań na pozostałe wyszukiwarki, np. Microsoft Academic Search. Jednocześnie należy sukcesywnie monitorować zmieniający się stan rzeczy. Metoda zaproponowana w The dark side... jest na tyle prosta i nieczasochłonna, że wielu spośród Czytelników może z łatwością stosować ją na własny użytek.

Tomasz Lewandowski jest pracownikiem Centrum Otwartej Nauki. Specjalizuje się w logice formalnej, posiada doświadczenie programistyczne.

Bibliografia:

Arlitsch K., O’Brien P.S., (2012) Invisible institutional repositories: addressing the low indexing ratios of IRs in Google, " Library Hi Tech" 30(1), 60-81, preprint dostępny pod adresem: http://scholarworks.montana.edu/xmlui/bitstream/handle/1/3193/Arlitsch-Obrien-LHT-GS-final-revised_2012-02-18.pdf.

Björk B.C., Laakso M., Welling P., Paetau P., (2014) Anatomy of green open access, "Journal of the American Society for Information Science and Technology". In Press. DOI: 10.1002/asi.22963.

Burright M., Google Scholar - Science & Technology, "Issues in Science and Technology Librarianship", DOI:10.5062/F45H7D7K, dostępny na: http://www.istl.org/06-winter/databases2.html.

Cothran T., (2011) Google Scholar acceptance and use among graduate students: A quantitative study, "Library and Information Science Research", Vol. 33 issue 4, ss. 293-301, dostępny pod adresem: http://www.sciencedirect.com/science/article/pii/S0740818811000594.

Jacso P., (2008) Google Scholar Revisited, "Online Information Review", Vol. 32, No. 1, ss. 102-114, preprint dostępny pod adresem: http://cs.unibo.it/~cianca/wwwpages/dd/08Jacso.pdf.

Kemann M., Kleppe M., Scagliola S., Just Google It – Digital Research Practices of Humanities Scholars, w: Mills C., Pidd M., Ward E., Proceedings of the Digital Humanities Congress 2012. Studies in the Digital Humanities, Sheffield: HRI Online Publications, 2014, preprint dostępny pod adresem: http://arxiv.org/abs/1309.2434v3.

Orduna-Malea E., López-Cózar E.D., The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories. Preprint http://arxiv.org/abs/1406.4331.

S., Salter J., Bath P., Hubbard B., Millington P., Anders J.H.S., Hussain A., (2014) Open-access repositories wordlwide, 2005-2012: Past growth, current characteristics and future possibilities, "Journal of American Society for Information Science and Technology". Preprint dostępny pod adresem: http://eprints.whiterose.ac.uk/76839/15/wrro_76839.pdf.

Shultz M., (2007) "Comparing test searches in PubMed and Google Scholar", Journal of the Medical Library Association, Vol. 95 No. 4, ss. 442-445, dostępny pod adresem: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2000776/.

Szprot J. (red.), Otwarta nauka w Polsce 2014. Diagnoza, Wydawnictwa ICM, Warszawa 2014, dostępny pod adresem: http://pon.edu.pl/index.php/nasze-publikacje?pubid=13.

Szczegóły: Opublikowano: 2014-08-26

Nav view search

Navigation

Search

Google Scholar a repozytoria i biblioteki cyfrowe w Polsce

Additional information