Google Scholar a repozytoria i biblioteki cyfrowe w Polsce

 

Rezultaty

Na początek warto zauważyć, że kontrola przeprowadzona przez porównanie w kolumnie System wyników pomiaru metodą zaczerpniętą z The dark side... oraz wyników uzyskanych przez Ranking Web of Repositories (Webometrics) wskazuje na korelację pomiędzy wysokim współczynnikiem indeksacji a wysoką pozycją w rankingu repozytoriów (tabela 3). Korelacja ta uwidacznia się jeszcze bardziej, gdy uwzględni się pięć par wyników 0% Scholar Pages – 1812. (ostatnie) miejsce w RWoR.

Wynik 105% jest oczywistym artefaktem, zaś bardzo wysokie wyniki indeksacji (powyżej 50%) zdarzały się jedynie w przypadku bardzo małych repozytoriów (317, 159 i 327 rekordów, a także jeden wynik 45% dla 1048 rekordów). Wyniki dla niemal wszystkich repozytoriów korzystających z oprogramowania DSpace miały pewną charakterystyczną cechę, którą omówimy za chwilę, a która mogła wpłynąć na zaburzenie porównania wyników.

Jeśli weźmie się pod uwagę wszystkie te czynniki, metoda Orduna-Maleę i López-Cózara okazuje się nadspodziewanie skuteczna, zwłaszcza ze względu na jej prostotę.

[Tabela 3]

  1. Rzuca się w oczy, że Repozytorium Politechniki Krakowskiej – jedyne repozytorium, które posiada solidny współczynnik indeksacji zarówno dla wszystkich adresów (46%), jak i dla plików formatu pdf (36%), jednocześnie posiadające stosunkowo wiele zasobów (6145) – również bardzo pozytywnie wyróżnia się w rankingu Webometrics. 82. pozycja jest godna pozazdroszczenia – następne pod tym względem AMUR plasuje się na 234. miejscu. Repozytorium to skonstruowane zostało w oparciu o autorskie oprogramowanie – SUW (Zintegrowany System Wymiany Wiedzy i Udostępniania Akademickich Publikacji z Zakresu Nauk Technicznych).
  2. Repozytoria korzystające z oprogramowania DSpace miały przeważnie wysoki wskaźnik Scholar Pages (na 11 wyników tylko 4 poniżej 15%, w tym jedyny wynik 0% wynikał z intencjonalnego zamknięcia zasobów dla robotów Google, zaś 6 wyników wypadło powyżej 40%, w tym 2 powyżej 70%). Mimo to plasowały się dość nisko w rankingu RWoR. Przyczyną tego mogły być zadziwiająco niskie współczynniki Scholar PDF: w 4 przypadkach 0%, w dalszych 2 – poniżej 15 rekordów, zaś we wszystkich – poniżej 10%, z dwoma wyjątkami: RUM@K-a i eRIK-i. RUM@K miał przy tym dość niski (12%) wskaźnik ogólnej indeksacji, prawdziwie więc chlubnym wyjątkiem była eRIKA, choć samo repozytorium jest stosunkowo niewielkie (327 rekordów), zaś różnica między Scholar Pages a Scholar PDF wyniosła w tym przypadku niemal dokładnie 40%.
  3. Oprogramowanie dLibra okazało się największym rozczarowaniem. Na 19 zbadanych repozytoriów i bibliotek cyfrowych aż 3 nie były w ogóle widoczne w Google Scholar, a 9 pokazywało jedynie do 101 rekordów. Jeśli nie liczyć jednego wyniku 105% i jednego wyniku 38% przy zaledwie 26 rekordach, jedynie Biblioteka Cyfrowa Uniwersytetu Warmińsko-Mazurskiego posiada wynik powyżej 20%. Współczynniki indeksacji pozostałych nie sięgają 10%. Za to dla kontrastu z DSpace, współczynniki Scholar PDF są równe lub niemal równe współczynnikom Scholar Pages. DLibra jest oprogramowaniem zaprojektowanym na potrzeby bibliotek cyfrowych. 12 na 14 bibliotek cyfrowych uwzględnionych w Ranking Web of Repositories korzysta z tego oprogramowania (w dwóch pozostałych przypadkach oprogramowania nie dało się określić). Przypadki zerowej widoczności w Google Scholar zdarzają się jedynie w tej grupie, z drugiej strony – dwa z trzech największych wyników również przypadło w udziale bibliotekom cyfrowym.                                                   Dalsze siedem instytucji korzystających z oprogramowania dLibra to jednak – co należy szczególnie podkreślić – typowe repozytoria, zarówno ze względu na rodzaj przechowywanych zasobów, jak i pełnione funkcje, a nawet nazewnictwo. Jeszcze bardziej trzeba podkreślić fakt, że przeciętny współczynnik indeksowalności wśród tej grupy nie różnił się znacząco od przeciętnego współczynnika indeksowalności wśród bibliotek cyfrowych. Pozwala to oddalić wątpliwość, jakoby niski współczynnik indeksacji wynikał wyłącznie z faktu, iż duża część zasobów biblioteki cyfrowej z definicji nie jest indeksowana przez Google Scholar. Jak widać, ta składowa miała o wiele mniejszy wpływ na ostateczny wynik niż oprogramowanie, na jakim oparte jest dane repozytorium (lub biblioteka cyfrowa).
  4. Inny popularne na świecie oprogramowanie, EPrints, posiada w naszym rankingu tylko dwóch reprezentantów. Oba repozytoria są jeszcze bardzo niewielkie (poniżej 400 rekordów). Współczynniki indeksacji jednego z nich są obiecujące, za wcześnie jeszcze jednak, by wyciągać wnioski.
  5. Pozostałe cztery mało popularne oprogramowania repozytoryjne reprezentowane w naszym rankingu – Invenio, refBase, Open Repository i Omega PSIR – nie są w Google Scholar indeksowane w ogóle lub prawie w ogóle. Domyślać się można, że wina nie leży tutaj po stronie obsługi repozytoriów. Google – gigant, który może sobie pozwolić, by od 2008 roku nie obsługiwać protokołu OAI-PMH z uwagi na deklarowaną nieopłacalność przedsięwzięcia – przypuszczalnie może sobie również pozwolić na nieindeksowanie lub słabe indeksowanie każdego systemu repozytoryjnego poza tymi największymi (na przywoływanej już stronie Google Scholar podane są trzy: Digital Commons, Eprints i DSpace). Możliwe więc, że ten czynnik jest w dużej mierze odpowiedzialny za słabe wyniki oprogramowania dLibra.
  6. Spośród badanych repozytoriów jedno (Czytelnia Wirtualna Biblioteki Uniwersyteckiej KUL) było w czasie przeprowadzania pomiaru nieczynne w związku z pracami technicznymi. Jedno też nie było indeksowane (a dokładniej, indeksowana była jedynie strona domowa całego serwisu) ze względu na robots.txt. Trudno stwierdzić, czy był to zabieg celowy ze strony webmasterów Wirtualnego Archiwum Polskich Ormian. Zabiegiem z pewnością celowym, bo podyktowanym kwestiami związanymi z prawem autorskim było natomiast zamknięcie Repozytorium Biblioteki Narodowej dla wszystkich komputerów poza terminalami bibliotecznymi. Skutkiem ubocznym było zamknięcie Repozytorium Biblioteki Narodowej również dla robotów Google, przez co repozytorium to nie jest indeksowane w Google ani w Google Scholar.
  7. Repozytorium Centrum Otwartej Nauki jeszcze nie jest uwzględnione w rankingu Webometrics (ma się tam pojawić w styczniu 2015). Wysoki współczynnik indeksacji ogólnej i niski współczynnik indeksacji PDF jest reprezentatywny dla repozytoriów w systemie DSpace. Jeśli ten ostatni problem zostanie do 2015 roku rozwiązany, repozytorium ze stajni ICM może śmiało wypatrywać dnia premiery w rankingu.

Wysoki średni poziom współczynnika Scholar Pages dla repozytoriów korzystających z oprogramowiania DSpace przy bardzo niskim średnim poziomie współczynnika Scholar PDF z pewnością dziwi. Co prawda przywoływana już strona Google Scholar naprowadza nas na jedno z możliwych wytłumaczeń takiego stanu rzeczy: jeśli plik PDF obecny na stronie nie jest wersją pierwotną artykułu, to nie pojawi się jako rezultat w ramach wyszukiwania z użyciem operatora „site:”. Wytłumaczenie to nie jest jednak wystarczające z kilku powodów.

Po pierwsze, wydaje się, że sam operator „site:” zwraca więcej plików PDF niż „site: filetype:pdf”. Po drugie, duża część plików PDF deponowanych w Repozytorium CeON jest wersją pierwotną, przynajmniej w tym znaczeniu, że stanowi wersję najwcześniejszą (lub jedyną), jaka pojawiła się w internecie. Można domyślać się, że jest to prawdą, jeśli chodzi o większości repozytoriów, podczas gdy w wypadku bibliotek cyfrowych – co do zasady nie. Tymczasem nie widać pod tym względem większej różnicy między repozytoriami a bibliotekami cyfrowymi. Po trzecie, nie wyjaśnia to niemal zupełnego braku różnicy między współczynnikami Scholar Pages a Scholar PDF w przypadku np. repozytoriów i bibliotek cyfrowych korzystających z oprogramowania dLibra. Po czwarte, przykład repozytorium eRIKA wskazuje, że problem ten nie jest nie do przezwyciężenia.

 

Na Zachodzie bez zmian?

Wypada w tym miejscu porównać zarówno Polskę, jak i Amerykę Łacińską z resztą akademickiego świata – zwłaszcza, że Invisible institutional repositories… pozwala się domyślać, że „nawet” USA nie są wolne od problemów z Google Scholar. W tym celu badanie powtórzyliśmy dla kilku repozytoriów na całym świecie. Oprócz największych i najbardziej uznanych staraliśmy się też wziąć pod uwagę kilka średnich i najmniejszych (kierowaliśmy się przy tym wskazaniami rankingu Webometrics tam, gdzie – jak w przypadku ArXiv czy DASH – marka nie mówiła sama za siebie). Rezultaty przywołuje tabela 4.

[Tabela 4]

Od razu widać, że ani arXiv, ani PubMed Central, ani nawet Harvard nie muszą się kłopotać Google Scholar – są na to zbyt duzi i zbyt znani. Pozostałe wyniki są bardzo zróżnicowane – choćby repozytorium Uniwersytetu w Porto jest bardzo słabo widoczne. Istnieją jednak także przykłady, że nawet mimo nieustających problemów stwarzanych przez samą przeglądarkę, współczynnik indeksowalności można utrzymać na poziomie znacznie wyższym niż robią to repozytoria w Polsce.

Przy okazji potwierdzają się niektóre trendy widoczne przy badaniu krajowych repozytoriów. Bardzo słabo indeksowane są pliki PDF dla repozytoriów opartych w oprogramowanie DSpace. Bardziej egzotyczne systemy w ogóle są pomijane. Wydaje się, że Digital Commons bardzo dobrze współpracuje z Google Scholar – sprawa wymaga bliższego zbadania.

 

Podsumowanie badania

Razem wzięte, wyniki naszego badania można uznać za niezadowalające jeśli chodzi o funkcjonowanie repozytoriów w Polsce, zwłaszcza gdy weźmie się pod uwagę, za jak alarmujące zostały uznane niewiele lepsze wyniki w przypadku Ameryki Łacińskiej. Szczególnie palącym problemem staje się to w kontekście otwartego dostępu.

Repozytoria i biblioteki cyfrowe mają w zamyśle zwiększać widoczność swoich zasobów. Mimo to treści naukowe zdeponowane w wielu z nich nie są w narzędziach Google właściwie widoczne. Przypadki wypełniania tego zadania na znośnym poziomie są w Polsce pojedyncze, przeważnie wtedy, gdy repozytorium korzysta z oprogramowania DSpace. Jednak nawet tutaj pozostaje wiele do naprawy: istnieje możliwość, że same treści, które obudowuje się metadanymi – przede wszystkim pliki PDF – są widoczne słabiej, niż to obiecują możliwości Google Scholar.

Warto odnotować, że jedyne polskie repozytorium, które mogło pochwalić się dużą widocznością zarówno metadanych, jak i samych plików, działa w oparciu o autorskie oprogramowanie (Repozytorium Politechniki Krakowskiej). Z drugiej strony, było to jedyne repozytorium nie oparte o DSpace, dLibrę ani o EPrints, które w Google nie miało widoczności równej praktycznie zeru.

 

Co mogą zrobić repozytoria?

Możliwości naprawy istniejącego stanu rzeczy jest wiele. Sam artykuł Invisible institutional repositories... wskazuje kilka z nich i odsyła do bibliografii tematu. Czytelnikom bliżej zainteresowanym problematyką z pewnością możemy polecić tę pozycję.

Zwiększenie wrażliwości na problematykę SEO wśród obsługi repozytoriów też zapewne pomoże rozwiązać wiele z zaistniałych problemów. Jak podaje raport Otwarta Nauka w Polsce 2014. Diagnoza, repozytoria w Polsce są w znacznej większości prowadzone przez bibliotekarzy, wśród których znajomość problematyki pozycjonowania stron w Google i widoczności w sieci WWW, choć zapewne stosunkowo rozpowszechniona, nie jest oczywista sama przez się.

Dostosowaniu repozytoriów do współpracy z Google Scholar jest kolejnym polem, na którym można wiele zrobić. Nawet oprogramowania inne niż „wielka trójka” DSpace, Digital Commons, EPrints mogą znacząco podnieść współczynniki indeksowalności w Google Scholar.

 

Co mogą zrobić autorzy?

Według niezbyt wyczerpujących wytycznych Google Scholar sam wygląd tekstu zawartego w pliku w PDF również może mieć znaczenie przy indeksowaniu go przez roboty Google. Trzy wytyczne wymienione są explicite: pierwsza strona pliku PDF powinna zawierać nazwiska autorów oraz (wyróżniony wielkością czcionki) tytuł publikacji, zaś na jej końcu powinna znajdować się wyraźnie wydzielona bibliografia. Z pewnością też plik musi zawierać warstwę tekstową – tj. tekst w pliku PDF musi być „zaznaczalny” (inaczej jest zwykłym obrazem, niemożliwym do odczytania przez roboty Google).

Co do innych branych pod uwagę właściwości możemy już tylko spekulować; całkiem możliwe, że sam rozmiar tekstu może mieć tutaj znaczenie. Google nie po raz pierwszy stara się „wychować” użytkowników Internetu do stosowania pewnych (przeważnie dość zdroworozsądkowych) standardów publikowanej treści. Użytkownicy, jak zwykle, nie muszą się do nich stosować; jedyne co ryzykują, to bycie pominiętym przez roboty Google. Wobec autorów, którym zależy na tym, by ich publikacje były widoczne, możemy pokusić się o jedną radę ogólną: im staranniej i „ładniej” (dla oka czytelnika) opracowana publikacja, tym wyższe szanse na jej zindeksowanie. O ile oczywiście repozytorium ze swej strony zachowa odpowiednie standardy.

 

Co jeszcze można zrobić?

Problem widoczności repozytoriów w najbardziej rozpowszechnionych wyszukiwarkach jest bardzo ważny dla ogólnej kondycji otwartego dostępu do polskich publikacji naukowych. Z pewnością należy go zbadać z pomocą bardziej wyrafinowanych narzędzi. Bez wątpienia można rozszerzyć zakres badań na pozostałe wyszukiwarki, np. Microsoft Academic Search. Jednocześnie należy sukcesywnie monitorować zmieniający się stan rzeczy. Metoda zaproponowana w The dark side... jest na tyle prosta i nieczasochłonna, że wielu spośród Czytelników może z łatwością stosować ją na własny użytek.

 

Tomasz Lewandowski jest pracownikiem Centrum Otwartej Nauki. Specjalizuje się w logice formalnej, posiada doświadczenie programistyczne.

 

Bibliografia:

Arlitsch K., O’Brien P.S., (2012) Invisible institutional repositories: addressing the low indexing ratios of IRs in Google, " Library Hi Tech" 30(1), 60-81, preprint dostępny pod adresem: http://scholarworks.montana.edu/xmlui/bitstream/handle/1/3193/Arlitsch-Obrien-LHT-GS-final-revised_2012-02-18.pdf.

Björk B.C., Laakso M., Welling P., Paetau P., (2014) Anatomy of green open access, "Journal of the American Society for Information Science and Technology". In Press. DOI: 10.1002/asi.22963.

Burright M., Google Scholar - Science & Technology, "Issues in Science and Technology Librarianship", DOI:10.5062/F45H7D7K, dostępny na: http://www.istl.org/06-winter/databases2.html.

Cothran T., (2011) Google Scholar acceptance and use among graduate students: A quantitative study, "Library and Information Science Research", Vol. 33 issue 4, ss. 293-301, dostępny pod adresem: http://www.sciencedirect.com/science/article/pii/S0740818811000594.

Jacso P., (2008) Google Scholar Revisited, "Online Information Review", Vol. 32, No. 1, ss. 102-114, preprint dostępny pod adresem: http://cs.unibo.it/~cianca/wwwpages/dd/08Jacso.pdf.

Kemann M., Kleppe M., Scagliola S., Just Google It – Digital Research Practices of Humanities Scholars, w: Mills C., Pidd M., Ward E., Proceedings of the Digital Humanities Congress 2012. Studies in the Digital Humanities, Sheffield: HRI Online Publications, 2014, preprint dostępny pod adresem: http://arxiv.org/abs/1309.2434v3.

Orduna-Malea E., López-Cózar E.D., The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories. Preprint http://arxiv.org/abs/1406.4331.

S., Salter J., Bath P., Hubbard B., Millington P., Anders J.H.S., Hussain A., (2014) Open-access repositories wordlwide, 2005-2012: Past growth, current characteristics and future possibilities, "Journal of American Society for Information Science and Technology". Preprint dostępny pod adresem: http://eprints.whiterose.ac.uk/76839/15/wrro_76839.pdf.

Shultz M., (2007) "Comparing test searches in PubMed and Google Scholar", Journal of the Medical Library Association, Vol. 95 No. 4, ss. 442-445, dostępny pod adresem: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2000776/.

Szprot J. (red.), Otwarta nauka w Polsce 2014. Diagnoza, Wydawnictwa ICM, Warszawa 2014, dostępny pod adresem: http://pon.edu.pl/index.php/nasze-publikacje?pubid=13.

Additional information