Google Scholar a repozytoria i biblioteki cyfrowe w Polsce

Tomasz Lewandowski

Repozytoria i biblioteki cyfrowe mają w zamyśle zwiększać widoczność swoich zasobów. Mimo to treści naukowe zdeponowane w wielu z nich nie są w narzędziach Google właściwie widoczne. Przypadki wypełniania tego zadania na znośnym poziomie są w Polsce pojedyncze, przeważnie wtedy, gdy repozytorium korzysta z oprogramowania DSpace. Jednak nawet tutaj pozostaje wiele do naprawy.

 

The Dark Side

W czerwcu bieżącego roku w arXiv.org zdeponowano zaakceptowany do publikacji w „Scientometrics” artykuł The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories. Jego autorzy, Enrique Orduna-Malea i Emilio Delgado López-Cózar, badali widoczność 137 repozytoriów indeksowanych przez Ranking Web of Repositories, obsługiwanych przez instytucje naukowe krajów Ameryki Łacińskiej. Współczynniki indeksacji (wyjaśnienie ich dokładnego znaczenia w dalszej części tekstu) dla Google określają jako „niskie”, zaś dla Google Scholar jako „właściwie nieistniejące” (virtually nonexistent). Jak przypominają, repozytoria (zwłaszcza instytucjonalne) mają być głównym narzędziem wdrażania otwartego dostępu do treści naukowych w modelu nazywanym powszechnie zieloną drogą. Tymczasem tak niska widoczność w obu wyszukiwarkach Google (ogólnej i przeznaczonej dla akademików) stanowi poważną przeszkodę dla właściwego rozpowszechniania zdeponowanych w repozytoriach prac. Daje to poważne podstawy do niepokoju o uzyskane wyniki (patrz tabela 1).

[Tabela 1]

Rezultaty te korespondują z wcześniejszymi o dwa lata badaniami Kenninga Arlitscha i Patricka S. O'Briena zaprezentowanymi w artykule Invisible institutional repositories: addressing the low indexing ratios of IRs in Google, w których z kolei widoczność przynajmniej niektórych repozytoriów instytucjonalnych na terenie USA zdiagnozowana została jako niska.

Autorzy The dark side... podkreślają jednak, że dla naukowców latynoamerykańskich zła widoczność repozytoriów jest znacznie poważniejszym problemem niż dla ich północnoamerykańskich kolegów. Zwłaszcza ta część ich dorobku, której nie napisali po angielsku, leży bowiem poza głównym nurtem komunikacji naukowej. Mogąc w mniejszym stopniu polegać na WoS czy Scopus, stają się bardziej uzależnieni od widoczności repozytoriów, w których deponują swe prace.

Trudno się oprzeć wrażeniu, że naukowcy w Polsce znajdują się pod tym względem w podobnej sytuacji, co naukowcy z Ameryki Łacińskiej. Z pewnością też widoczność repozytoriów w Polsce stanowi jeden z kluczowych parametrów pozwalających ocenić stan otwartej nauki w Polsce. Warto więc przyjrzeć się repozytoriom i bibliotekom cyfrowym w Polsce. Zrobimy to z użyciem tej samej metody, jaką wykorzystali Orduna-Malea i López-Cózar. Zanim to jednak nastąpi, postaramy się krytycznie spojrzeć na samą metodologię w nadziei lepszego zrozumienia, co tak naprawdę oznaczają uzyskane wyniki.

 

Metoda pod lupą

Metoda pomiaru zastosowana w części The dark side... , którą chcemy tu zrekonstruować, jest stosunkowo prosta: z pomocą komend „site” i „filetype” pytamy daną wyszukiwarkę o liczbę adresów URL (wszystkich lub tylko danego typu) widocznych w danej domenie. Stosunek tej liczby do liczby materiałów zdeponowanych w danym repozytorium stanowić będzie poszukiwany współczynnik indeksacji.

Autorzy zbadali w ten sposób wszystkie repozytoria z próby w dwóch przeglądarkach – Google i Google Scholar – i zdecydowali się na dwa współczynniki dla każdej z nich. Pierwszy mierzył liczbę wszystkich adresów URL indeksowanych przez daną przeglądarkę na domenie danego repozytorium (komenda „site:” z nazwą danej domeny). Drugi ograniczał wyniki do plików w formacie PDF. Intencją tego pomiaru było wybranie stron, co do których istniało jak najwyższe prawdopodobieństwo, że ich zawartością są artykuły naukowe, a nie coś innego.

Zaznaczyć przy tym trzeba, że Google Scholar z definicji indeksować ma wyłącznie strony o zawartości naukowej, lecz sposób, w jaki dokładnie działają algorytmy, za pomocą których odsiewane są treści naukowe od nienaukowych, jest tajemnicą handlową firmy Google. Dobór zapytania odsiewa też oczywiście wszystkie artykuły naukowe przechowywane w innych formatach – pamiętać jednak trzeba, że ogromna większość nie tylko artykułów naukowych w wersji cyfrowej, ale i wszystkich dokumentów w Internecie przechowywana jest w tym właśnie formacie.

Zastrzeżeniami ważniejszymi niż mniejsze lub większe zaniżenie współczynnika widoczności poprzez arbitralny wybór formatu PDF jako reprezentatywnego dla publikacji naukowych są zastrzeżenia dotyczące użycia Google i Google Scholar (zwłaszcza tego ostatniego) jako narzędzia agregującego. Pamiętać należy, że produkty Google zbudowane zostały jako narzędzia do jak najszybszego przeszukania wcześniej zgromadzonej bazy danych i przedstawienia, nadal w najkrótszym możliwym czasie, określonej liczby adresów URL dla danych słów kluczowych.

Twórcy tej wyszukiwarki są na tyle dumni z osiągniętej efektywności algorytmu (co zapewne dostrzegł niemal każdy użytkownik Google), że na górze strony wyników podają czas wykonania zapytania. Jak jednak zauważyło kilku ekscentryków, desperatów lub poszukiwaczy przygód, którzy kiedykolwiek weszli na drugą lub dalszą stronę wyszukiwań, czas ten jest obliczany dla każdej strony wyników oddzielnie, czyli – inaczej mówiąc – każda strona wyników to rezultat oddzielnej operacji.

Przyjrzyjmy się temu: Google oblicza nam w ułamku sekundy tylko określoną, niewielką część wyników (zresztą lojalnie ostrzega, że zwiększenie ustawienia liczby wyników na stronę może wydłużyć czas oczekiwania na odpowiedź). Jednocześnie jednak zawsze wyświetla liczbę wszystkich otrzymanych wyników. Nasuwa się wysoce prawdopodobny wniosek, że liczba wszystkich wyników jest jedynie szacowana. Wniosek ten dodatkowo uprawdopodobnia kilka faktów.

Jak zauważa Péter Jacsó w artykule Google Scholar Revisited, w niektórych przypadkach spójnik logiczny OR zmniejsza w Google Scholar liczbę otrzymanych wyników. Przyjrzyjmy się przykładowi, jaki daje: wyszukiwanie po słowie kluczowym „+the” zwróciło ok. 1 540 000 000 wyników, zaś wyszukiwanie „the OR a” – jedynie ok. 13 900 000 (artykuł jest z 2008 roku, 23 lipca 2014 te zapytania zwróciły odpowiednio 10 700 000 i 9 800 000 wyników, 10 000 000 i 8 950 000 bez uwzględnienia cytowań i patentów, co jest może mniej spektakularne, ale w zupełności wystarcza do stwierdzenia niestandardowego zachowania spójnika OR).

Oczywiście, żadna zaimplementowana alternatywa logiczna nie ma prawa zachowywać się w ten sposób – po prostu liczba wszystkich wyników jest oszacowywana z marginesem błędu, który dopuszcza taki rozstrzał. Zachęcamy Czytelnika do sprawdzenia własnoręcznie pozostałych ciekawostek: podawana liczba wszystkich wyników może się w Google Scholar zmieniać wraz ze zmianą strony wyszukiwania – czyli jest obliczana na nowo wraz z każdą iteracją wyszukiwania.

Niezależnie jednak od otrzymanej liczby wszystkich wyników Google Scholar i tak pozwala nam obejrzeć jedynie 1000 pierwszych adresów URL, co w interesujących nas przypadkach pozwala mu nie obliczać pozostałych 99 999 000 (a nawet jeszcze troszkę większej) – co z kolei pozostawia wyszukiwarce duży margines błędu, skoro i tak nikt nie będzie mógł sprawdzić jego rozmiarów.

Wszystkie opisane powyżej poszlaki pozwalają się domyślać, że Google Scholar, a prawdopodobnie również „zwykły ”Google, podają liczbę wszystkich otrzymanych wyników wyszukiwania jedynie w przybliżeniu, z nieznanym stopniem precyzji. Ten niuans, zupełnie marginalny w czasie codziennej eksploatacji wyszukiwarki, staje się nagle dla Orduna-Malei i López-Cózara (a za nimi również i dla nas) sprawą dość ważną. Narzędzie wykorzystywane do podawania liczby wszystkich zindeksowanych adresów URL na danej domenie (ew. wszystkich adresów określonego typu) może tę liczbę podawać niedokładnie. A właściwie na pewno tak właśnie robi – nasze domysły potwierdzają pracownicy Google:

"Pamiętaj, że licznik wyników w przypadku użycia operatora „site:” nie jest dobrym wskaźnikiem pokrycia Twojej strony w Google Scholar. Po pierwsze, ten operator aktualnie wyszukuje jedynie pierwotne wersje artykułów. Jeśli nie jesteś głównym/pierwotnym wydawcą [primary publisher], część artykułów zamieszczonych na Twej stronie może nie zostać wzięta pod uwagę. Po drugie, liczba wyników jest zazwyczaj oszacowana na podstawie przeszukania niewielkiej części indeksu (podawanie liczby wyników ma na celu pomoc użytkownikom w doborze zapytania, a nie sprawdzanie współczynników pokrycia). W rezultacie, szacunki te mogą nie być precyzyjne. Jeśli jesteś zaniepokojony tym, że licznik wyników dla Twojej strony jest niski, najlepiej potwierdzić problem z pomocą bardziej szczegółowego wyszukiwania. Zalecamy wyszukiwanie próby kilkudziesięciu artykułów z użyciem tytułów."

Mimo wszystko, z szeregu powodów zdecydowaliśmy się na wykorzystanie metody Orduna-Malei i López-Cózara. Po pierwsze, badanie wykonane tą metodą jest proste i relatywnie mało czasochłonne – warto je wykonać, nawet jeśli wyniki są nieco niedokładne (o ile oczywiście pamięta się o tej niedokładności). Po drugie, metoda polecana przez Google zamiast metody „site:” polega na wybraniu reprezentatywnej próby artykułów dostępnych na danej domenie i zbadaniu ich dostępności w Google Scholar. Jest to metoda obarczona własnym błędem pomiaru, poza tym Google nie dostarcza żadnej listy zmiennych, na podstawie których można by opracować próbę reprezentatywną. Po trzecie, jak to zaznaczymy za chwilę w części poświęconej omówieniu tabeli wyników, kontrolowaliśmy część wyników z pomocą Ranking Web of Repositories. Po czwarte, jeśli pomiar wykonany naszą metodą wykaże bardzo mało indeksowanych stron (lub w ogóle żadnej), a zdarzało się to dość często zarówno w przypadku polskich, jak i latynoamerykańskich repozytoriów, to jakiekolwiek zastrzeżenia o niedokładności metody usuwają się na dalszy plan – wynik taki jednoznacznie wskazuje na poważne trudności danego repozytorium w aspekcie indeksowalności w Google i Google Scholar.

Na marginesie warto zauważyć, jak daleką drogę przebył Google Scholar w ciągu 10 lat od premiery pod względem zaufania, jakim darzy się ten produkt. Z przedmiotu badań (niekiedy niezbyt przychylnych) stał się narzędziem badań. Dziś przywykliśmy już do pochwał pod adresem Google Scholar, traktujemy go jak normę, do której trzeba się przystosować, widzimy też, jak wielu naukowców korzysta z niego na co dzień. Być może tym bardziej należy przypominać, że typowa reakcja bibliotekarzy na Google Scholar wyglądała niegdyś inaczej (porównaj także ten przykład).

Krytyczne głosy pod adresem innych niż omówione tutaj aspektów działania Google Scholar zbiera np. M. Schultz w artykule Comparing test searches in PubMed and Google Scholar. Dociekliwi czytelnicy znajdą tam dalszą bibliografię dotyczącą tego tematu.

Ostatnią rzeczą, jaką warto wziąć pod uwagę przy interpretacji wyników prezentowanych w tym tekście, jest opóźnienie, z jakim Google i Google Scholar indeksują nowo zdeponowane zasoby. Z tego powodu przy obranej przez Orduna-Maleę i López-Cózara (oraz przez nas) metodzie pomiaru dyskryminowane są repozytoria szybko rosnące. Zasoby już widoczne w wewnętrznych statystykach, a jeszcze niewidoczne w Google będą stanowiły większą część zawartości niż w przypadku repozytoriów rosnących stosunkowo wolniej.

Additional information