Google Scholar a repozytoria i biblioteki cyfrowe w Polsce

 

A to Polska właśnie

W tym miejscu warto odnotować, jak w naszych badaniach staraliśmy się uwzględnić „polską specyfikę”.

A. Chociaż specyfika i przeznaczenie bibliotek cyfrowych i repozytoriów, przynajmniej w teorii, zasadniczo się od siebie różnią, to jednak w praktyce zarówno wykorzystanie tych dwóch rodzajów narzędzi, jak i ich nazewnictwo jest w Polsce wyraźnie przemieszane. Jak zauważają autorzy raportu Otwarta nauka w Polsce 2014. Diagnoza, „[o]dbiorcy dyskursu dotyczącego otwartych zasobów naukowych w Polsce mogą doświadczyć konfuzji, próbując rozgraniczyć repozytoria naukowe od bibliotek cyfrowych”. W takiej sytuacji istnieje duża pokusa, by w celu uniknięcia konfuzji nie rozgraniczać obu narzędzi – nie bylibyśmy pierwsi.

Niestety, w interesującym nas tutaj kontekście widoczności w Google Scholar różnice między bibliotekami cyfrowymi a repozytoriami stają się szczególnie wyraźne. Choć Google nigdzie nie pisze, jak to dokładnie robi, to jednak wiadomo powszechnie, że Google Scholar indeksuje jedynie zasoby naukowe. Tymczasem zasoby takie mogą być jedynie ułamkiem, niekiedy bardzo nikłym, zasobów biblioteki cyfrowej. Istnieje duże prawdopodobieństwo przypadków, w których zasoby skądinąd naukowe mogłyby nie zostać zindeksowane, ponieważ robot Google nie znalazł ich wśród przeważającej części zasobów z zakresu kultury i dziedzictwa. W każdym przypadku zaniżenie współczynnika indeksowalności w Google Scholar jest niemal pewne. Ponadto, ze względu na różnorodny charakter multimediów przechowywanych w przynajmniej niektórych bibliotekach cyfrowych, mierzenie dostępności wyłącznie plików PDF mogłoby się okazać niewystarczające nawet w „zwykłym” Google.

Z drugiej strony, wśród w sumie 25 domen uwzględnionych w obu edycjach Ranking Web of Repositories, którym się przyglądaliśmy, aż 14 mieściło biblioteki cyfrowe, a nie repozytoria. Oznacza to, że przynajmniej 14 spośród polskich bibliotek cyfrowych chce być porównywanych z repozytoriami. Nie widzimy powodu, dla którego mielibyśmy im tego odmówić, skoro nie odmówiło im tego Webometrics. Zresztą biblioteki te spełniają przecież po części funkcje repozytoriów.

Ostatecznie, zdecydowaliśmy się uwzględnić w badaniach tylko te biblioteki cyfrowe, które zgłosiły się do Ranking Web of Repositories (zaznaczając jednocześnie, jeśli zakwalifikowaliśmy jakieś narzędzie jako bibliotekę cyfrową). Dlatego w wynikach znajdzie Czytelnik tak niewielkie obiekty, jak Biblioteka Cyfrowa Ośrodka Rozwoju Edukacji (lub repozytorium eRIKA), nie znajdzie natomiast Wielkopolskiej Biblioteki Cyfrowej czy Polony.

B. Było naszą najlepsza intencją, by w obliczaniu współczynników indeksowalności uwzględnić format plików DjVu, o którym wiadomo, że jest stosunkowo szeroko rozpowszechniony w polskich repozytoriach i bibliotekach cyfrowych. W tym celu w tabeli wyników znajdowały się początkowo kolumny wskazujące ilość indeksowanych plików DjVu, zaś do obliczania współczynnika miała być brana pod uwagę suma plików PDF i DjVu. Niestety, okazało się, że Google Scholar w ogóle nie indeksuje plików w tym formacie. Co więcej, dodanie statystki DjVu dla Google okazałoby się mnożeniem kolumn bez znaczącego wzbogacenia treści: wynik różny od zera uzyskaliśmy tylko w 6 przypadkach i tylko w jednym z nich rezultat zbliżył się do bariery 100.

Już sam ten rezultat może zaniepokoić: jeden z najpowszechniej wykorzystywanych przez polskie biblioteki cyfrowe formatów nie ma praktycznie żadnej reprezentacji ani w Google, ani w Google Scholar. Rezultaty naszych badań prezentujemy w tabeli 2. Oto omówienie znaczenia poszczególnych kolumn i konwencji, jakie stosowaliśmy:

  • Nazwa: Pola tej kolumny zawierają nazwę opisywanego w danym wierszu repozytorium. Jeśli w użyciu jest skrót zastępujący pełną nazwę, używaliśmy tego skrótu. W pozostałych przypadkach skracaliśmy nazwy uczelni oraz często powtarzające sie elementy: "Repozytorium" do "Rep.", "Biblioteka Cyfrowa" do "BC".
  • Domain: Pola tej kolumny zawierają adres domeny opisywanego w danym wierszu repozytorium. To ta nazwa używana była jako podstawa zapytań wykonywanych w wyszukiwarkach.
  • Items: Pole tej kolumny zawierają liczbę rekordów zdeponowanych w opisywanym w danym wierszu repozytorium, będącą podstawą wyliczania wszystkich współczynników widoczności. Wartość każdego pola w tej kolumnie została uzyskana na podstawie informacji dostępnych na stronie danego repozytorium lub biblioteki cyfrowej.
  • Scholar / Pages: Szacowana liczba wyników, jakie zwraca Google Scholar dla zapytania "site:nazwa.domeny".
  • Scholar / Pages %: Wartość pola "Scholar Pages" podzielona przez 0.01 * wartość pola
  • "Items" Scholar / PDF: Szacowana liczb wyników, jakie zwraca Google Scholar dla zapytania "site:nazwa.domeny filetype:pdf".
  • Scholar / PDF %: Wartość pola "Scholar PDF" podzielona przez 0.01 * wartość pola "Items".
  • Google / Pages: Szacowana liczba wyników, jakie zwraca Google dla zapytania "site:nazwa.domeny"[16].
  • Google / PDF: Szacowana liczba wyników, jakie zwraca Google dla zapytania "site:nazwa.domeny filetype:pdf".
  • Google / PDF %: Wartość pola "Google PDF" podzielona przez 0.01 * wartość pola "Items".
  • System: Nazwa oprogramowania, w jakim napisane zostało dane repozytorium.
  • RWoR: Pozycja w Ranking Web of Repositories, jakie zajmowało dane repozytorium pod względem widoczności w Google Scholar w – odpowiednio do grupy – 14. lub 15. edycji. Wartość tę należy traktować jako sposób weryfikacji metody tu stosowanej, gdyż Ranking Web of Repositories stara się zmierzyć to samo, co my i autorzy The dark side... .
  • Group: Pomiary dla repozytoriów i bibliotek cyfrowych z grupy A zostały przeprowadzone 8 lipca 2014 roku. Pozycja w Ranking Web of Repositories podana dla tych repozytoriów dotyczy jego 14. edycji. Pomiary dla repozytoriów z grupy B zostały przeprowadzone 21 i 22 lipca 2014 roku. Pozycja w Ranking Web of Repositories podana dla tych repozytoriów dotyczy jego 15. edycji. Pomiary dla repozytoriów z grupy C zostały przeprowadzone 25 lipca 2014 roku, a z grupy D – 20 sierpnia 2014 roku. Repozytoria z tych dwóch grup nie występują w Ranking Web of Repositories - informacje o nich zostały z raportu Centrum Otwartej Nauki „Otwarta Nauka w Polsce 2014. Diagnoza”.
  • BC: Jeśli wymienione w danym wierszu narzędzie zostało zakwalifikowane jako biblioteka cyfrowa (w odróżnieniu od repozytorium), zaznaczyliśmy to w polu tej kolumny.

[Tabela 2]

Additional information