Jak poprawić widoczność rekordów w Google Scholar?

Opracowanie na podstawie webinarium Darcy Dapra z Google Scholar pt. Indexing Repositories: Pitfalls and Best Practices.

Wstęp

Google Scholar (GS) indeksuje publikacje za pomocą tzw. crawlerów, czyli robotów indeksujących. Jest to odmiana klasycznych robotów znanych ze zwykłej wyszukiwarki Google. Generalnie każdy robot Google postrzega stronę internetową nieco inaczej niż żywy użytkownik. Kluczowe dla problemu indeksacji publikacji naukowych różnice w tym zakresie można sprowadzić do kilku zasadniczych kwestii. Otóż roboty indeksujące GS:

  • widzą tylko tekstową warstwę strony (nie odczytują informacji zawartych w plikach graficznych, audio czy wideo);
  • nie mogą wypełniać żadnych formularzy, w tym formularzy używanych w trakcie wyszukiwania publikacji;
  • znajdują publikacje, jedynie podążając kolejnymi linkami dostępnymi w sekcji Przeglądaj (Browse);
  • nie mają dostępu do danych logowania lub, ogólniej, jakichkolwiek danych przesyłanych metodą POST;
  • nie mogą uruchamiać Javascriptu obecnego na stronie.

Gdy robot Google już znajdzie publikację (rekord z metadanymi zapisanymi w jednym ze standardów tagowania w HTML plus link do publikacji w PDF), publikacja zostaje rozpoznana jako naukowa. By zostałą poprawnie zindeksowana, publikacja musi więc być:

a) możliwa do znalezienia;

b) identyfikowalna jako publikacja naukowa.


Co utrudnia indeksowanie repozytoriów?

Problem nr 1: robot indeksujący nie dociera do artykułu

Robot indeksujący potrzebuje dostępu do URL wszystkich podstron zawierających metadane publikacji, które chcemy zindeksować, oraz do linków prowadzących do zawierających te publikacje plików. Ograniczenie może wynikać z:

  • braku możliwości użycia wyszukiwarek na stronie;
  • niemożności szybkiego linearnego przeszukania strony;
  • zapętlenia robota w labiryncie kolejnych linków lub jego utknięcia tam, gdzie ma on za dużo linków do sprawdzenia na raz.

Rozwiązanie: przygotuj listę artykułów wg schematu rok-miesiąc-artykuł – takie drzewko przeglądania ma optymalny kształt dla robota indeksującego, umożliwiając mu dostęp do wszystkich publikacji w stosunkowo niewielu krokach.

Problem nr 2: robot indeksujący nie może śledzić linków

a) z powodu blokady w pliku robots.txt;

b) z powodu komponentów Javascript i POST w nawigacji i adresie URL.

Rozwiązanie:

a) skonfiguruj plik robots.txt tak, aby umożliwić dostęp botowi indeksującemu:

  • usuń blokadę z pliku robots.txt;
  • upewnij się, że sekcja Przeglądaj (browse) nie jest blokowana dla robotów indeksujących.

b) używaj jedynie metody GET w linkach prowadzących do podstron zawierających publikacje:

  • przesyłanie danych metodą POST, jak również użycie w tym celu Javascriptu nie jest polecane – te opcje są poza zasięgiem robota indeksującego.


Problem nr 3: wyskakujące strony po kliknięciu adresu z rekordem ograniczające bezpośredni dostęp do dokumentu

Mogą to być np.:

  • wyskakujące okna
  • strony rejestracji / logowania
  • strony z regulaminem korzystania z serwisu
  • ankiety

Rozwiązanie: użytkownik po kliknięciu na link prowadzący do pliku powinien trafiać bezpośrednio do tego dokumentu, a nie być przekierowany – nawet chwilowo – do abstraktu albo na inną stronę, a już zwłaszcza na jakiekolwiek pop-upy czy strony rejestracji.

Problem nr 4: błędne metadane

Publikacje z błędnymi metadanymi lub z metadanymi niezgodnymi z danymi z innych źródeł mogą nie zostać zindeksowane nawet pomimo odnalezienia przez roboty indeksujące. Błędne metadane po prostu irytują użytkowników, a to nie leży w interesie Google.

4.1. Błędy w danych dotyczących autorów

4.1.1. Brak części autorów

Rozwiązanie: w metadanych umieszczaj wszystkich autorów

4.1.2. Niewłaściwa kolejność - niezgodna np. z informacjami na stronie wydawcy – w jakiej wymieniono autorów w metadanych

Rozwiązanie: dane autorów podawaj zawsze w takiej kolejności, w jakiej zostali wymienieni w samej publikacji (a nie np. alfabetycznej). Nawet jeśli używasz oddzielnego taga dla każdego z autorów, ich kolejność w pliku HTML ma znaczenie.

4.1.3. Podawanie w tagach przeznaczonych dla autorów artykułu danych innych osób.

Rozwiązanie: wprowadzaj tylko dane rzeczywistych autorów, a nie np. promotorów, opiekunów naukowych czy członków zespołów badawczych. Do oznaczenia podobnej kontrybucji w większości standardów metadanych przeznaczony jest inny tag. Np. w polecanym przez Google standardzie Highwire jest to "citation_contributor".

4.1.4. Dodawanie afiliacji w metadanych zawierających imiona i nazwiska autorów

Rozwiązanie: w polu "citation_author" podawaj wyłącznie imiona i nazwiska autorów, bez dodatkowych informacji, np. o afiliacji.

 

4.2. Data umieszczenia artykułu w repozytorium podana jako data publikacji

Rozwiązanie: wpisuj tylko datę oryginalnej publikacji. Dane z tagu "citation_date" są przez Google Scholar używane do automatycznego generowania cytowania dla użytkownika. Otrzymawszy błędnie wygenerowane cytowanie, użytkownik będzie skłonny obwiniać o ten fakt Google. Google woli zatem prewencyjnie nie zindeksować publikacji z podobnym błędem w metadanych.

4.3. format metadanych nie pozwala na wystarczająco precyzyjne i spójne opisanie artykułu

Na przykład Dublin Core nie przewiduje informacji o tytule czasopisma, numerze, woluminie czy stronach.

Rozwiązanie: korzystaj z takiego standardu metadanych, który umożliwia dokładny opis artykułu i w rezultacie jego poprawne zindeksowanie.

 

Na zakończenie przypominamy, że gwarancją dobrego indeksowania w GS są przede wszystkim poprawne opracowane metadane. Choć bowiem GS radzi sobie z błędami w rekordach, to jednak specjalnie odrzuca pozycje niestarannie opracowane. Nie chcąc irytować użytkowników, unika indeksowania rekordów, w których zauważa nieścisłości.

Zobacz prezentację Darcy Dapra w formacie PDF.

 

Additional information