Literatura naukowa jest pomostem od informacji do wiedzy

Wierzymy, że nowatorskie narzędzia i aplikacje służące do maszynowej analizy tekstu i danych (text and data mining) pozwolą nam wzbogacić udostępniane przez nas treści i zmienią sposób, w jaki czytelnicy korzystają z literatury naukowej. Z tego względu staramy się budować Europe PMC na zasadach otwartej platformy innowacyjnej, umożliwiając twórcom – na przykład osobom zajmującym się maszynową analizą tekstów albo rozwojem oprogramowania – by prezentowali efekty swoich prac.

Maria Levchenko odpowiada za komunikację Europe PubMed Central, ogólnoświatowej bazy publikacji naukowych dotyczących badań biomedycznych i nauk o życiu, partnera PubMed Central International.

 

Marta Hoffman-Sommer: Europe PubMed Central (Europe PMC) to repozytorium publikacji z obszaru nauk o życiu. Jakie są najważniejsze cele Europe PMC? Czym różni się to repozytorium od serwisów PubMed i PubMed Central? Czy z punktu widzenia europejskiego naukowca korzystanie z Europe PMC ma jakieś przewagi nad korzystaniem z innych serwisów?

Misją Europe PMC jest stworzenie otwartego, pełnotekstowego zasobu literatury naukowej i dostarczenie użytkownikom światowej klasy serwisu do jego obsługi. Wierzymy, że nowatorskie narzędzia i aplikacje służące do maszynowej analizy tekstu i danych (text and data mining) pozwolą nam wzbogacić udostępniane przez nas treści i zmienią sposób, w jaki czytelnicy korzystają z literatury naukowej. Z tego względu staramy się budować Europe PMC na zasadach otwartej platformy innowacyjnej, umożliwiając twórcom – na przykład osobom zajmującym się maszynową analizą tekstów albo rozwojem oprogramowania – by prezentowali efekty swoich prac.

Europe PMC należy do inicjatywy PubMed Central International (PMCI). Wspólnie z PMC USA i PMC Canada tworzymy sieć cyfrowych archiwów, których zadaniem jest zapewnienie wszystkim darmowego dostępu do opublikowanej, recenzowanej literatury naukowej z obszaru nauk o zdrowiu i nauk biomedycznych. W ramach tej sieci wymieniamy się zasobami – lokalnie deponowanymi tekstami artykułów – a jednocześnie każde archiwum oferuje swoim użytkownikom inne funkcjonalności. Europe PMC łączy w sobie zalety zarówno PubMed jak i PubMed Central, bo działamy w modelu one-stop shop, oferując dostęp zarówno do abstraktów, jak i do pełnych tekstów artykułów poprzez wspólny interfejs wyszukiwania. Poza tym Europe PMC udostępnia treści bardzo różnego rodzaju, takie jak na przykład książki, patenty, prace dyplomowe z nauk biomedycznych i zalecenia diagnostyczno-lecznicze. Oprócz 27 milionów abstraktów z PubMed, Europe PMC uwzględnia również dodatkowe źródła danych, takie jak Chinese Biological Abstracts oraz  Agricola records, dzięki czemu osiąga w sumie 32 miliony abstraktów. Europe PMC różni się od PubMed Central także tym, że oferuje kilka nowych funkcjonalności, w tym zaawansowane narzędzia do maszynowej analizy tekstu i danych, integrację identyfikatorów ORCID – unikalnych identyfikatorów nadawanych przez fundację ORCID, służących do jednoznacznej identyfikacji autorów naukowych, oraz funkcję Grant Finder, która pozwala dotrzeć do informacji dotyczących grantów przyznawanych przez 27 instytucji z całego świata finansujących badania z obszaru nauk o życiu, które wspierają Europe PMC. Informacje o nowych funkcjonalnościach są podawane na blogu Europe PMC.

Prezentowane w Europe PMC treści nie są w żaden sposób ograniczone geograficznie i zawierają literaturę naukową ze wszystkich części  globu. Mamy nadzieję, że naukowcy z całego świata będą korzystać z naszych usług.

Czy są jakieś związki pomiędzy Europe PMC i OpenAIRE (albo innymi e-infrastrukturami naukowymi w Europie)? Czy prowadzona jest wymiana danych i/lub metadanych?

Europe PMC jest największym dostarczycielem danych w infrastrukturze OpenAIRE, dostarczamy ponad 3.8 milionów dokumentów. OpenAIRE korzysta ponadto z otwartego API i innych publicznych narzędzi Europe PMC w celu identyfikowania wyników badań finansowanych z programów 7PR i Horyzont 2020, oraz żeby zbierać powiązane z nimi metadane. Poza tym prowadzony przez Europe PMC serwis External Links Service jest wykorzystywany przez OpenAIRE i inne podobne infrastruktury do linkowania rekordów z Europe PMC z innymi źródłami, na przykład z pełnymi tekstami artykułów, które OpenAIRE pobiera z innych repozytoriów.

W jaki sposób konkretne treści trafiają do Europe PMC? Czy każdy autor artykułu z obszaru nauk o życiu – który chciałby, aby jego prace były bardziej widoczne – może samodzielnie zdeponować swój artykuł w Europe PMC? Jeżeli nie, to jakie wymagania musiałby spełnić i dlaczego?

Jest kilka sposobów na to, by artykuł trafił do Europe PMC. Jeżeli wydawca czasopisma jest pełnoprawnym członkiem Europe PMC, to sam deponuje całą zawartość każdego numeru lub tomu, a w przypadku czasopism hybrydowych deponuje te artykuły, które są publikowane w otwartym dostępie.

Instytucje grantowe należące do grupy Europe PMC Funders' Group nakładają na swoich grantobiorców zobowiązanie, zgodnie z którym wszystkie opublikowane wyniki naukowe, uzyskane dzięki finansowaniu z ich grantów, muszą być dostępne w Europe PMC, zazwyczaj nie później niż 6 miesięcy po opublikowaniu. Tak więc każdy naukowiec, który uzyskał finansowanie od co najmniej jednej instytucji z grupy  Europe PMC Funders, może zdeponować ostateczną (po recenzjach) wersję swojego manuskryptu poprzez serwis Europe PMC plus. Niektórzy wydawcy sami deponują ostateczne, porecenzyjne wersje manuskryptów w imieniu swoich autorów, jeżeli w artykule jako źródło finansowania podane są środki od którejś z instytucji należących do grupy.

Jeżeli więc konkretny naukowiec chciałby, żeby jego artykuł był dobrze widoczny, to najprostszym rozwiązaniem jest wybranie otwartego czasopisma, które jest członkiem PMC – wtedy pełny tekst artykułu automatycznie trafi do Europe PMC. Lista czasopism, które mają podpisaną z PMC umowę członkowską, jest dostępna tutaj.

W jaki sposób Europe PMC wzbogaca prezentowaną literaturę naukową?

Uważamy, że literatura tworzy pomost dla szerszych infrastruktur naukowych, pomagając w łączeniu powiązanych informacji i ułatwiając przekształcanie ich w wiedzę. Aby zrealizować tę wizję, skupiamy się na trzech głównych kierunkach: usługach dla autorów, integracji danych i maszynowej analizie tekstu.

Blisko współpracujemy z fundacją ORCID aby zapewnić, że każdy artykuł jest poprawnie powiązany z właściwymi autorami. Nasze zasoby można przeszukiwać za pomocą identyfikatora ORCID, aby zidentyfikować wszystkie artykuły danego autora. Dostarczamy też narzędzie pozwalające naukowcom ręcznie przypisać konkretny artykuł do swojego konta ORCID – do chwili obecnej ponad 350 tysięcy naukowców skorzystało z tego narzędzia by przypisać prawie 3,5 miliona artykułów. Dla osób posiadających konta ORCID generujemy ponadto indywidualne profile z wykresami pokazującymi liczbę publikacji i cytowań oraz jak wiele artykułów zostało opublikowanych w otwartym dostępie. Dołączamy również linki do innych powiązanych zasobów – na przykład do serwisów prezentujących alternatywne wskaźniki bibliometryczne (alternative metrics), do popublikacyjnych recenzji eksperckich z serwisu Publon, czy do pisanych przez laików streszczeń w serwisie Kudos lub w Wikipedii. Dzięki temu każdy naukowiec może zaprezentować swoją pracę na wiele sposobów.

Tworzenie powiązań między danymi badawczymi a literaturą naukową to istotny aspekt naszej działalności. Publikacje znajdujące się w Europe PMC są automatycznie linkowane do rekordów w wielu bazach danych, na przykład w Uniprot, European Nucleotide Archive (ENA) czy Protein Data Bank Europe (PDBe); lista linkowanych baz stale rośnie. Aby ułatwić wyszukiwanie informacji, korzystamy z metod maszynowej analizy tekstu i tworzymy linki bezpośrednio łączące wspominane w tekście obiekty biologiczne lub cytowane zbiory danych z odpowiednimi rekordami w innych bazach.

Aby ułatwić naukowcom i kuratorom baz danych korzystanie z literatury, stworzyliśmy SciLite, narzędzie do maszynowej analizy tekstu. SciLite zaznacza w tekście zidentyfikowane obiekty biologiczne i prezentuje ich anotacje w postaci informacji nałożonej na artykuł naukowy w Europe PMC. Anotacje zawierają linki do odpowiednich baz danych, dzięki czemu użytkownik może z łatwością zlokalizować powiązane dane. SciLite ułatwia przeglądanie artykułów w poszukiwaniu najważniejszych punktów i pozwala szybko uchwycić najistotniejszy aspekt danego artykułu.

Europe PMC prezentuje literaturę naukową powiązaną z zasobami z wielu różnych medycznych i biologicznych baz danych, które opracowują dane (curated databases), ale również powiązaną poprzez numery DOI z cytowanymi w artykułach zbiorami danych. Te zbiory danych mogą być zlokalizowane w repozytoriach, które przechowują dane deponowane bezpośrednio przez autorów, bez etapu opracowania przez kuratora bazy (uncurated datasets), np. Zenodo, Dryad, Figshare. Jak często cytowane są zbiory tego typu? Jakie są Państwa przewidywania co do przyszłości repozytoriów danych udostępniających nieopracowywane zbiory danych – czy będą odgrywać znaczącą rolę w naukach o życiu?

Repozytoria udostępniające nieopracowywane zbiory danych są często tak skonstruowane, że nacisk jest położony na pochodzenie danych, w odróżnieniu od baz opracowujących dane, które kładą nacisk na strukturę danych, która jest tak skonstruowana, by jak najłatwiej było dane ponownie wykorzystać. Może to być przyczyną różnic we wskaźnikach cytowań dla danych opracowywanych i nieopracowywanych. Obecnie w Europe PMC jest znacznie więcej artykułów linkujących do rekordów z PDBe niż do rekordów z Dryad (98 000 vs 11 000). Dopiero z czasem okaże się, czy tempo cytowania nieopracowywanych danych wzrośnie.

Jednak repozytoria, które nie opracowują przyjmowanych danych, są niezbędne, gdyż pozwalają przechowywać dane w formatach, których nie da się łatwo włączyć w istniejące ustrukturyzowane archiwa danych. Brak struktury ma jednak swoją cenę: ilość zgromadzonych danych biologicznych rośnie wykładniczo, a jednocześnie dane te są coraz bardziej pofragmentowane i coraz silniej rozproszone w różnych miejscach. W EMBL-EBI działa nowy serwis, którego celem jest poradzenie sobie z tym problemem: jest to baza BioStudies, która oferuje rodzaj kontenera, zawierającego wszystkie dane z pojedynczego projektu badawczego, dzięki czemu dane te są łatwe do znalezienia i do ponownego wykorzystania. Są tam zarówno linki do zbiorów danych z uznanych repozytoriów, jak i nieustrukturyzowane zbiory danych. Takie podejście jest szczególnie korzystne w przypadku eksperymentów multi-omicznych (multi-omics), w których wytwarzanych jest wiele różnych rodzajów danych. W Europe PMC tworzymy linki prowadzące od artykułów naukowych do rekordów w bazie BioStudies, a także dołączamy identyfikatory rekordów oraz dostarczamy przeanalizowane maszynowo pliki dodatkowe (supplemental information). Wierzymy, że dzięki skupieniu się wyłącznie na naukach o życiu oraz dzięki swojej elastycznej strukturze baza BioStudies lepiej się dopasuje do potrzeb społeczności akademickiej niż repozytoria ogólne, służące wszystkim dziedzinom nauki.

Czy uważa Pani, że model działania PMC International sprawdziłby się również w innych obszarach nauki (np. w naukach humanistycznych lub społecznych), czy też każda społeczność naukowa powinna wypracować własny model działania baz literaturowych?

PMC International przyjęło system wypracowany pierwotnie przez dostawców danych genetycznych. Według tego modelu działa na przykład International Nucleotide Sequence Database Collaboration, w skład której wchodzą European Nucleotide Archive prowadzony przez European Molecular Biology Laboratory (EMBL), japoński DNA DataBank (DDBJ), oraz amerykański GenBank prowadzony przez NCBI. Wszystkie trzy bazy regularnie wymieniają się zdeponowanymi danymi, a jednocześnie swoim użytkownikom oferują różne interfejsy i różne funkcjonalności, dopasowane do oczekiwań lokalnych społeczności naukowych. System tego rodzaju zapewnia stabilność archiwów i bezpieczeństwo przechowywanych informacji, a jednocześnie umożliwia wzbogacanie zdeponowanych treści lokalnymi wskazówkami i dodatkowymi zasobami. Naszym zdaniem taki układ ma zalety dla  wszystkich osób zaangażowanych w proces badawczy, gdyż zapewnia swobodny wybór preferowanego źródła danych.

 

 

Additional information