Ten wpis na blogu był współautorem Paloma Marín Arraiza i Gabriela Mejias.
Ostatni piątek, ORCID skończył osiem lat i zbliżamy się do kolejnego ważnego kamienia milowego: 10 milionów ORCID identyfikatory! Jak co roku świętujemy naszą rocznicę i Tydzień Otwartego Dostępu, wydając nasze Plik danych publicznych.
Połączenia Plik danych publicznych 2020 zawiera migawkę wszystkich danych z rejestrów publicznych w formacie ORCID Rejestrze, jest publikowany pod a Zrzeczenie się CC0i jest bezpłatny dla wszystkich. Otwartość jest jedną z naszych fundamentalnych wartości i w ramach naszego zobowiązania do usuwania barier w dostępie udostępniamy plik, aby zapewnić wszystkim zainteresowanym stronom szeroki dostęp do istotnej części infrastruktury komunikacji naukowej. W momencie pisania, Plik danych publicznych 2019 został pobrany ponad 35,000 XNUMX razy.
Plik był używany w różnych projektach jako źródło danych do analizy relacji i indywidualnych trajektorii w ramach społeczności badawczej, migracji naukowych, sieci współpracy i przyjmowania ORCID w różnych dyscyplinach i lokalizacjach.
W jaki sposób społeczność korzysta z pliku?
Chcielibyśmy przedstawić trzy przykłady zastosowań Public Data File, które pomogą wzbogacić naukowe metadane/rekordy i zwizualizować powiązania.
dblp - Bibliografia informatyczna
dblp udostępnia otwarte informacje bibliograficzne dotyczące głównych czasopism i materiałów z dziedziny informatyki. W 2017 roku wystartowali wyświetlanie ORCID identyfikatory w bibliografiach i pojedynczych publikacjach. Wzbogacanie metadanych odbywa się poprzez zbieranie danych bezpośrednio od wydawców i łączenie ich z danymi uzyskanymi z publicznego pliku danych. Obecnie, 12% ich wpisów ma ORCID iD. Pokrycie wzrasta do 18% w przypadku publikacji z 2020 r. Dla czasopisma IEEE Control Systems Letters sięga 75%. W tym miejscu należy również podkreślić działalność popularyzatorską prowadzoną przez niemiecki ORCID konsorcjum promować używanie ORCID w tej bibliografii.
Laboratorium Humanistyki Cyfrowej – Instytut Historii Europejskiej im. Leibniza
Aby zwizualizować powiązania między autorami DHD 2020 (tj. konferencji humanistyki cyfrowej w przestrzeni niemieckojęzycznej), Laboratorium Humanistyki Cyfrowej posługiwało się nazwiskami autorów zaczerpniętymi z Księgi abstraktów, ORCID Pogodzić narzędzie OpenRefine i powiązania z ORCID identyfikatory według Zbioru Danych Publicznych. Po przetworzeniu danych i oczyszczeniu (pełny opis jest dostępny w języku niemieckim na tym blogu), dotarli do następującej sieci osób powiązanych:
Graficzna reprezentacja sieci osób-afiliacji na podstawie Księgi abstraktów 2020 i ORCID identyfikatory. 204 węzły (osoba: 110, kolor czerwony / instytucja: 94, kolor niebieski) i 183 krawędzie („powiązany z”).
Źródło: https://github.com/ieg-dhr/orcidgraph/blob/master/Orcidgraph.png i https://dhlab.hypotheses.org/1467.
Kod źródłowy skryptu można znaleźć w GitHub.
OpenAIR
Połączenia Wykres badania OpenAIRE to jedna z największych na świecie otwartych kolekcji dokumentacji naukowej, kluczowa dla wspierania otwartej nauki i tworzenia jej praktyk. Pomyślany jako dobro publiczne i przejrzyste, wypełniane ze źródeł danych, którym ufają naukowcy, Graph ma na celu oddanie odkrywania, monitorowania i oceny nauki z powrotem w ręce społeczności naukowej.
Przez ostatnie dziesięć lat OpenAIRE pracował nad montażem Kolekcja wykresów badawczych OpenAIRE metadanych i powiązań między produktami naukowymi, takimi jak artykuły, zbiory danych, oprogramowanie i inne produkty badawcze; podmioty, takie jak organizacje, podmioty finansujące, strumienie finansowania, projekty, społeczności i źródła danych. Na dzień dzisiejszy ta ogromna kolekcja gromadzi około 450 rekordów metadanych z linkami zbierającymi z ponad 10,000 13 źródeł danych, którym ufają naukowcy. Po oczyszczeniu, precyzyjnych procesach klasyfikacji, deduplikacji i wzbogaceniu poprzez eksplorację pełnotekstową (pełne teksty ~110Mi), dzisiaj Wykres liczy ~14Mi publikacji, ~200Mi zestawów danych, ~8K produktów badawczych oprogramowania, 1Mi innych produktów połączonych razem z ~XNUMXBi relacje semantyczne.
ORCID Dane są używane przez OpenAIRE do wzbogacania rekordów produktów badawczych na wykresie. OpenAire korzysta z naszego publicznego pliku danych i plik lambdy—generowany codziennie, ten plik zawiera listę wszystkich ORCID identyfikatory i data ich ostatniej modyfikacji. Następnie wykorzystuje nasz interfejs użytkownika do wywoływania rekordów, które zostały zmodyfikowane w celu zaimportowania nowych i zaktualizowanych metadanych z tych rekordów.
Integracja ta polega na: (i) dodawaniu ORCID iD do rekordów Crossref, które są częścią wykresu, (ii) importowanie rekordów metadanych z ORCID które nie posiadają DOI, (iii) propagowanie identyfikatorów z produktów na produkty, gdy relacje semantyczne między produktami uzasadniają takie działanie (np. jeśli metadane artykułu zawierają ORCID iD jest powiązany z rekordem metadanych zestawu danych za pośrednictwem relacji semantycznej DataCite „supplementedBy/isSupplementTo”). OpenAIRE może pośredniczyć we wszystkich źródłach danych dostarczających metadane do wykresu (np. repozytoria, wydawcy, repozytoria danych) ORCID Identyfikatory powiązane z powiązanymi rekordami.
Openaire był ORCID członkiem instytucjonalnym od początku 2020 r. i planuje ustanowienie dwukierunkowej wymiany danych poprzez wypełnienie ankiety ORCID Kreator wyszukiwania i łączenia (obecnie w fazie rozwoju).
Chcesz skorzystać z pliku danych publicznych?
Jeśli jesteś zainteresowany korzystaniem z pliku, możesz go pobrać ze strony ORCID magazyn. Tegoroczny plik jest dostępny w formacie XML i dodatkowo podzielony na osobne pliki dla łatwiejszego zarządzania. Jeden plik zawiera pełne podsumowanie rekordu dla każdego rekordu. Reszta danych jest podzielona na 11 plików, które zawierają czynności dla każdego rekordu, w tym pełne dane pracy. Jeśli wolisz JSON, możesz użyć naszego ORCID Biblioteka konwersji dostępna w naszym repozytorium Github. Konwerter jest aplikacją Java i umożliwia generowanie JSON z XML w wersji domyślnej ORCID format schematu wiadomości (v2.0 i v2.1).
Publikujemy plik danych publicznych na licencji CC0 1.0 Public Domain Dedication, a korzystanie z danych publicznych jest zgodne z naszą Polityką prywatności. Stworzyliśmy również zalecane normy wspólnotowe dotyczące korzystania z pliku.
Jeśli już korzystasz z pliku lub planujesz i masz pytania, daj nam znać o swoim przypadku użycia. Chcielibyśmy usłyszeć od ciebie!