Questo post del blog è stato co-autore di Paloma Marín Arraiza ed Gabriela Mejias.
Venerdì scorso, ORCID compie otto anni, e stiamo per raggiungere un altro importante traguardo: 10 milioni ORCID ID! Come ogni anno, celebriamo il nostro anniversario e la Open Access Week rilasciando il nostro File di dati pubblici.
I File di dati pubblici 2020 contiene un'istantanea di tutti i dati del registro pubblico nel ORCID Registro, è pubblicato sotto a CC0 rinuncia, ed è gratuito per tutti. L'apertura è uno dei nostri valori fondamentali e, come parte del nostro impegno per rimuovere le barriere all'accesso, pubblichiamo il file per garantire che tutte le parti interessate abbiano ampio accesso a una parte vitale dell'infrastruttura di comunicazione accademica. Al momento della scrittura, il File di dati pubblici 2019 è stato scaricato più di 35,000 volte.
Il file è stato utilizzato in diversi progetti come fonte di dati per l'analisi delle relazioni e delle traiettorie individuali all'interno della comunità di ricerca, le migrazioni scientifiche, le reti di collaborazione e l'adozione di ORCID tra discipline e luoghi.
In che modo la comunità utilizza il file?
Vorremmo presentare tre esempi di utilizzo di Public Data File per aiutare ad arricchire metadati/record accademici e visualizzare le connessioni.
dblp – Bibliografia informatica
doppia fornisce informazioni bibliografiche aperte sulle principali riviste e atti di informatica. Nel 2017 hanno iniziato visualizzazione ORCID iD nelle bibliografie e nelle singole pubblicazioni. L'arricchimento dei metadati avviene raccogliendo i dati direttamente dagli editori e combinandoli con i dati ottenuti dal file di dati pubblico. Attualmente, Il 12% delle loro voci ha an ORCID iD. La copertura sale al 18% per le pubblicazioni del 2020. Per la rivista IEEE Control Systems Letters, raggiunge il 75%. È importante anche qui evidenziare il lavoro di sensibilizzazione svolto dal Tedesco ORCID consorzio promuovere l'uso di ORCID in questa bibliografia.
Digital Humanities Lab – Istituto Leibniz per la storia europea
Per visualizzare le connessioni tra gli autori del DH 2020 (vale a dire, la conferenza di digital humanities nello spazio germanofona), il Digital Humanities Lab ha utilizzato i nomi degli autori estratti dal Book of Abstracts, il ORCID Riconciliare strumento di OpenRefine e le affiliazioni del ORCID iD secondo il Public Data File. Dopo l'elaborazione e la pulizia dei dati (la descrizione completa è disponibile in tedesco su questo blog), hanno raggiunto la seguente rete di affiliazione personale:
Rappresentazione grafica della rete di affiliazione persona basata sul Book of Abstracts 2020 e ORCID ID. 204 nodi (persona: 110, rosso / istituzione: 94, blu) e 183 bordi ("affiliato a").
Fonte: https://github.com/ieg-dhr/orcidgraph/blob/master/Orcidgraph.png ed https://dhlab.hypotheses.org/1467.
Il codice sorgente dello script può essere trovato in GitHub.
ApriAIRE
I Grafico di ricerca OpenAIRE è una delle più grandi raccolte di documenti accademici aperti in tutto il mondo, fondamentale per promuovere la scienza aperta e stabilire le sue pratiche. Concepito come un bene pubblico e trasparente, popolato da fonti di dati attendibili dagli scienziati, il Graph mira a riportare la scoperta, il monitoraggio e la valutazione della scienza nelle mani della comunità scientifica.
Negli ultimi dieci anni, OpenAIRE ha lavorato per assemblare il Raccolta di grafici di ricerca OpenAIRE di metadati e collegamenti tra prodotti scientifici come articoli, set di dati, software e altri prodotti di ricerca; entità come organizzazioni, finanziatori, flussi di finanziamento, progetti, comunità e fonti di dati. Ad oggi, questa massiccia raccolta aggrega circa 450 record di metadati con collegamenti che raccolgono da oltre 10,000 fonti di dati affidabili dagli scienziati. Dopo la pulizia, i processi di classificazione a grana fine, la deduplica e l'arricchimento tramite full-text mining (~13Mi di testi completi), oggi Graph conta ~110Mi di pubblicazioni, ~14Mi di set di dati, ~200K di prodotti di ricerca software, 8Mi di altri prodotti collegati tra loro ~1Bi relazioni semantiche.
ORCID i dati vengono utilizzati da OpenAIRE per arricchire i record del prodotto di ricerca del grafico. OpenAire sta utilizzando il nostro file di dati pubblici e file lambda—generato giornalmente, questo file contiene un elenco di tutti ORCID ID e la loro ultima data di modifica. Quindi utilizza la nostra API per i membri per chiamare i record che sono stati modificati per importare metadati nuovi e aggiornati da quei record.
Questa integrazione consiste in: (i) aggiunta ORCID ID a record Crossref che fanno parte del grafico, (ii) importazione di record di metadati da ORCID che non hanno un DOI, (iii) propagare iD dai prodotti ai prodotti quando le relazioni semantiche tra i prodotti giustificano l'azione (ad es. se i metadati dell'articolo sono registrati con un ORCID iD è collegato a un record di metadati del set di dati tramite una relazione semantica DataCite "supplementedBy/isSupplementTo"). OpenAIRE è in grado di trasmettere a tutte le fonti di dati che contribuiscono i metadati al grafo (es. repository, editori, repository di dati) i ORCID ID associati ai record correlati.
Openaire è stato un ORCID membro istituzionale dall'inizio del 2020 e sta progettando di stabilire uno scambio di dati bidirezionale completando un ORCID Ricerca e collegamento guidata (attualmente in fase di sviluppo).
Interessato a utilizzare il file di dati pubblici?
Se sei interessato a utilizzare il file, puoi scaricarlo dal ORCID deposito. Il file di quest'anno è disponibile in formato XML ed è ulteriormente suddiviso in file separati per una gestione più semplice. Un file contiene il riepilogo completo dei record per ciascun record. Il resto dei dati è suddiviso in 11 file che contengono le attività per ogni record inclusi i dati completi del lavoro. Se preferisci JSON, puoi utilizzare il nostro ORCID Libreria di conversione disponibile nel nostro repository Github. Il convertitore è un'applicazione Java e consente la generazione di JSON da XML nella versione predefinita ORCID formato dello schema del messaggio (v2.0 e v2.1).
Rilasciamo il file di dati pubblici sotto CC0 1.0 Public Domain Dedication e l'uso dei dati pubblici è conforme alla nostra Informativa sulla privacy. Abbiamo anche creato norme comunitarie consigliate per utilizzare il file.
Se stai già utilizzando il file, o hai intenzione di farlo e hai domande, per favore facci sapere del tuo caso d'uso. Ci piacerebbe sentire la tua opinione!