Cet article de blog a été co-écrit par Paloma Marin Arraiza et votre Gabriela Méjias.
Vendredi dernier, ORCID eu huit ans, et nous sommes sur le point d'atteindre une autre étape importante : 10 millions ORCID ID ! Comme chaque année, nous célébrons notre anniversaire et la semaine du libre accès en publiant notre Fichier de données public.
Notre Fichier de données publiques 2020 contient un instantané de toutes les données d'enregistrement public dans le ORCID Registre, est publié sous un Renonciation CC0, et est gratuit pour tout le monde à utiliser. L'ouverture est l'une de nos valeurs fondamentales, et dans le cadre de notre engagement à éliminer les obstacles à l'accès, nous publions le dossier pour garantir que toutes les parties prenantes ont un large accès à une partie vitale de l'infrastructure de communication savante. Au moment de la rédaction, le Fichier de données publiques 2019 a été téléchargé plus de 35,000 XNUMX fois.
Le fichier a été utilisé dans différents projets comme source de données pour l'analyse des relations et des trajectoires individuelles au sein de la communauté de recherche, les migrations scientifiques, les réseaux de collaboration et l'adoption de ORCID à travers les disciplines et les lieux.
Comment la communauté utilise-t-elle le fichier ?
Nous aimerions présenter trois exemples d'utilisations de fichiers de données publiques pour aider à enrichir les métadonnées/enregistrements scientifiques et visualiser les connexions.
dblp – Bibliographie informatique
dblp fournit des informations bibliographiques ouvertes sur les principales revues et actes informatiques. En 2017, ils ont commencé afficher ORCID identifiants dans les bibliographies et les publications individuelles. L'enrichissement des métadonnées se fait en récoltant des données directement auprès des éditeurs et en les combinant avec les données obtenues à partir du fichier de données public. Actuellement, 12% de leurs entrées ont un ORCID iD. La couverture passe à 18% pour les publications 2020. Pour la revue IEEE Control Systems Letters, il atteint 75 %. Il est également important de souligner ici le travail de sensibilisation mené par le Allemand ORCID consortium promouvoir l'utilisation de ORCID dans cette bibliographie.
Digital Humanities Lab – Institut Leibniz d’histoire européenne
Pour visualiser les liens entre les auteurs du DH 2020 (c'est-à-dire la conférence des humanités numériques dans l'espace germanophone), le Digital Humanities Lab a utilisé les noms des auteurs extraits du Book of Abstracts, le ORCID Réconcilier l'outil d'OpenRefine, et les affiliations des ORCID iDs selon le fichier public de données. Après traitement et nettoyage des données (la description complète est disponible en allemand sur ce blog), ils ont atteint le réseau de personnes affiliées suivant :
Représentation graphique de la personne-affiliation-réseau basée sur le Book of Abstracts 2020 et ORCID identifiants. 204 nœuds (personne : 110, rouge / institution : 94, bleu) et 183 arêtes (« affilié à »).
Source: https://github.com/ieg-dhr/orcidgraph/blob/master/Orcidgraph.png et votre https://dhlab.hypotheses.org/1467.
Le code source du script se trouve dans GitHub.
À ciel ouvert
Notre Graphique de recherche OpenAIRE est l'une des plus grandes collections d'archives scientifiques ouvertes au monde, essentielle pour favoriser la science ouverte et établir ses pratiques. Conçu comme un bien public et transparent, alimenté à partir de sources de données auxquelles les scientifiques ont confiance, le Graph vise à remettre la découverte, la surveillance et l'évaluation de la science entre les mains de la communauté scientifique.
Depuis une dizaine d'années, OpenAIRE travaille à l'assemblage des Collection de graphiques de recherche OpenAIRE de métadonnées et de liens entre des produits scientifiques tels que des articles, des ensembles de données, des logiciels et d'autres produits de recherche ; des entités telles que des organisations, des bailleurs de fonds, des flux de financement, des projets, des communautés et des sources de données. À ce jour, cette collection massive regroupe environ 450 millions d'enregistrements de métadonnées avec des liens collectés à partir de plus de 10,000 13 sources de données auxquelles les scientifiques font confiance. Après le nettoyage, les processus de classification à grain fin, la déduplication et l'enrichissement via l'exploration de texte intégral (~110 Mi de textes intégraux), le Graph compte aujourd'hui ~14 Mi de publications, ~200 Mi d'ensembles de données, ~8K produits de recherche logicielle, 1 Mi d'autres produits liés avec ~XNUMXBi relations sémantiques.
ORCID Les données sont utilisées par OpenAIRE pour enrichir les fiches produits de recherche du graphe. OpenAire utilise notre fichier de données public et fichier lambda—généré quotidiennement, ce fichier contient une liste de tous ORCID les iD et leur dernière date de modification. Il utilise ensuite notre API membre pour appeler les enregistrements qui ont été modifiés afin d'importer des métadonnées nouvelles et mises à jour à partir de ces enregistrements.
Cette intégration consiste à : (i) ajouter ORCID les identifiants vers les enregistrements Crossref qui font partie du graphique, (ii) l'importation d'enregistrements de métadonnées à partir de ORCID qui n'ont pas de DOI, (iii) propager des ID de produits en produits lorsque les relations sémantiques entre les produits justifient l'action (par exemple si un enregistrement de métadonnées d'article avec un ORCID iD est lié à un enregistrement de métadonnées d'ensemble de données via une relation sémantique DataCite « supplementedBy/isSupplementTo »). OpenAIRE est capable de négocier avec toutes les sources de données contribuant aux métadonnées du graphique (par exemple, les référentiels, les éditeurs, les référentiels de données) le ORCID ID associés aux enregistrements associés.
Openaire a été un ORCID membre institutionnel depuis début 2020 et envisage d'établir un échange de données bidirectionnel en réalisant un ORCID Assistant de recherche et de lien (actuellement en développement).
Intéressé à utiliser le fichier de données public?
Si vous souhaitez utiliser le fichier, vous pouvez le télécharger à partir du ORCID dépôt. Le fichier de cette année est disponible au format XML et est ensuite divisé en fichiers séparés pour une gestion plus facile. Un fichier contient le résumé complet des enregistrements pour chaque enregistrement. Le reste des données est divisé en 11 fichiers qui contiennent les activités pour chaque enregistrement, y compris les données de travail complètes. Si vous préférez JSON, vous pouvez utiliser notre ORCID Bibliothèque de conversion disponible dans notre référentiel Github. Le convertisseur est une application Java et permet la génération de JSON à partir de XML dans la version par défaut ORCID format de schéma de message (v2.0 et v2.1).
Nous publions le fichier de données publiques sous un CC0 1.0 Public Domain Dedication, et l'utilisation des données publiques est conforme à notre politique de confidentialité. Nous avons également créé des normes communautaires recommandées pour utiliser le fichier.
Si vous utilisez déjà le fichier, ou prévoyez de l'utiliser et avez des questions, s'il vous plaît laissez-nous savoir sur votre cas d'utilisation. Nous aimerions recevoir de vos nouvelles!