Esta publicación de blog fue coautora de Paloma Marín Arraiza Gabriela Mejías.
El viernes pasado, ORCID cumplió ocho años y estamos a punto de alcanzar otro hito importante: 10 millones ORCID iDs! Como hacemos todos los años, estamos celebrando nuestro aniversario y la Semana del Acceso Abierto lanzando nuestro Archivo de datos públicos.
La directiva Archivo de datos públicos 2020 contiene una instantánea de todos los datos de registros públicos en el ORCID Registro, se publica bajo un Renuncia CC0y es gratuito para que todos lo utilicen. La apertura es uno de nuestros valores fundamentales y, como parte de nuestro compromiso de eliminar las barreras de acceso, publicamos el archivo para garantizar que todas las partes interesadas tengan un acceso amplio a una parte vital de la infraestructura de comunicación académica. En el momento de escribir este artículo, el Archivo de datos públicos 2019 se descargó más de 35,000 veces.
El archivo ha sido utilizado en diferentes proyectos como fuente de datos para el análisis de relaciones y trayectorias individuales dentro de la comunidad investigadora, migraciones científicas, redes de colaboración y adopción de ORCID en todas las disciplinas y ubicaciones.
¿Cómo está utilizando el archivo la comunidad?
Nos gustaría presentar tres ejemplos de usos de archivos de datos públicos para ayudar a enriquecer los metadatos / registros académicos y visualizar las conexiones.
dblp - Bibliografía informática
dblp proporciona información bibliográfica abierta sobre las principales revistas y actas de informática. En 2017, comenzaron mostrar ORCID identificaciones en bibliografías y publicaciones individuales. El enriquecimiento de metadatos se realiza recolectando datos directamente de los editores y combinándolos con los datos obtenidos del archivo de datos públicos. Actualmente, 12% de sus entradas tienen un ORCID iD. La cobertura sube al 18% para las publicaciones de 2020. Para la revista IEEE Control Systems Letters, alcanza el 75%. También es importante destacar aquí la labor de divulgación realizada por la Alemán ORCID consorcio para promover el uso de ORCID en esta bibliografía.
Laboratorio de Humanidades Digitales - Instituto Leibniz de Historia Europea
Visualizar las conexiones entre los autores de la HDD 2020 (es decir, la conferencia de humanidades digitales en el espacio de habla alemana), el Laboratorio de Humanidades Digitales utilizó los nombres de los autores extraídos del Libro de Resúmenes, el ORCID Conciliar herramienta de OpenRefine, y las afiliaciones de la ORCID iDs según el Archivo Público de Datos. Después del procesamiento y la limpieza de los datos (la descripción completa está disponible en alemán en este blog), llegaron a la siguiente red de afiliados personales:
Representación gráfica de la persona-afiliación-red basada en el Libro de resúmenes 2020 y ORCID iDs. 204 nodos (persona: 110, rojo / institución: 94, azul) y 183 bordes ("afiliados").
Fuente: https://github.com/ieg-dhr/orcidgraph/blob/master/Orcidgraph.png https://dhlab.hypotheses.org/1467.
El código fuente del script se puede encontrar en GitHub.
OpenAIRE
La directiva Gráfico de investigación de OpenAIRE es una de las colecciones de registros académicos abiertos más grandes del mundo, clave para fomentar la ciencia abierta y establecer sus prácticas. Concebido como un bien público y transparente, poblado a partir de fuentes de datos confiables por los científicos, el Gráfico tiene como objetivo devolver el descubrimiento, el monitoreo y la evaluación de la ciencia a las manos de la comunidad científica.
Durante los últimos diez años, OpenAIRE ha estado trabajando para ensamblar el Colección OpenAIRE Research Graph de metadatos y enlaces entre productos científicos como artículos, conjuntos de datos, software y otros productos de investigación; entidades como organizaciones, donantes, fuentes de financiación, proyectos, comunidades y fuentes de datos. A día de hoy, esta colección masiva agrega alrededor de 450Mi registros de metadatos con enlaces que recopilan más de 10,000 fuentes de datos confiables por los científicos. Después de la limpieza, los procesos de clasificación detallados, la deduplicación y el enriquecimiento a través de la minería de texto completo (~ 13Mi de textos completos), hoy el Graph cuenta con ~ 110Mi de publicaciones, ~ 14Mi de conjuntos de datos, ~ 200K productos de investigación de software, 8Mi de otros productos vinculados con ~ 1Bi relaciones semánticas.
ORCID OpenAIRE utiliza los datos para enriquecer los registros de productos de investigación del gráfico. OpenAire está utilizando nuestro archivo de datos públicos y archivo lambda: Generado a diario, este archivo contiene una lista de todos ORCID iD y su última fecha de modificación. Luego utiliza nuestra API de miembros para llamar a los registros que se han modificado para importar metadatos nuevos y actualizados de esos registros.
Esta integración consiste en: (i) agregar ORCID ID a registros de referencias cruzadas que forman parte del gráfico, (ii) importación de registros de metadatos de ORCID que no tienen un DOI, (iii) la propagación de ID de productos a productos cuando las relaciones semánticas entre productos justifican la acción (por ejemplo, si el registro de metadatos del artículo con un ORCID iD está vinculado a un registro de metadatos del conjunto de datos a través de una relación semántica de DataCite "suplementado por / esSuplementoTo"). OpenAIRE es capaz de actuar como intermediario con todas las fuentes de datos que aportan metadatos al gráfico (por ejemplo, repositorios, editores, repositorios de datos). ORCID ID asociados con los registros relacionados.
El abridor ha sido un ORCID miembro institucional desde principios de 2020 y está planeando establecer un intercambio de datos bidireccional al completar un ORCID Asistente de búsqueda y enlace (actualmente en desarrollo).
¿Está interesado en utilizar el archivo de datos públicos?
Si está interesado en utilizar el archivo, puede descargarlo del ORCID repositorio. El archivo de este año está disponible en formato XML y además está dividido en archivos separados para una gestión más sencilla. Un archivo contiene el resumen completo de cada registro. El resto de los datos se divide en 11 archivos que contienen las actividades de cada registro, incluidos los datos completos del trabajo. Si prefiere JSON, puede utilizar nuestro ORCID Biblioteca de conversión disponible en nuestro repositorio de Github. El convertidor es una aplicación Java y permite la generación de JSON a partir de XML en la versión predeterminada. ORCID formato de esquema de mensaje (v2.0 y v2.1).
Publicamos el archivo de datos públicos bajo una Dedicación de dominio público CC0 1.0, y el uso de los datos públicos está de acuerdo con nuestra Política de privacidad. También hemos creado normas comunitarias recomendadas para usar el archivo.
Si ya está utilizando el archivo, o planea hacerlo y tiene preguntas, háganos saber sobre su caso de uso. Nos encantaría saber de usted!