Esta postagem do blog foi escrita em coautoria por Paloma Marín Arraiza e Gabriela Mejías.
Última sexta-feira, ORCID completou oito anos e estamos prestes a atingir outro marco importante: 10 milhões ORCID IDs! Como fazemos todos os anos, estamos comemorando nosso aniversário e a Semana de Acesso Aberto com o lançamento de nosso Arquivo de dados públicos.
A Arquivo de dados públicos de 2020 contém um instantâneo de todos os dados de registros públicos no ORCID Registro, é publicado sob um Renúncia CC0, e é gratuito para todos. A abertura é um dos nossos valores fundamentais e, como parte do nosso compromisso de remover barreiras ao acesso, liberamos o arquivo para garantir que todos os interessados tenham amplo acesso a uma parte vital da infraestrutura de comunicação científica. No momento da escrita, o Arquivo de dados públicos de 2019 foi baixado mais de 35,000 vezes.
O arquivo tem sido usado em diferentes projetos como uma fonte de dados para a análise de relações e trajetórias individuais dentro da comunidade de pesquisa, migrações científicas, redes de colaboração e a adoção de ORCID entre disciplinas e locais.
Como a comunidade está usando o arquivo?
Gostaríamos de apresentar três exemplos de usos de arquivos de dados públicos para ajudar a enriquecer metadados / registros acadêmicos e visualizar conexões.
dblp - Bibliografia da ciência da computação
dblp fornece informações bibliográficas abertas sobre os principais periódicos e procedimentos de ciência da computação. Em 2017, eles começaram exibindo ORCID IDs em bibliografias e publicações individuais. O enriquecimento de metadados é feito através da coleta de dados diretamente dos editores e combinando-os com os dados obtidos do arquivo de dados públicos. Atualmente, 12% de suas entradas têm um ORCID iD. A cobertura sobe até 18% para as publicações de 2020. Para a revista IEEE Control Systems Letters, chega a 75%. Também é importante destacar aqui o trabalho de divulgação realizado pela Alemão ORCID consórcio para promover o uso de ORCID nesta bibliografia.
Laboratório de Humanidades Digitais - Instituto Leibniz de História Europeia
Para visualizar as conexões entre os autores do DH 2020 (ou seja, a conferência de humanidades digitais no espaço de língua alemã), o Laboratório de Humanidades Digitais usou os nomes dos autores extraídos do Livro de Resumos, o ORCID Conciliar ferramenta do OpenRefine, e as afiliações do ORCID IDs de acordo com o arquivo de dados públicos. Após o processamento e limpeza dos dados (a descrição completa está disponível em alemão neste blog), eles alcançaram a seguinte rede de afiliados pessoais:
Representação gráfica da rede de afiliação de pessoa com base no Livro de Resumos 2020 e ORCID IDs. 204 nós (pessoa: 110, vermelho / instituição: 94, azul) e 183 arestas (“afiliado a”).
Fonte: https://github.com/ieg-dhr/orcidgraph/blob/master/Orcidgraph.png e https://dhlab.hypotheses.org/1467.
O código-fonte do script pode ser encontrado em GitHub.
OpenAIREGenericName
A Gráfico de pesquisa OpenAIRE é uma das maiores coleções abertas de registros acadêmicos do mundo, fundamental para promover a Ciência Aberta e estabelecer suas práticas. Concebido como um bem público e transparente, povoado de fontes de dados confiáveis por cientistas, o Graph visa trazer a descoberta, o monitoramento e a avaliação da ciência de volta às mãos da comunidade científica.
Nos últimos dez anos, OpenAIRE tem trabalhado para montar o Coleção OpenAIRE Research Graph de metadados e links entre produtos científicos, como artigos, conjuntos de dados, software e outros produtos de pesquisa; entidades como organizações, financiadores, fluxos de financiamento, projetos, comunidades e fontes de dados. A partir de hoje, essa coleção massiva agrega cerca de 450 Mi registros de metadados com links que coletam mais de 10,000 fontes de dados confiáveis por cientistas. Após a limpeza, processos de classificação refinados, desduplicação e enriquecimento por meio de mineração de texto completo (textos completos de ~ 13Mi), hoje o Graph conta com ~ 110Mi publicações, ~ 14Mi conjuntos de dados, ~ 200K produtos de pesquisa de software, 8Mi outros produtos vinculados a Relações semânticas ~ 1Bi.
ORCID os dados são usados pelo OpenAIRE para enriquecer os registros de produtos de pesquisa do gráfico. OpenAire está usando nosso arquivo de dados públicos e arquivo lambda—Gerado diariamente, este arquivo contém uma lista de todos ORCID IDs e sua última data de modificação. Em seguida, ele usa nossa API de membro para chamar registros que foram modificados para importar metadados novos e atualizados desses registros.
Esta integração consiste em: (i) adicionar ORCID IDs para registros Crossref que fazem parte do gráfico, (ii) importação de registros de metadados de ORCID que não têm um DOI, (iii) propagação de IDs de produtos para produtos quando as relações semânticas entre os produtos justificam a ação (por exemplo, se o artigo de metadados registrar com um ORCID iD está vinculado a um registro de metadados do conjunto de dados por meio de um relacionamento semântico DataCite “SupplementedBy / isSupplementTo”). OpenAIRE é capaz de intermediação para todas as fontes de dados contribuindo com metadados para o gráfico (por exemplo, repositórios, editores, repositórios de dados) o ORCID IDs associados aos registros relacionados.
Openaire foi um ORCID membro institucional desde o início de 2020 e está planejando estabelecer uma troca de dados bidirecional, completando um ORCID Assistente de pesquisa e link (atualmente em desenvolvimento).
Interessado em usar o arquivo de dados públicos?
Se estiver interessado em usar o arquivo, você pode baixá-lo em ORCID repositório. O arquivo deste ano está disponível em formato XML e é dividido em arquivos separados para facilitar o gerenciamento. Um arquivo contém o resumo completo do registro para cada registro. O restante dos dados é dividido em 11 arquivos que contêm as atividades de cada registro, incluindo dados de trabalho completos. Se você preferir JSON, você pode usar nosso ORCID Biblioteca de conversão disponível em nosso repositório Github. O conversor é um aplicativo Java e permite a geração de JSON a partir de XML na versão padrão ORCID formato de esquema de mensagem (v2.0 e v2.1).
Nós divulgamos o arquivo de dados públicos sob um CC0 1.0 Public Domain Dedication, e o uso dos dados públicos está de acordo com nossa Política de Privacidade. Também criamos normas da comunidade recomendadas para usar o arquivo.
Se você já está usando o arquivo, ou planeja e tem dúvidas, por favor, deixe-nos saber sobre o seu caso de uso. Adoraríamos ouvir de você!