Tento příspěvek na blogu byl spoluautorem Paloma Marín Arraiza a Gabriela Mejiasová.
Poslední pátek, ORCID bylo nám osm a chystáme se dosáhnout dalšího důležitého milníku: 10 milionů ORCID ID! Jako každý rok oslavujeme naše výročí a týden otevřeného přístupu vydáním našeho Veřejný datový soubor.
Projekt Veřejný datový soubor 2020 obsahuje snímek všech dat veřejného záznamu v souboru ORCID Rejstřík, je zveřejněn pod CC0 prominutía je pro každého zdarma k použití. Otevřenost je jednou z našich základních hodnot a jako součást našeho závazku k odstranění překážek v přístupu vydáváme soubor, abychom zajistili, že všechny zúčastněné strany budou mít široký přístup k životně důležité části vědecké komunikační infrastruktury. V době psaní tohoto článku Veřejný datový soubor 2019 byl stažen více než 35,000 XNUMXkrát.
Soubor byl použit v různých projektech jako zdroj dat pro analýzu vztahů a jednotlivých trajektorií v rámci výzkumné komunity, vědecké migrace, sítě spolupráce a přijetí ORCID napříč obory a místy.
Jak komunita používá soubor?
Rádi bychom představili tři příklady použití souboru veřejných dat, které nám pomohou obohatit vědecká metadata / záznamy a vizualizovat spojení.
dblp - bibliografie počítačových věd
dblp poskytuje otevřené bibliografické informace o významných časopisech a sbornících z oblasti informatiky. V roce 2017 začali zobrazování ORCID ID v bibliografiích a samostatných publikacích. Obohacení metadat se provádí sběrem dat přímo od vydavatelů a jejich kombinací s daty získanými z veřejného datového souboru. V současné době, 12% jejich záznamů má ORCID iD. Pokrytí publikací do roku 18 dosahuje až 2020%. U časopisu IEEE Control Systems Letters dosahuje 75%. Je také důležité zdůraznit zde terénní práci prováděnou Němec ORCID konsorcium podporovat používání ORCID v této bibliografii.
Digital Humanities Lab - Leibniz Institute for European History
Vizualizovat spojení mezi autory DHd 2020 (tj. konference digitálních humanitních věd v německy mluvícím prostoru), laboratoř Digital Humanities Lab použila jména autorů extrahovaná z Knihy abstraktů, ORCID Smířit se nástroj OpenRefine a přidružení ORCID ID podle veřejného souboru údajů. Po zpracování a vyčištění dat (celý popis je k dispozici v němčině Na tomto blogu), dosáhli následující osobně-přidružené sítě:
Grafické znázornění sítě person-affiliate-network na základě Book of Abstracts 2020 a ORCID ID. 204 uzlů (osoba: 110, červená / instituce: 94, modrá) a 183 hran („přidruženo k“).
Zdroj: https://github.com/ieg-dhr/orcidgraph/blob/master/Orcidgraph.png a https://dhlab.hypotheses.org/1467.
Zdrojový kód skriptu najdete v GitHub.
OpenAIR
Projekt OpenAIRE Výzkumný graf je jednou z největších otevřených sbírek vědeckých záznamů na světě, která je klíčem k podpoře otevřené vědy a zavádění jejích postupů. Koncipován jako veřejný a transparentní statek, vyplněný z datových zdrojů, kterým vědci důvěřují, si klade za cíl přinést objev, monitorování a hodnocení vědy zpět do rukou vědecké komunity.
Posledních deset let OpenAIRE pracuje na sestavení Sbírka OpenAIRE Research Graph metadat a vazeb mezi vědeckými produkty, jako jsou články, datové sady, software a další výzkumné produkty; subjekty, jako jsou organizace, finančníci, finanční toky, projekty, komunity a zdroje dat. K dnešnímu dni tato masivní sbírka agreguje kolem 450Mi záznamů metadat s odkazy shromažďujícími z více než 10,000 13 zdrojů dat, kterým vědci důvěřují. Po vyčištění, jemnozrnných klasifikačních procesech, deduplikaci a obohacení pomocí fulltextové těžby (~ 110Mi plných textů) dnes Graph počítá ~ 14Mi publikací, ~ 200Mi datových sad, ~ 8K softwarových produktů pro výzkum, 1Mi dalších produktů propojených s ~ XNUMXBi sémantické vztahy.
ORCID data používají OpenAIRE k obohacení záznamů o produktu výzkumu v grafu. OpenAire používá náš veřejný datový soubor a soubor lambda—Vytvářený denně, tento soubor obsahuje seznam všech ORCID ID a jejich poslední datum úpravy. Poté použije naše členské API k volání záznamů, které byly upraveny tak, aby z těchto záznamů importovaly nová a aktualizovaná metadata.
Tato integrace spočívá v: (i) přidání ORCID iDs do záznamů Crossref, které jsou součástí grafu, (ii) import záznamů metadat z ORCID které nemají DOI, (iii) šíření iD z produktů na produkty, když sémantické vztahy mezi produkty ospravedlňují akci (např. pokud záznam metadat článku s ORCID iD je propojen se záznamem metadat datové sady prostřednictvím sémantického vztahu DataCite „doplněnoBy/isSupplementTo“). OpenAIRE je schopen zprostředkovat všem zdrojům dat přispívajícím metadaty do grafu (např. Úložiště, vydavatelé, úložiště dat) ORCID ID související s příslušnými záznamy.
Openaire byl ORCID institucionálním členem od začátku roku 2020 a plánuje zavést obousměrnou výměnu dat dokončením ORCID Průvodce vyhledáváním a odkazem (aktuálně ve vývoji).
Máte zájem o použití veřejného datového souboru?
Pokud máte zájem o použití souboru, můžete si jej stáhnout z ORCID úložiště. Letošní soubor je k dispozici ve formátu XML a je pro snadnější správu dále rozdělen do samostatných souborů. Jeden soubor obsahuje úplné shrnutí záznamu pro každý záznam. Zbytek dat je rozdělen do 11 souborů, které obsahují aktivity pro každý záznam včetně úplných pracovních dat. Pokud dáváte přednost JSON, můžete použít náš ORCID Knihovna konverzí dostupná v našem úložišti Github. Převaděč je aplikace Java a umožňuje generování JSON z XML ve výchozí verzi ORCID formát schématu zpráv (v2.0 a v2.1).
Uvolňujeme veřejný datový soubor pod CC0 1.0 Public Domain Dedication a použití veřejných dat je v souladu s našimi zásadami ochrany osobních údajů. Také jsme vytvořili doporučené normy komunity pro použití souboru.
Pokud soubor již používáte nebo máte v plánu dotazy, dejte nám prosím vědět o vašem případu použití. Rádi bychom od vás slyšeli!