2021年是五周年 ORCID的信任计划,我们正在庆祝一系列博客文章,这些文章概述了我们如何平衡研究人员控制和数据质量有时相互竞争的优先事项,同时坚持我们的开放性、信任和包容性价值观。
作为采用 ORCID 随着我们不断成长,我们在寻求实现我们的使命时不断面临新的机遇和挑战 在研究人员、他们的贡献和他们的从属关系之间建立透明和可信赖的联系. 我们了解到,在我们努力实现我们的愿景 在这个世界里,所有参与研究、学术和创新的人都被独特地识别出来,并与他们跨越学科、国界和时间的贡献相关联,“信任”是关键。 如何 ORCID 考虑和接近信任——个人控制、通过公众监督进行问责,以及通过严格的出处追踪实现诚信——自那时以来几乎没有变化 ORCID 成立之初,或者自从我们 启动我们的信托计划 在 2016 年。事实上,我们是由社区建立和管理的 董事会成员 我们的会员代表确保我们继续得到我们所服务社区的信任和支持。
这篇博文是庆祝 XNUMX 周年的系列文章中的第一篇。 ORCID 信托计划。 在这篇文章中,我们旨在让用户重新熟悉我们的信任计划,并阐明我们如何平衡研究人员控制和数据质量有时相互竞争的优先事项,同时坚持我们的开放性、信任和包容性价值观。 我们将讨论由 ORCID的参与水平不断提高(是的,我们正在谈论垃圾邮件)。 您将了解我们遇到了什么样的垃圾邮件,我们一直在做什么来解决它,以及为什么它比实际障碍更令人烦恼 ORCID的使用。 我们还将讨论我们处理欺诈性索赔的方法 ORCID 记录和解决纠纷。 最后,我们将介绍信任标记在 ORCID 记录,由 ORCID 成员组织,允许 ORCID 数据用户自行决定信任哪些记录。
在随后的帖子中,我们将介绍研究人员如何优化自己的 ORCID 记录以确保它提供最大价值,机构如何鼓励他们的研究人员参与他们的工作 ORCID 集成,我们将提供帮助 ORCID 数据用户解释他们可能在数据中找到的信息 ORCID 注册表中。
仍然以研究人员(贡献者、学者、用户)为中心
2016年, ORCID 从事 隐私和数据安全专家 来自社区,以帮助我们审查和完善支持可信度的实践和政策 ORCID. 从这项工作中,我们开发了 ORCID 信托计划 为我们实施的控制、政策和实践提供透明度,以确保研究人员控制连接,并且公开阐明每个连接的来源。 就像我们所做的一切一样, ORCID 信任计划植根于 ORCID“ 10 项创始原则,其中两个直接体现了我们对研究人员控制的承诺。
的定义 研究员, 学者及 贡献者 随着时间的推移而发展,并且可能因领域和国家而异。 不管我们的注册用户如何看待自己, ORCID 一直致力于将它们置于我们所做一切的中心。 研究人员将始终能够创建、编辑和维护一个 ORCID 标识符和记录免费。 研究人员控制谁可以查看他们的数据以及与谁共享控制权——写入、读取和更新他们的记录——以及持续多长时间。
ORCID 是为了解决 名称歧义
尽管我们每个人都是个体,但我们的名字并不是那么独特,过去试图将研究活动和结果与一个人的名字联系起来导致了无休止的混乱。 即使在同一学科中,数百甚至数千名研究人员的名字也可能相同或相似。 名字可以有无穷无尽的变化,它们会随着时间的推移而改变:Sofia Maria Hernandez Garcia、Sofia Garcia、SM Garcia、S. Hernandez Garcia。 研究人员很久以前就了解到,姓名不足以确保他们的工作获得荣誉。
ORCID,作为独立于姓名的人名标识符,专为帮助解决 名称歧义 在研究中,并在研究人员、他们的贡献和他们的从属关系之间建立透明和可信赖的联系。
为了满足这个用例,重要的特性 ORCID iD 是独一无二的、持久的,并且由单个现实世界的个人控制。 独特 以便可以区分同名的人; 坚持 这样一个人就可以保持相同的 ORCID iD 在他们的整个职业生涯中; 由一个人控制 以便用户 ORCID 数据可以合理地确信包含在 ORCID 记录是记录持有者希望向世界展示的关于他们自己的数据。 对于我们的用例来说,可用性不是必需的 ORCIDs 仅限于特定类别的个人,也没有某些权力来控制谁可以获得 ORCID. 而且,正如我们稍后将看到的,强加这些限制实际上会使我们更难实现我们的目标,同时保持对我们价值观的坚持。
重要的是要重申我们的意图一直是 提供机制 研究人员可以通过这种方式与可信赖的组织建立联系,这些组织通过经过验证的工作流程更新他们的记录,而不是为了 成为一种机制 研究人员只需拥有一个 ORCID ID。
换句话说,存在一个 ORCID 记录本身并不表明研究人员的有效性,就像书背面的 ISBN 可以确保该书是一本好书一样。 很像决定其质量的书的内容,数据的内容 ORCID 记录可以告诉你很多关于它的可信度。 如果是 ORCID,我们为用户提供了一种机制 ORCID 数据来判断信息的来源和可信度 ORCID 通过记录和披露记录中存在的每个断言的出处来为自己记录。
ORCID 对所有可能找到的人开放 ORCID 有用
为简单起见,我们经常在提到一个研究人员时使用“研究人员”这个词。 ORCID 记录保持者,但请记住中的“C” ORCID 代表“贡献者”——我们的用户来自更广泛的背景,而不仅仅是一个词可以涵盖。 实际上, ORCID 使每个可能从使用中受益的人 ORCID 注册表能够获取和使用 ORCID ID。 谁将“有资格”获得任何严格的定义 iD 可能会无意中排除那些 ORCID iD 由于研究人员发现自己在世界各地的情况多种多样,因此将很有用。 此外,每天创建大约 10,000 条新记录,这将对学术界共同资助的资源造成巨大消耗。 ORCID 在试图强制执行这种预验证时,几乎没有优势。
具体来说,是没有设置任何此类标准来确定谁可以注册 ORCID 记录我们确保包容性并鼓励坚持 ORCID 身份证。 我们希望鼓励崭露头角的研究人员建立他们的 ORCID iD 尽可能早地在他们的职业生涯中,作为本科生,甚至是中学生或高中生——即使他们还没有创造任何正式认可的研究成果。 同样,我们不希望排除独立研究人员,例如公民科学家或由于职业中断或退休而目前与正式学术机构无关的研究人员。
这种方法的一个自然结果是,不良行为者可能会选择在 ORCID 虚假记录,无论是为了谋取经济利益,还是出于学术欺诈(或两者兼而有之)的目的。 我们相信,正是我们对这些开放性和包容性价值观的承诺导致了广泛采用的用户生成数据的开放存储库, ORCID 已经成为。 这种开放性和包容性的另一面是不可避免地包含可能不被更广泛的学术界视为合法研究人员的个人,并且他们选择在其记录中共享的某些数据可能不被其他人认为是合法的研究人员客观真实。
在撰写本文时,拥有超过 11 万条记录,如果我们能够吹嘘没有任何学术内容或质量有问题的记录,那将是令人惊讶的,而事实显然并非如此。 我们发现有问题的记录有两种主要类型:搜索引擎优化或链接“垃圾邮件”,以及公然声称虚假学术记录的企图。 我们有不同的方法来处理每种情况,我们将在下面进一步详细说明。
搜索引擎优化不是 ORCID 用例
很大程度上是由于我们成功地实现了学术界的采用和广泛使用, orcid.org 在互联网上积累了相当多的参与度:我们在全球排名前 5,000 的网站中名列前茅 Alexa.com. 因此,与大多数其他允许用户生成内容的高流量网站一样,对于那些试图通过利用我们对搜索引擎排名相对较高的影响(也称为“链接汁”或“域权威”) 以尝试提高自己网站的排名。 这种做法被称为“链接垃圾邮件”或“SEO(搜索引擎优化)垃圾邮件”,通常被所谓的“链接农民”或“黑帽 SEO 操作员”延续下去。
具有讽刺意味的是,这个练习在很大程度上是徒劳的,因为从 ORCID 记录标有“NoFollow”代码。 在大多数情况下,这首先可以防止这些垃圾邮件记录为链接站点增加 SEO 价值。 尽管如此,垃圾邮件仍在继续——我们怀疑是因为链接农民是根据产生的垃圾邮件数量而不是所取得成果的价值获得补偿的。 对于潜在的链接农民客户来说太糟糕了,但厨房水槽业务的 SEO 优化从来都不是一个用例 ORCID!
无尽的打地鼠游戏
链接垃圾邮件虽然令人讨厌,但不会影响出现在 经过身份验证的工作流程 我们鼓励这样做,因为垃圾邮件发送者没有动机使用他们的记录登录或连接到合法的学术服务和系统。 即便如此,我们还是理解为什么这些记录会引起警觉并让人怀疑其整体价值和可信度。 ORCID.
我们努力不断地监控和“锁定”可疑的垃圾邮件记录,以便记录持有者以外的任何人都看不到它们。 我们定期运行试探法来检测垃圾邮件记录,我们的用户支持团队通常每月锁定数千条记录。 我们还采取标准措施来限制机器人自动创建垃圾邮件,例如要求在创建记录之前完成验证码。
不幸的是,我们目前的启发式方法是非常费力的——因为它可能导致误报,我们仔细审查每个可疑的垃圾邮件记录,以确保我们不会无意中影响可能正在研究与垃圾邮件发送者“兴趣”相符的主题的研究人员,例如网络货币或人类性行为。 考虑到增长 ORCID 注册表,我们正在玩无休止的打鼹鼠游戏,但我们已准备好迎接挑战。
我们最近尝试使用机器学习方法来检测垃圾邮件,并产生了非常有希望的结果。 我们相信这种方法将减少人工审查的需要,并使我们能够更及时、持续地锁定垃圾邮件记录。 虽然尚未确定在我们的路线图上,但我们希望能够在来年宣布更多进展,当然这需要进行彻底的隐私评估。 作为临时步骤,我们正在采取措施提高搜索结果的相关性,以减轻垃圾邮件记录对合法用户的影响。
阳光是最好的消毒剂
第二种有问题的记录比较麻烦,但好在少之又少。 这种类型涉及公然企图进行学术欺诈,并且来自制造虚假或欺骗性的人 ORCID 要么错误地认为仅仅有一个 ORCID iD 传达某种程度的合法性,或试图错误地声称他人的工作受到赞扬。 这种行为令人反感,我们明确禁止 使用条款.
然而,作为一个中立的、包容性的基础设施提供商,我们对声明的真实性采取编辑立场是不合适的。 ORCID 记录,我们也不可能主动策划 ORCID 注册或监控欺诈记录。 相反,正是这种开放性已经融入 ORCID 因为它的基础使记录持有者提出的主张能够接受公众监督,反过来又允许社区监控和报告任何相关的主张。
如果您担心他人的数据 ORCID 根据记录或记录持有者的意图,我们建议您首先直接联系该人。 否则,我们的用户支持团队可以按照我们的 争议程序. 当我们收到可疑数据报告时,用户支持团队首先与争议方和记录持有者合作,通过真诚对话解决问题。 在极少数情况下不成功时,我们会遵循争议程序中概述的升级步骤,最终,如果记录持有者不同意进行更正,我们保留锁定错误记录并将其标记为有争议的权利。 我们维护一个日志,记录何时以及由谁添加、编辑或删除注册表中的数据,以帮助完成此过程。
研究人员控制和高保真连接产生信任
自 ORCID的基础上,曾有一种学派认为 ORCID — 或其他权威第三方 — 应仲裁哪些数据可以放在 ORCID 记录。 毕竟,还有许多其他传记数据库以这种方式工作,遵循传统的“权威文件”方法。 如果这种高度管理和策划的数据最适合您的用例,我们建议您使用其中之一。
然而, ORCID 是并且总是意味着不同。 我们发现严格遵守我们的 创始原则 研究人员控制对于赢得数据主体本身的信任和参与至关重要,而这反过来又对于广泛采用和利用 ORCID 世界各地的研究人员,即使这意味着放弃中央权威的想法。
权威元数据仍然扮演着非常重要的角色 ORCID 然而。 而不是一方集中维护数据 ORCID 记录,我们已经实施了分布式信任模型,该模型允许在记录持有者的许可下,将各种方式和类型的可靠和可信赖的数据源连接到他们的 ORCID 记录。 我们维护关于每个断言出处的严格元数据 ORCID 通过我们的 API 和我们的公共数据文件在注册表 UI 中记录和披露这一点。 这样,用户 ORCID 数据可以自行确定,他们信任哪些断言,以及他们认为哪些类型的断言是其特定用例的“信任标记”——例如,已经过研究机构认证的附属机构或已经过出版商认证的出版物。
我们经过身份验证的工作流程确保只有在记录持有者的直接许可下才能将记录与活动、想法或组织相关联。 而且,只有 ORCID 成员组织在 ORCID 记录,确保它们受到我们的审查并遵守我们的条款中包含的条款 会员协议.
一旦建立,这些高保真连接就会创建一个自我强化的循环:在研究人员从拥有一个 ORCID iD,例如通过避免重复数据输入,他们更有可能参与和连接他们的记录,从而导致更完整和准确的人口 ORCID 具有可靠元数据的记录。 我们发现,虽然 48% 的记录总体上附加了一些元数据,但对于连接到至少一个外部系统的记录,这一数字上升到 56%。 此外,对于连接到具有一致国家政策和支持 PID 基础设施的地方的系统的记录,例如澳大利亚,这个数字增加到 88%。 我们未来几年的主要优先事项之一是鼓励更广泛地采用国家 PID 战略,并将 ORCID 在今天并非如此的地方拥有重要的国家研究基础设施。
下一步:解释“信任标记” ORCID 记录
ORCID对研究人员控制的基本承诺已证明对于赢得研究人员的信任和参与至关重要,而这反过来又对广泛采用和利用 ORCID 来自全球的研究人员和组织。 与大多数其他允许用户生成内容的高流量网站一样,我们的成功使我们成为那些为了追求经济利益或出于学术欺诈(或两者兼而有之)而创建记录的人的有吸引力的目标。 我们讨论了我们处理每个案例的独特方法,以及我们必须在未来提高处理垃圾邮件能力的计划。
为了平衡研究人员控制和数据质量有时相互竞争的优先事项, ORCID 利用分布式信任模型,该模型允许可靠且值得信赖的数据源通过经过身份验证的工作流连接到 ORCID 经记录持有者许可进行记录。 此外,通过记录和披露记录中存在的每个断言的出处,我们为用户提供了一种机制 ORCID 数据来判断信息的真实性和可信度 ORCID 为自己记录。
帮助用户了解如何解释存储在 ORCID 记录是我们信任计划的一个要素。 在本系列的下一篇博文中,我们将继续我们的五周年庆典 ORCID 信任计划通过在一个项目中引入“信任标记”的概念 ORCID 记录和讨论用户如何 ORCID 数据可以自行确定他们信任哪些断言,以及他们认为哪些类型的断言是其特定用例的信任标记。