学术咨询

让论文发表更省时、省事、省心

大数据时代科学数据共享伦理问题研究

时间:2019年05月09日 分类:电子论文 次数:

摘要:文章对国内外相关的文献进行了定量统计,解析了当前的研究热点,分析了大数据时代科学数据共享面临的新问题并预测了未来可能的研究方向。研究发现:科学数据共享伦理的研究热点主要集中在伦理理论、伦理困境、问题成因、治理措施等方面。在大数据时代

  摘要:文章对国内外相关的文献进行了定量统计,解析了当前的研究热点,分析了大数据时代科学数据共享面临的新问题并预测了未来可能的研究方向。研究发现:科学数据共享伦理的研究热点主要集中在伦理理论、伦理困境、问题成因、治理措施等方面。在大数据时代,科学数据共享面临着数据边界扩张、数据结构多样、数据权益模糊等新的伦理问题,未来研究可以关注数据鸿沟、数据污染、数据隐私、数据异化等问题。

  关键词:大数据,科学数据,数据共享,伦理,科学共同体

计算机研究与发展

  科学数据是在领域或学科知识指导下,对研究对象进行抽象和概念化后形成的、以科学证据形式存在的、并用于科学研究活动的原始和衍生数据等相关事实记录[1-2],被认为是证实科学发现或科学观点的事实、证据或者论证推理的基础[3]。随着数据获取、数据存储、数据分析处理等技术的发展,科技创新和科学研究也走向了以数据为基础的科学大数据时代,数据密集型科学与发现成为新的研究范式,出现了一批以数据为基础的新兴交叉学科[4]。

  在此背景下,一些组织机构开始呼吁或要求数据生产者将所拥有的科学数据以标准、规范的形式在科学共同体之间公开发布,供他人获取和重用,从而促进科学数据的交流共享,实现科学数据资源的最大化利用。但随着科学数据共享浪潮的推进尤其是大数据时代的到来,出现了数据造假、数据垄断、数据阉割、数据侵权、数据窃取等一系列问题,这些问题挑战着传统的人伦道德,给科学数据开放共享的美好蓝图蒙上了阴影。

  因此,如何恰当地解决科学数据共享伦理问题将决定着科学数据在大数据时代能否被安全、合规的共享利用,研究这一问题对于科学数据管理政策的制定和管理技术的研发具有重要意义。中国科学院已启动了科技伦理研究项目——“大数据的伦理问题及社会治理”,由多名院士级专家共同探讨适合我国国情的数据采集、分析研究和共享的伦理准则和政策。本文所探讨的科学数据共享伦理是指科研活动所产生的科学证据在科学共同体之间交流共享时所遵守的科学和社会道德准则。

  1相关研究工作

  伦理的产生与人类的生产和生活方式有关,对科学数据共享伦理而言,其与科学数据共享活动相关。为了了解国内外相关研究现状,笔者于2018年3月30日在CNKI和WebofScience数据库中分别以“数据共享+伦理”和“DataSharing+Ethics”为检索词进行了主题检索。自20世纪80年代,国外就开始有相关文献介绍数据共享的相关工作[5-7]。

  从论文数量来看,经历了研究初始期(2003年及以前)、稳步发展期(2004~2013年)、快速发展期(2013年以后)三个阶段;从文献类型看,主要以期刊论文为主(462篇),也有不少会议论文(36篇)。这些文章主要来自美国、英国、加拿大等国家的高校系统。具体而言,1990年的DataSharing:ADe⁃cliningEthic?一文拉开了科学数据共享伦理问题大讨论的序幕[8]。

  随后在生命医学领域出现了流行病学数据共享[9]、患者知情同意[10]、共享患者数据[11]、DNA数据共享[12]、共享基因数据伦理[13]、公共健康领域数据是否共享[14]等专门问题的文章。Sieber[15]提出了运用混沌理论理解和应对数据管理应该遵循哪些伦理原则、知识产权保护是否会增加共享的复杂性、如何优化数据共享伦理决策等问题的思路;根据eMERGE联盟的实践经验,McGuire等[16]从参与者、研究者和研究机构等利益相关者的角度出发探索了数据共享面临的伦理挑战;Dietrich等[17]从信息安全角度出发,勾画了研究数据共享的最佳实践模式:概念设计—数据采集—数据存储—数据分析—数据验证—数据传播—数据管理。

  Heeney[18]根据对英国生物医学研究机构49名成员的访谈记录描述了不同合作者在数据共享方面遇到的伦理困境;热带医学和全球卫生中心[19]认为数据共享促进了医学数据在不同网络之间的传播,这避免了由于数据分割存储而造成的数据孤岛。与国外较早的关注和丰富的研究成果相比,国内相关研究相对滞后且研究成果较少,也没有形成较为明显的研究阶段。

  检索到的29篇文献以期刊论文(20篇)和学位论文(8篇)为主,文章作者主要来自中国科学院、华中科技大学、北京协和医学院等。国内最早的文献是2000年刊登于《遥感学报》中的《空间数据共享及其面临的伦理挑战》一文[20],该文是路甬祥院士在“世界科学知识与技术伦理委员会”外空伦理分委会议上所做的特邀报告,文章分析了不同国家的数据政策特点,指出了空间领域科学数据共享在政治、经济、技术、所有权等多方面面临的伦理挑战;姜勇等[21]对医学数据共享与伦理的关系以及医学数据共享存在的伦理学问题进行了探讨,他还针对这些问题提出了相应的伦理学对策;罗敏[22]以生物医学信息学科为例,指出了科学数据的伦理争议性、原始数据的自然垄断性以及对原始数据的高依附性与知识产权保护之间的冲突。

  以上研究从不同方面探讨了科学数据共享的伦理方面问题。总体而言,这些成果主要集中在生物医学等特定领域而对其他学科或通用领域涉及较少,而且成果以实践经验较多而理论探讨较少。鉴于此,本文试图系统梳理已有研究成果,以期归纳科学数据共享伦理问题所涉及的关键问题和未来方向,为后续开展相关实践提供借鉴。

  2科学数据共享伦理研究热点

  通过对检索文献的主题分析,发现国内外学者主要关注科学数据共享的伦理理论、伦理困境、伦理问题成因和伦理问题治理等。

  2.1科学数据共享的伦理理论

  韦伯斯特大辞典[23]认为伦理是处理善与恶的道德规范,是指人与人或人与自然之间的关系以及处理这些关系的准则。具体到科学数据共享伦理问题上来,有关争论未曾停止。一种观点认为科学数据共享与伦理道德的进步是一致的[24]:科学数据共享加速了数据转化为知识的进程,改变了人们的思维方式,由此也产生了与科学数据共享相适应的世界观和道德观。

  另一种观点认为科学数据共享与伦理道德的进步是对立的[21]:我国在科学数据共享方面与国外还存在较大差距,这种发展不平衡的状态会对人的思维方式、行为方式、价值观、伦理道德等产生影响。此外,科学数据共享与知识产权之间的冲突也是争论的话题之一[22]:科学数据共享要求面向全球开放而知识产权往往具有一定的地域保护特性,共享全球性和地域保护之间存在冲突;科学数据具有可复制和无损耗的特点,而知识产权具有专有性(又称“垄断性”或“排他性”),专有性会阻碍科学数据的有效共享;知识产权保护具有一定期限,只有保护期满后才被准许进入公有领域,但科学数据的产生、扩散、转移速度较快且数据老化周期相对缩短,某些数据尚在保护期时就已经失去研究价值。

  2.2科学数据共享的伦理困境

  当科学数据打破地区和行业限制在科学共同体之间共享时,传统的伦理价值观遭到解构与破坏,社会秩序和人伦规范受到严重冲击[25],Schroeder等[26]认为人类的自主权已经被科学知识的增长所破坏。SpringerNa⁃ture调研发现[27],数包含敏感内容、知识产权模糊、组织政策文化阻碍、数据滥用、技术问题等都是共享数据的经常面临的困境。

  以医疗领域为例[28],在医学数据共享过程中会面临数据所有权、个人隐私保护、数据安全等诸多问题,贡献者的利益保护、研究数据伦理准入机制、样本资源商业化利用等都是敏感的伦理和法律问题。在智慧城市和城市科学研究过程中[29],各类监测网络、个人设备、智能穿戴产品、社交媒体等产生和获取的数据在处理传播过程中也存在着数据监控、数据预测、数据匿名、用户授权缺失等隐私侵犯问题。还有学者认为信息隐私权侵犯、网络人际缺乏诚信和网络技术滥用等都是典型的网络信息伦理失范行为[30]。此外,信息污染、信息破坏、信息泄露、信息侵权等问题也严重影响着个人信息安全,数据残缺、网络狂欢、数据窃取等问题挑战着社会伦理道德[31]。

  2.3科学数据共享伦理问题成因

  面对种种冲突,学者们从不同角度探索了根源所在。宋吉鑫等[32]认为数据没有好坏之分,其产生的原因皆是因为人类对数据的不合理使用,数据技术规则的缺乏也是数据伦理问题产生的原因之一。安宝洋等[33]也提出了类似的观点:虚拟人格异变是伦理缺失的主体根源,数据技术的负效应是伦理缺失的客观原因,规约机制匮乏是伦理缺失的社会背景。

  傅天珍等[34]从全局层面提出了影响科学数据共享的关键因素:个人利益权衡,开放获取的压力、技术和标准问题,文化和法律因素,利他心理因素等。由此可见,影响科学数据共享伦理问题的原因多样,但归结起来主要有三种:科学数据使用者自我约束力低下、数据共享技术滥用和相关规约机制缺失,其中网络主体自我管控不严是伦理失范的主体根源,网络技术肆意滥用是伦理失范的客观原因,外部规约缺失是伦理失范的社会背景。

  2.4科学数据共享伦理问题治理

  为了营造良好的科学数据共享氛围,不少组织机构和专家学者思索如何有效地管理科学数据。ACM于1992年提出了相关的数据共享规范[35],要求各成员做到:为社会和人类福祉做出贡献、避免伤害他人、诚实守信、公平无歧视、尊重知识产权、尊重他人隐私和尊重机密。

  国际干细胞论坛伦理工作组[36]提出人胚胎干细胞基因型的出版应该遵守自主、隐私、慈善和正义的基本伦理原则;美国国家教育统计论坛也提出了数据共享伦理三准则:数据完整性、数据质量、数据安全[37];FORCE11提出的FAIR原则得到了广泛认可,该原则倡议科研产出的数据在存储和管理时应该努力达到Findable、Accessible、Interoperable和Reusable[38-39],欧洲议会已在FAIR原则的指导下率先开放了欧洲科学云[40]。

  国内不少学者还从网络信息伦理角度提出了相应的治理措施:刘炎[41]认为加强网络主体道德建设、强化网络安全国家监管是应对科学数据伦理问题的有效手段;安保洋[42]认为大数据时代网络信息伦理治理应该遵循人道、无害、同意、公正和共济的治理原则;陈仕伟[43]认为既要制定相应的伦理新规范,又要制定从业者职业伦理规范。总体而言,建立健全相应的法律法规和伦理准则,提升网络维护的技术手段,加强行为主体的伦理道德教育是应对科学数据伦理问题的有效途径之一[44]。

  3大数据时代科学数据共享伦理面临的新问题

  随着科学数据管理和共享日益显著,传统的科学数据共享伦理问题依然存在,但在大数据时代下又出现了一些新的伦理问题。

  4大数据时代科学数据共享伦理问题未来研究方向

  根据前文所总结的研究现状、研究热点和可能出现的新问题,本文认为大数据时代科学数据共享伦理研究应该重点关注以下问题:

  4.1数据鸿沟问题

  传统的数字鸿沟是指人们使用信息技术的机会差异,而大数据时代的数字鸿沟则演变为“数据鸿沟”,应更多关注由计算机使用技能差异而引起的技能鸿沟以及因网络使用差异而导致的使用鸿沟,这些差异是由技术、经济、知识和社会等综合因素造成的。科学数据共享涉及政府、图书馆、出版商、数据中心、高校、企业、联盟、科研人员、社会公众等众多相关利益者,处于政治核心区、经济发达区、技术前沿区以及重点行业领域的机构或个人更容易产生、获得和使用科学数据,最新产出的高质量数据也会最先在这些机构或个人之间扩散传播。

  而处于科研链底端的群体所能获取的数据量较少且数据质量相对较低,普通用户即使得到数据也会由于难以掌握数据分析技术而无能为力。信息可及、资源应用、知识获取和价值区隔等方面均出现了不平等和不公平,某些群体在信息可及方面受到了“不合乎伦理和得不到辩护的排除”[52]。数据鸿沟仍将长期存在,如何将“鸿沟”缩小为“裂缝”甚至差距消失应该成为科学共同体思考的问题。

  4.2数据污染问题

  科学数据共享意味着原本独享的数据将成为公共资源,所有者将失去数据的“垄断”特权。为了继续保持竞争优势,某些所有者可能会对数据进行“特殊”处理,原有的数据会出现不同程度的“污染”,主要包括三种类型[31]:

  (1)数据失真。数据生产和传播过程中由于多种因素导致的数据不可信,如因标准不一或技术障碍而引起的数据错误、被断章取义或片面引用进而误报误载、以讹传讹等。

  (2)数据造假。某些研究者为了得到理想的研究结果,故意采用必然产生误导性结果的实验方案,或者伪造、篡改和歪曲实验数据,虚假呈现和运用研究数据。

  (3)数据超载。为了增加数据研究壁垒,在共享的数据集中掺杂大量无用数据或只对数据做简单堆积而不做任何有用解析,受众因无法理解数据而放弃使用。除此之外,数据滥用也是不可忽视的话题,如何使科学数据既能成为人人可用的可信材料,又保证这些数据不被任意滥用,即平衡科学数据的普适性与专业性之间的关系应该成为未来议题。

  5结语

  如何认识并应对科学数据共享过程中的伦理问题,一直受到学界、业界和政府部门的关注。目前,国内关于科学数据共享伦理问题的研究较为零散,本文的主要贡献是系统梳理了这些研究成果。梳理发现现有研究主要围绕科学数据共享的伦理理论争论、面临的伦理困境、伦理问题产生原因、伦理问题治理措施等方面。在大数据时代,科学数据共享将会面临数据边界扩大、数据结构多样、数据权益模糊等新的伦理问题。未来研究应该积极关注数据鸿沟、数据污染、数据隐私侵犯、数据异化等方向。

  文章认为,伦理问题的规制最终要落脚在对人身的规制,对科学共同体的参与者而言:首先,保持开放心态,坦然接受大数据时代的来临;其次,坚持共享精神,让数据资源发挥最大价值;最后,增强伦理意识,既不侵犯他人数据权益也要保护自身数据权益。当然,加强国家数据立法也是科学数据共享伦理问题治理的必要途径,相信随着国家《科学数据管理办法》的颁布和科学共同体的努力,我国的科学数据共享环境将会极大改善。希望上述分析,尤其是对科学数据共享伦理问题未来研究方向的研判,能够为科学数据开放共享研究提供一定借鉴。

  参考文献

  [1]OECD.OECDPrinciplesandguidelinesforaccesstoresearchdatafrompublicfunding[R].OECD,2007:13.

  [2]SaxtonGD,OhO,KishoreR,etal.Rulesofcrowdsourcingmodels,issues,andsystemsofcontrol[J].InformationSystemsManagement,2013,30(1):2-20.

  [3]黎建辉,沈志宏,孟小峰.科学大数据管理:概念、技术与系统[J].计算机研究与发展,2017,54(2):235-247.

  [4]BorgmanCL.Thedigitalfutureisnow:acalltoactionforthehumanities[J].DigitalHumanitiesQuarterly,2009,3(4):1-30.

  [5]NeuhauserD.Sharingresearchdata[J].MedicalCare,1986,24(10):879-880.

  [6]ZelenM,FienbergSE,MartinME,etal.Sharingresearchdata[J].JournaloftheAmericanStatisticalAssociation,1987,82(398):685-686.

  [7]AndersenRM.Sharingresearchdata[J].TheJournaloftheAmericanMedicalAssociation,1987,257(5):686-687.

  相关刊物推荐:计算机研究与发展(月刊)创刊于1958年,由中国科学院计算技术研究所、中国计算机学会主办。办刊宗旨: 报道我国计算机领域最高水平的学术论文和最新科研成果。