时间:2018年07月05日 分类:电子论文 次数:
下面文章是在大数据的背景下展开研究,在数字时代人们几乎没有隐私,数据会成为泄露隐私的工具,文章主要对于脸书(Facebook)用户的数据泄密事件展开研究,发现脸书在实际技术应用与伦理上存在差异,文中对于这一问题进行分析研究,探讨信息化社会下数据的作用和数据的使用方式,总结传统的新闻观念与数据化时代的不同,如何更好的利用数据推动时代的发展。
关键词:大数据,脸书,剑桥分析,隐私,道德,假新闻
1 背景:从大数据1.0到2.0时代
1.1 大数据1.0阶段是数据驱动(data-driven)
科辛斯基与剑桥分析公司事件的核心是数据驱动与理论驱动是如何被理解的,数据驱动的核心是有关工作人员对一系列数据的大范围的收集整理,当数据达到一定的量时,就对这些数据进行描述性的分析研究,主要领域是以下两个方面,一个是寻找预测变量(predictor),另一个是挖掘行为模式(behavior pattern)。这些研究都希望从数据中得到更加准确的预测结果,为实际应用服务。这就好比,我们在数据库中发现衬衫与领带呈现高度相关,那么商家就可以在获取这些数据后,将这两件商品放置在一起销售。
根据现在的神经网络算法“Link Prediction、Struct2Vec、Flow-Network”等只要有足够的数据及样本标签我们便可以进行预测,并且成功率可以达到80%左右。这套算法同时也广泛运用于国家安全领域,用于识别可能潜在的犯罪对象。这一分析方法最早的成熟应用,就是2018年3月17日爆出的脸书(Facebook)数据门大案,即剑桥分析(Cambridge Analytica)帮特朗普当选的事件。从那时起,大家就开始非常关注这个领域,实际操作的可能。
1.2 大数据2.0阶段是数据驱动理论(data-driving-theory)
大数据2.0时代与1.0时代最大的不同点是,它是由数据(Date)+社会科学理论(Theory)的方式来驱动的。在2008年这个互联网市场与用户需求高涨的时期,许多互联网公司早已开始进入数据分析领域,区别在于那个时候的互联网科技公司还只停留在初级阶段。其技术在理论出现之前就已开始投入使用。
因此,笔者将大数据的发展简单地按照其出现的时间顺序分为两个阶段,简单来说,就是网络数据的发展应用在社会上越来越广泛,然后倒逼着人们去研究分析其与社会发展的相互关系。在网络数据的最初阶段(1.0阶段),这时的工作主要是大量收集整理数据,再对这些数据进行一些分析,这个时期,相关的理论并没有显得特别重要。例如现阶段应用最广泛的人脸识别技术(Face Recognition Assignment),我们最初主要是搞清楚人脸构造的一系列的结构,并将它们形成一系列的数据,来对模型进行完善,后来发现当照片达到足够数量时,结合日益成熟的人工智能(Artificial Intelligence),来对模型进行修改完善,模型就会越来越准。
人脸识别是要扎根真相(ground truth)的。我们目前所能看到的人工智能训练是用大量的照片来做的,我们采用的海量照片就是扎根真相。以此类推我们可以发现,科辛斯基的“大五人格”的心理学测验,大量的照片就是这个事件的扎根真相。
在实际运用的过程中,扎根真相这一数据并不能完美解决我们想要解决的问题,它必须与一定的科学理论相结合,并在它的指导下才有可能完成的。比如在美国总统竞选中,替特朗普在竞选过程中出谋划策的剑桥分析公司,他们所做的“大五人格”分析这一方式,不是仅从一张随便从马路上拍摄的照片,就能判断出一个人的五类人格特质(开放性,随和性,勤勉性,情绪稳定性,外向性)在这个人身上的具体表现。
要想达到我们的要求,实现我们的目的,必须做到以下几点:一是必须把扎根真相与心理学理论相结合;二是一定要通过既有的社会科学理论去进行人格数据收集和提炼;三是指导我们建构预测模型。由此可见,数据与社会学科及相关学科理论是分不开的,大数据促进了学科理论的跟进同时,既有理由也为大数据的有效利用提供了指导。
2 Facebook数据门与“剑桥分析”事件所折射出的问题
英国剑桥大学的心理学讲师科根(Aleksandr Kogan)就是把一个用于社交用途的网络软件——脸书(Facebook),与一个心理理论方面的“心理测试”小程序——科辛斯基的“大五人格”理论体系相互结合,然后通过脸书收集了约27万用户的个人用户信息记录,然后把这些个人用户信息记录大价钱卖给了对这些数据感兴趣的第三方客户,这些客户其中就有“著名”的剑桥分析(Cambridge Analytica)公司。
更值得关注的是,剑桥分析公司其实是政府和军方的承包商SCL集团下的一个分支机构,而SCL集团在众多的业务中,有一个业务是为各国的选举活动提供咨询服务的,它们的客户遍布世界,最重要的客户则是分布南北美洲,非洲,欧洲的一些国家或地区。当这一信息披露在世界面前时,在美国那些因为希拉里落选而疯狂攻击俄罗斯的政客们不知会怎么想,但世界各国的人们也许就会揭开一个困扰很久谜团,那就是在美国,让大多数媒体和大多数精英所厌恶的特朗普却能打败希拉里的原因。
在美国总统竞选这一件事上,他们对特朗普竞选的帮助就是通过脸书所收集来的大量的个人用户信息,结合科辛斯基的“大五人格”理论体系,去分析众多的美国选民的心理特征和个人爱好,然后针对这些选民的特点和爱好来为特朗普的竞选广告出谋划策。这种对数据的处理方式实质上就是“数据+理论驱动”的方法,通过个人的讲话、表情、态度、举止,结合“大五人格”理论体系,通过分析,就能判断出这个人的性格、喜好,然后根据这个人的人格特点和习惯爱好有针对性的将信息置入到社交网络中,从而达到了用户毫无察觉的情况下被灌输了某种思想,达到改变用户心理的目的。改变用户心理的这一操作在商业中或许是很好的营销宣传手段,但要是在政治中那就很可怕了,這也就是为什么人们会把其称为“窃国者”的原因。
在第二次世界大战中,纳粹德国的宣传部长戈培尔就曾说“谎言重复千遍就是真理。”值得我们思考的是,如果像剑桥分析公司那样将大数据与人工智能结合起来去向用户精准投放虚假消息或某种思想,一旦时间长了其结果就可能会使戈培尔的理论变为现实。
美国麻省理工学院传媒实验室的3位研究者,通过大量的研究,在2018年3月发表了一项关于“假新闻”(fake news)传播与影响的研究报告。他们根据近十几年来十多万份的虚假新闻在推特(Twitter)上的传播情况进行了大规模的搜集整理,对大量的数据进行了分析研究,得出了以下结论:虚假新闻通过传播媒介在大众中扩散的速度比真实的新闻快得多,传播的深度和广度也是真新闻拍马也赶不上的,在这些虚假新闻中,关于政治类的虚假新闻占据了大部分的比例。
根据他们所罗列的数据我们可以看到,从2006至2016近10年间,他们所收集到的虚假新闻被约300万顾客浏览过,次数超过450万次。他们又将1 500个顾客作为一个标准,来检验虚假新闻的传播速度,结果发现,虚假新闻的传播时间大约为10个小时,而于此相对照的真新闻传播时间近60个小时,而虚假新闻的转发率也比真实新闻高70%,虚假新闻主要由顾客自己进行传播分享,而不是由“机器人”账户自动传播。众多的顾客用户之所以喜欢分享假新闻,不仅仅是因为它更加耸人听闻,还有一个原因是现代人们的碎片化阅读习惯所导致的。
麻省理工学院传媒实验室在4个方面进行了分析比较:
一是传播深度,传播深度也可以叫做转发的“层级”。打个简单的比方,信息由A用户转发给了B用户,而B用户也将相同的信息又转发给了C用户,那么信息的传播深度就是三,假新闻的传播极限深度可以超过19层,而大多数的真新闻基本不会超过10层。
二是传播人数,也就是参与转发的账号数量,真新闻能被多少人转发,确切的人数一般不超过1 000人,但是假新闻却可以超过1 000到10万人。从传播速度上来看,要传播到1 500个人,真新闻所消耗的时间是假新闻的6倍。
三是传播宽度,是指在同一传播层级上,参与信息转发的最多人数。真实新闻的传播宽度仅仅超过1 000人,而假新闻最多的时候能达到好几万。
四是结构性的病毒式传播力(structural virality),是研究者计算出来的一个数值,不出意外,假新闻同样胜出。
这一报告中作者之一的苏鲁什·沃索基对这样的现象是这样说:“假新闻的内容与人们对世界的期望完全不一样,而这也许是它更惊人的原因之一。假设某些人所制造谣言,与大家所期待的相悖,但得到转发的可能性反而会更高。”[1]尤其,是在碎片化阅读习惯盛行的当下,人们只愿花一小部分时间去接受知识,这就使得像是“剑桥分析”这样的公司有了可乘之机,阿道夫·希特勒在其自传《我的奋斗》(Mein Kampf)②中说“一切的宣传都应该求其通俗,以知识水平最低者的接受能力为标准。所以,为了使接受我们观点的人更多,那么灌输给他们的知识标准也就必须相应越低。”现阶段,如果某些人将希特勒式的宣传方式与现代社会高度发达的人工智能、数据相结合将内容通俗化、观点简单化,并使其循环式的置入信息,那么我们绝大多数的受众都将会深受其害,被利益集团所操纵。
大数据时代的到来,改变了太多的东西,对我们现行的诸多制度带来了巨大的挑战。在美国总统大选中,传统的竞选方式和途径,还有剑桥分析这样把各国选举当作生意的公司介入,己经让美国的政治生态发生了混乱,“通俄门”到现在已经完全不是特朗普一个人的选举问题了,而是美国政治在大数据时代,如何进行有效重构的问题了。技术方面的巨大发展对政治形态的改变,在一定的条件下有时候是非常激烈的,这是因为在技术长足的进步下,极深刻地改变了人的生存状态和思维状态。
3 大数据时代所勾勒出的隐私危机
当大洋彼岸的Facebook的数据泄露问题反馈到中国市场时,所引发的关注度,显然要比在美国引发的关注度要小得多。这一现象,在李彦宏看来就是:在中国的互联网市场,用户对其隐私的态度与西方不完全相同,在中国,相当比例的用户有时为了方便或省事,他们大多数情况下是愿意用所谓的隐私来进行交换的,这也是李彦宏观点的立论基础,现阶段的中国大数据市场,被百度、阿里巴巴、腾讯这三大互联网公司牢牢掌握,谁又能保证它们是安全的呢?百度起先是做搜索引擎起家的,但其对于用户信息的收集及运用那可是游刃有余。这也就为李彦宏的“中国用户隐私廉价”提供了客观的支持。
我们可以举一个司空见惯的例子,当你用你的电脑在百度上搜索了一件东西,以后只要你在你的电脑上随意打开任一网页,旁边弹出的弹窗广告的内容一定是你曾搜索的相关产品,这样的情况,如果用心思考一下,你就会毛骨悚然,在互联网面前,你几乎是毫无隐私的。显而易见,在中国这么做的决不是只有百度,而是一大批还没有形成保护隐私意识的中国的互联网企业家们。在他们看来,这样做给你买东西提供了方便,也给商家提供了便利,是利人利己的一件好事。但是这一切都基于一个前提:大规模的收集用户数据,而这些用户数据是不是用户隐私,可不可以随便商业应用,在中国,都还是一个问题。
从一个普通消费者的角度出发,来看互联网公司的行为,说是一种社会心理的不断麻木过程,或许更加合适。当一个个骚扰电话,一个个垃圾短信不停在你耳边响起时,我们可以想象得到你的愤怒表情,你一定会质问,谁把我的手机号码给泄露出去了,在中国数据泄露已经是见怪不怪的无奈情况下,而我们广大的用户对此又是毫无办法。这根本不是我们中国用户廉价,而是在BAT(百度、阿里巴巴、腾讯)等大公司面前,在他们所谓的“与人方便”“与己方便”经营信条下,中国的用户们没有另一个选择罢了。
既然假新闻天生比真新闻更有传播力,那也就意味着我们不能放任它们在平台上自由竞争。否则,胜出的肯定是假新闻。对于事实核查中,费斯廷格(Leon Festinger)的认知不和谐理论③中,就曾对此详细的论述,他明确的指出,由于人们在认识上己经存在了先入为主的意识,所以他们更加愿意接受自己内心相信的东西,就算是这一个虚假的信息,他们也愿意相信。也就是说,如果把与他们认识相违背的真相摆在这些人的面前,他们也不会选择相信。我们每天都要面对成千上万的信息,我们对其进行干预及限制的方法有两种:第一种思路是提高个体辨识新闻真假的能力,包括提供更多的事实核查信息,以及进行媒介素养、批判思维方面的教育;第二种思路是加强对社交媒体平台的监管力度,从信息传播的层面进行干预,主要是对算法进行干预,所谓的算法,就是对相关的信息内容不是按照出现的先后来排列,而是互联网公司根据内部设定一定的规则自动为你过滤和排列的,这种规则就是算法。
怎么样更好的控制API④端口的信息获取及由谁来获取是值得我们去思考的问题。在处理这些信息的同时,这些平台在商业利益之外,还需承担相應的道德责任和社会责任。
社交媒体平台彻底改变了我们对外界信息的接收方式,如何更好地利用和发挥这一平台在信息传播方面的主导作用,最大程度的减少它被假新闻污染的可能性,这就要求我们一定要基于事实,对这一平台运行方式和规律进行科学的考察和评估,然后制定这一领域的监管政策。
注释
①The spread of true and false news online. Science,09 Mar 2018:Vol. 359, Issue 6380, pp. 1146-1151.
②这是希特勒于1925年出版的自传,在德国则只能购买到《我的奋斗》的“评论版”(9:76—77).
③费斯廷格(Leon Festinger)美国著名社会心理学家,他曾提出“选择性注意、选择性接触、选择性记忆”等理论思想。
④API(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
相关范文阅读:新闻媒体中隐藏的网络舆论风险与应急处理
传统媒体的话语权为新闻机构控制了许多舆论风险,社交媒体形成的网络舆论也改变了以往的话语权格局,新闻机构也是网络舆论监督的对象。然而在如今社交媒体中,存在着版权纠纷,这些都是导致媒体危机事件的原因,因此需要树立一定的风险意识,通过应急管理措施才能降低相应的舆论风险,也不损害媒体声誉。