时间:2020年02月05日 分类:文学论文 次数:
摘要:大数据发展日新月异,新的应用需求和实践问题层出不穷,社会各界越来越重视大数据的基础研究。百科全书作为知识门类的概述性著作,是开展和推动基础研究的重要载体。作为大数据知识传播的工具,《大数据百科全书》不仅要有实用与新颖兼备的知识内容,并且还应具备准确严谨与通畅易懂的专业化语言文字表达。其中,术语是《大数据百科全书》不可或缺的有机组成部分,文章总结大数据领域的术语特点,并以此提出《大数据百科全书》术语方面的收录和处理原则。
关键词:大数据;百科全书;术语
相关论文投稿刊物:《百科知识》杂志社与中国大百科全书出版社同期创建于1979年, 是由中国大百科全书出版社主办的国内惟一文理合编的国家级科普刊物; 是国内公认的具有权威性的老牌科普杂志之一。《百科知识》杂志的特 色是门类广泛、文理合编、权威准确、通俗易懂。
2017年5月,中国大数据领域第一部专业百科全书———《大数据百科全书》正式启动编纂工作,该书将由大数据战略重点实验室负责研究编纂,并经全国科学技术名词审定委员会(以下简称“名词委”)审定发布。该书将在科学方法论的指导下,以历史和发展的眼光,对大数据知识体系进行全面梳理,覆盖大数据理论、大数据战略、大数据技术、数字经济、数字金融、数据治理、数据安全、数权法、大数据史九个方面,并以专业规范的百科全书语言的形式编纂成书,以期推动大数据领域的知识传播和普及,并为深入研究大数据提供基础性研究素材。《大数据百科全书》以大数据领域内的丰富知识为主体,包括大数据领域的基本理论、重要事件、基本事实、基本概念、重要流派、重要机构组织、重要著作和出版物、重要人物、重要政策文本等内容。术语作为概念、理论的语言指称,是《大数据百科全书》不可或缺的有机组成部分和研究重点,主要分布在百科全书的立目用词和释文用语。
一术语是《大数据百科全书》的有机组成部分
1.术语是大数据领域主要的专业用语
随着大数据的飞速发展,相关知识体系逐步完善,其领域词汇越来越丰富,相关术语所占的比重越来越大。术语是特定领域学科中的专门用语,是构建学科体系的基本元素。根据词汇使用范围的不同,德国学者希尔默(A.Schirmer)将其分成通用词和专业词汇,专业词汇由术语、专名①、行业用语等词汇单位组成,其中术语是基本的专业词汇单位[1]。与专名相比,术语称谓的普通概念更具概括性,可以指称客观世界的一类客体,而专名往往处于概念体系的最底层,指称客观世界的唯一客体,包括人名、机构名等等。
同时,术语与专名具有相通性,在某些情况下可以互相转化。如“ENIAC”(ElectronicNumericalIntegratorandComputer),最初是指1946年的第一台电子计算机,属于专名,但由其发展而来的“电子计算机”已经成为计算机科学术语。与行业用语相比,术语和行业用语虽都用于专业领域,且称谓某个专门的概念,但术语更具规范性,而行业用语中常用具有俚俗色彩的口头语,修辞色彩更强。如计算机领域从事软件开发的工作人员也常常自嘲为“码农”。
2.术语是《大数据百科全书》的重要研究内容
术语不仅仅是专业领域内的语言交流的工具,还是对学科知识的凝练和浓缩,是科学理论的组成部分。术语既是语言单位,又是科学知识单位,术语符号与该知识领域的概念系统中的概念相互对应,它不仅是对专业领域内理论概念的语言指称,还是对在认知过程中出现并完善的专业概念的形式化。它能够概括、增加和传递科学知识,反映某一认知领域的发展阶段和程度[2]。《大数据百科全书》在全面梳理大数据领域的基础理论、知识门类与发展实践的过程中,必然要对其领域的相关术语进行研究探索。以大数据领域概念为基础的术语系统,是归纳概括领域知识的符号系统,在一定程度上体现了人们对大数据的知识系统的认识,也是《大数据百科全书》框架体系的重要参考依据。
3.术语符合《大数据百科全书》的语言要求
术语是科学语言,其科学性、简明性以及中立性等特性与百科全书的语言要求相符,使得术语成为《大数据百科全书》的重要用语。首先,术语的科学性要求术语要与所称谓的概念一致,准确传递概念内容。其次,术语的简明性要求术语简明扼要,易读易记,术语一般不宜过长。各语言中超过7个字(或词)的术语短语数量有限。冗长术语在使用时往往会被简化,从而构成缩略形式。如“笔记本”(笔记本式计算机)、“微机”(微型计算机)等。最后,术语的修辞中立性是指术语不带有修辞色彩、主观情态性和其他表现力因素。在构词时,避免使用方言或俗语词汇[2]。
这与百科全书准确、平实、简明的用词特征相符。《大数据百科全书》要为相关读者释疑解惑,就必须具备真实、准确、科学的大数据知识或信息。这不仅要求其内容是大数据领域的客观真理或规律,符合客观实际,经得起推敲和逻辑推理;同时,作为内容载体的文本语言力求严谨显真,客观准确反映表达的内容。这就要求其用词表意准确,选用恰当、最能反映事物或现象真谛和精髓的词语入文,忠实地表达概念,多选择具有科技语体色彩并且表意准确的书面用语,避免使用口语化或存在歧义的日常用语[3]。
二大数据术语特点
《大数据百科全书》作为大数据领域的专业百科全书,应尽可能体现所有或者至少大多数大数据领域的专业词汇单位。因此,《大数据百科全书》术语的范围以大数据术语为主,此外《大数据百科全书》还包括一部分相邻领域的相关术语。同时,大数据领域术语的一般规律和基本原则决定了《大数据百科全书》的术语特点,并深刻影响着《大数据百科全书》术语的收录和处理。
1.前沿性
大数据作为近年出现的新兴领域,相关新事物、新概念、新技术层出不穷,大数据领域术语更具有鲜明的时代性。大数据领域知识相比其他传统学科更为年轻,该领域大部分科技术语较其他学科术语发展历程较短。相关的概念作为新概念的期限一般不长,很快就进入使用阶段。它们既是在某一段时期内科学技术领域的研究热点,也是社会大众关注焦点的科技名词。“大数据”一词首次使用于1997年,20世纪末到21世纪初期,逐渐为学术界的研究者所关注。直到2014年,“大数据”作为我国科技新词②之一,由全国科学技术名词审定委员会正式对外发布试用。同时,大数据领域的新词数量多,发展快,很多术语尚未形成共识和规范,这为大数据领域的术语整理提出挑战。
2.跨学科性
大数据术语的跨学科性来源于大数据领域多学科交叉发展的特点。大数据与多门学科都有紧密联系,其理论基础来自多个不同的学科领域,包括计算机科学、统计学、信息科学等,其知识系统本身具有极高的复杂交叉性[4]。大数据领域固有术语③较少,大数据领域部分基础词汇来源于相邻学科的术语混合,也存在受其他学科影响而获得新义的术语。根据国家标准《GB∕T35295—2017信息技术大数据术语》,大数据术语中包含“数据、数据处理、数据管理、关系模型、关系数据库”等与信息技术密切相关的通用术语。大数据术语的跨学科性对整理术语及术语集界限的确定造成了一定的困难。
3.融合性
随着大数据与经济社会各领域进一步融合发展,大数据应用也向各细分领域延伸拓展,其领域词汇也逐渐扩展到各细分的应用领域,并在相互作用时产生术语的混合体。2017年5月,名词委联合大数据战略重点实验室首次对外发布块数据、主权区块链、秩序互联网、激活数据学、5G社会、数据铁笼、数权法等大数据十大新名词。这些新词不仅反映大数据的创新与发展,更是大数据在各个领域融合应用的结果。融合术语集有的模糊不清,有的基本术语完全保留了原义,有的略有修改,有的经过专业化后完全改变了原义,因其成分不纯,这些术语界线的确定和系统化显得更为复杂[5]。
三《大数据百科全书》的术语收录和使用原则
新闻出版总署等多部门曾明确发文要求“各编辑出版单位今后出版的有关书刊、文献、资料,要求使用公布的名词。特别是各种工具书,应把是否使用已公布的规范名词作为衡量该书质量的标准之一”。大数据作为新兴学科领域,相关术语规范标准尚未完善,部分大数据术语的规范和选择还处于过程阶段。《大数据百科全书》作为大数据知识传播的重要载体,理应在整理、规范大数据术语方面承担更大的责任,发挥更大的作用。
1.适量使用术语,在保证科学性的基础上注意通俗性
《大数据百科全书》的读者对象主要是政府的政策制定与执行部门、研究机构、企事业单位中从事大数据相关研究和应用的人士。其中,既包括大数据领域的专业人士,也包括其他大数据领域的相关人士,受众范围相对宽泛。由于个人专业水平和文化素质等因素的影响,这些受众对大数据的专业认知存在差异。为尽可能满足每一位读者的需要,《大数据百科全书》的语言运用要处理好通俗化的问题,总体控制相关术语的收录数量、释义篇幅、使用范畴,尽可能避免使用艰深晦涩的专业术语,使得其知识的纵深适合。具体注意事项有以下几点:一是释义时仅在必要的情况下使用术语,在可以不用术语时,要选用大众熟知的表达方式;二是在使用过于艰深羞涩的术语时需对术语做出解释和说明;三是根据语言经济原则,要尽可能避免术语套术语,忌循环使用术语解释术语。
2.谨慎对待科技新词,避免使用争议词
人们对大数据领域的认识有一个逐渐清晰的过程。在大数据相关概念产生和构建的过程中,部分词汇的内涵有可能不够明确,概念不够稳定,学界对其认识也有个过程,在此过程中出现了大量科技新词。随着时间的推移,有的科技新词逐步稳定,进入成熟的概念体系,而有的科技新词会被更为规范的术语代替。作为一部规范性的权威辞书,《大数据百科全书》具有可信的精确性、时代性以及相对的稳定性的特点,其科技新词和争议词的处理是积极但又比较谨慎的。对于这部分词语收录的意义不仅在于对其进行实录和保留,更重要的是对其定型、规范释义和传播指导。
一方面,《大数据百科全书》的科技新词收录标准是严格的,态度是慎重的。词的理据④上,要求名词合理,符合汉语的构词规律,排除和限制不规范的词语;词的使用上,要求收录具有生命力⑤和普遍性⑥的词语。一些偶发词⑦依赖于既有词和特定语境,且复用率极低,其意义也是临时性的,这类词应当避免。另一方面,有些问题虽未最终稳定下来,或者说尚未“盖棺定论”,但已形成人们熟知的话题,形成稳定下来的问题,也具有收录的意义。诸如类术语、准术语、伪术语这类专业词汇,它们是大数据术语发展过程的产物,是大数据领域概念的唯一称谓,对于那些能够反映重要研究成果、对大数据发展影响重大的关键性代表性的词汇,在经过认真筛选和审慎取舍后,应当和术语一同收入《大数据百科全书》条目表中,但在释义中一般不推荐使用。对于这些专业词汇的规范需要极为谨慎,以避免误导读者。
3.科学选择术语,规范术语使用
对于经过时间沉淀或已形成共识的术语,我们须以科学术语规范意识为引领,积极学习大数据相关的国家术语标准,关注名词委的新词发布,及时了解学界术语发展,不用已被淘汰的旧名称或概念的非推荐名,如“3D打印”(以后应使用“三维打印”)。在具体术语收录时,综合考虑以下因素进行取舍:术语的重要性、使用频率、主体所属、系统性、术语的构成能力、术语集收词是否全面、时间因素和搭配特点等。
对于已有规范的多领域交叉术语,不同学科术语标准参差不齐。大数据领域具有跨学科交叉的特点,其基础学科相应术语的规范形成的时间不同,规范制定的专家和出发点不同,形成的标准也不尽相同。同时,同一个术语,由于使用的地域不同,术语常常发生分歧。例如,“程序”这个术语,美国为program,英国则为programme。在中文术语中,由于我国台湾地区特殊的地理、历史和政治因素的影响,许多术语与大陆不同。如海峡两岸计算机科技术语中,两岸不一致的约占40%以上[6]。对于以上情况,有两个最基本的原则:一是遵循服从主学科的原则,即在以大数据为核心内容的前提下,筛选术语;二是择善而从,考虑术语出现的时间先后,以及目前的使用频率。同时,未选择的术语的缘由应做相应的交代。