学术咨询

让论文发表更省时、省事、省心

基于文本和用户信息的在线评论质量检测

时间:2020年03月09日 分类:电子论文 次数:

摘要:随着互联网的迅速发展,越来越多的用户评论出现在社交网站上。面对迅速增长的评论数据,如何为阅读评论的消费者提供准确、真实的高质量评论就显得尤为重要。评论质量检测旨在判断在线评论的质量,在传统的研究中,文本信息通常独立地被用于预测评论质

  摘要:随着互联网的迅速发展,越来越多的用户评论出现在社交网站上。面对迅速增长的评论数据,如何为阅读评论的消费者提供准确、真实的高质量评论就显得尤为重要。评论质量检测旨在判断在线评论的质量,在传统的研究中,文本信息通常独立地被用于预测评论质量。但是在社交媒体上,每个文本之间不是独立的,而是可以通过发表文本的作者与其他文本相关联,即同一个用户或相近的用户发表的评论质量具有一定的相似性。因此,为了更好的构建文本的表示和研究文本之间基于用户的关联,该文基于神经网络模型分别构建用户和文本的表示,同时,为了放大用户信息的作用,我们进一步将基于注意力机制的用户信息融合到文本中,从而提高文本评论质量检测的效果。在Yelp2013数据集上进行实验的结果表明,该模型能有效地提高在线评论质量检测的性能。

  关键词:评论质量;用户表示;神经网络模型;注意力机制

用户信息

  相关论文范文:高校科研用户信息需求研究现状与启示

  摘要[目的/意义]全面了解科研用户信息需求是高校图书馆在现代化环境下持续推进深化服务的前提,分析高校科研用户信息需求的研究成果可为今后的研究提供一定的参考和借鉴。[方法/过程]从近年公开发表的大量文献中,概括出国内外图书情报界对高校科研用户信息需求研究的7种研究方法、8个研究对象,厘清该领域研究的学术思维方式和基本立场。[结果/结论]高校科研用户信息需求呈现出的6大特点,反映该主题的热点与研究方向。综述高校科研用户信息需求对应科研过程4个阶段的若干图书馆服务对策,提出后续研究建议。

  0引言

  随着互联网技术的普及,网络购物市场也迅速发展起来,网络用户规模不断扩大,在线评论网站如Yelp.Amazon等也迅速增多。对于网络购物的潜在消费者而言,其他用户的在线评论可以帮助他们做出有效的购买决策.他们通过阅读其他已购买消费的用户在线评论信息或与其他用户交流购物感受可以对商品有更深层次的了解,进而做出有效的选择.买到心仪的产品。而对于商家而言,通过挖掘大量的评论数据来了解该项产品的用户体验,发掘用户最希望提供和改善的功能,以对产品做出针对性的改进。商家合理运用这些在线评论,将会为企业带来一波生产率的增长和利润的提高。对于产生在线评论的第三方网站来说,也可以通过提供高质量的评论信息来帮助他们建立良好的口碑,获取更高的关注度。

  但是随着在线评论数量的不断增长,评论质量良莠不齐,故并非所有的评论都具备参考价值。同时由于网络的匿名性,用户非面对面接触,沟通成本低,内部操作空间大,以及各大在线评论网站对评论内容的低约束性,导致一些用户随意发表评论,或提交一些与商品无关的评论.极端情况下,有的不良商家会找人撰写虚假、刻意夸大商品功能的评论。甚至一些同行竞争对手,会故意撰写诋毁对方商品或服务的恶意评论,这些评论对消费者的参考价值极低.甚至会引导消费者做出不正确的决定。在这种情况下.我们迫切地需要一个自动化的方法来辅助识别在线评论的质量。因此.科学、高效地从海量在线评论中帮助消费者抽取对决策参考价值高的评论信息就是本研究的价值所在。

  目前,国内外的相关学者已经对评论质量检测做了相关研究,并取得了显著的成果。但是,以往的研究都认为每条评论是独立的,对于每条评论的质量进行单独的检测。本文与以往的研究不同,在社交媒体上,每个文本之间不是独立的.而是可以通过发表文本的用户与其他文本相关联的。我们在Yelp2013实验数据集中随机抽取了两个用户发表在社交媒体上的两条评论,表1给出了评论示例及该评论在社交媒体上的得分。

  用户A在社交媒体上发表的评论文本信息较为单薄,只有简单的类似“最好”“很棒”等形容词,具有强烈的个人倾向性.对大多数阅读评论的消费者参考价值不大,评论的质量普遍偏低。而用户B发表的评论描述相对仔细,评论有针对性,例如•会具体到“周末有本地人才的音乐表演”“点单服务态度”等相关的描述,这种表述对阅读评论的消费者选择的可参考性较大,他们可以根据自己的爱好和需求进行选择。因此.在社交媒体上,阅读评论的消费者对用户A的评论打分普遍偏低,对用户B的评论打分普遍偏高。这说明同一个用户或相近用户,在社交媒体上发表的评论质量具有一定相关性。

  在本文的研究中,我们将同时考虑文本信息以及用户信息对于评论质量的影响。本文首先基于神经网络模型构建用户和文本的表示,同时为了研究用户信息对评论质量检测的影响,考虑到在线评论网站上的评论与传统评论文本的不同,社交媒体上,每个文本之间不是相互独立的.通过用户之间关联可以找到这些评论质量之间的相关性。

  考虑到注意力机制在自然语言处理的其他任务上表现优异.因此,为了放大用户信息的作用,我们将基于注意力机制的用户信息融合到文本信息中。通过设计相关实验,验证在文本信息中加入针对用户信息的注意力机制•对评论的质量检测性能具有明显的提升作用。本文组织结构安排如下:第1节介绍了情感分类和在线评论质量检测的相关工作;第2节介绍了数据收集的过程,且重点描述了本文构建的模型;第3节是实验设置的介绍和实验结果分析;最后,是对研究工作进行总结,同时提出下一步的研究方向。

  1相关工作

  评论的质量应该是以该条评论给消费者购物带来的参考价值来衡量的,评论给消费者带来的参考价值越高,评论质量就越高。所以.有很多在线评论网站会进行“有用性投票”,即通过一条评论所获得的有用投票数占总投票数的比例来定义它的质量。实际上这种方法存在一定的弊端,可能会淹没一些高质量的评论。目前,对在线评论质量检测方面的相关研究主要从以下方面展开。

  1.1情感分类

  情感分类一直是自然语言处理领域的研究热点,该任务的目标是对于给定的文本,推测其对应的情感极性,如Positive、Negative和Neutral。情感分类的方法也有很多,有传统的基于支持向量机、朴素贝叶斯的分类方法,也有基于热门的深度学习分类方法。Wang等E提出多项朴素贝叶斯(MNB)模型和使用朴素贝叶斯特征的支持向量机模型(NBSVM)来进行情感分类。Pang等⑷以电影评论作为数据集,采用了三种机器学习方法:朴素贝叶斯、最大爛分类和支持向量机,实验表明这三种机器学习方法在情感分类中的表现不如在主题分类中。Turney⑸提出了一种基于点互信息值来分析特定短语的情感极性.进而判断整篇文档情感倾向性的方法,该方法首先将文本进行分词和词性标注并提取出形容词或副词短语,然后使用“excellent"和“poor”两个种子词与未知词在搜索网页中的互信息来计算未知词的情感极性,并用以计算整个文本的情感极性。

  近年来,随着深度学习、神经网络的快速发展,很多神经网络技术也被应用到情感分类中,Cao等⑷发现卷积神经网络(CNN)与支持向量机(SVM)分类器相比,虽然情感分类的准确度得到了提升,但是不能有效地执行非线性分类,因此.他们提出了一个将CNN与SVM结合起来的模型,实验表明,该模型能达到较高的情感分类准确率。长短时记忆网络(LSTM)作为一种具有更复杂计算单元的递归神经网络,因其优良的序列信息保存能力,在各种序列建模任务中取得了很好的效果,Socher等灼将LSTM模型应用到情感分类任务中,也取得了不错的效果。

  Tai等⑷将传统的LSTM结构推广到树状网络拓扑结构来进行情感分类。Qian等:;:通过损失函数将语言学规则引入到现有的句子级别情感分析的LSTM模型中,在没有增加模型复杂度的情况下,有效地利用情感词典、否定词和程度副词的信息,在实验数据集上取得了较好的效果。近年来’对情感分类的研究热度也一直不减,Songpan等X提出了一种新的情感分析方法一情感短语模式匹配(sentimentphrasepatternmatching,SPPM),SPPM与其他算法相比较•准确率、召回率和F1值都有较大幅度的提高.该方法可以根据学生的意见来改善教学策略。Shen等3提出了一种基于扩展特征和动态合并的双通道卷积神经网络的文本情感分类算法,该算法比传统的单通道卷积神经网络算法具有更好的分类效果。但是以上研究都没有考虑评论质量的影响.低质量的评论会影响情感分类的准确率,因此,评论质量检测就显得尤为重要。

  1.2评论质量检测

  在线评论质量检测研究,既可以看作为传统的文本分类问题,也可以看作成一个回归问题。以往的评论质量研究都主要集中在利用评论的文本信息,研究影响评论质量的不同特征。例如,Kim等〔⑷研究表明,评论发表距今的时间是显著影响评论质量的元数据特征。如Ghose等⑼、Li等〔叩、Liu等指出影响评论质量检测主要的语言特征应包括评论字数、句子数、不同词性(名词、动词、形容词等)的词语数等。胡学钢等「⑷综合评论文本属性、评论者属性和店铺属性这三个影响因素.提出了一种基于多元线性回归算法的在线评论质量预测模型。Archak等⑴指出评论的极端性、评论的深度、评论的产品类型都将会对评论的质量造成影响。Chen等⑴强调在评论所包含的名词中,产品属性名词的频次是重要的语言特征,高质量的评论中应包含一定数量的产品属性名词。近年来,也有一些关于发表评论的用户信息对评论质量检测影响的研究。

  Ghose等认为,评论者相关信息是有效的评论质量检测特征,例如,评论者以往发表的评论数及有用率、评论者身份等。Cheng等"的研究侧重于分析评论者追随者人数、评论图片质量、评论字数以及周边路线这些社会因素对评论质量的影响。但是这些研究都是利用评论者自身的属性,例如,评论者好友的数量、注册的时间、发表的有用评论数。与上述利用评论者属性的研究不同.本文直接参考用户以往发表的在社交网站上的评论文本信息.利用同一个用户在社交网站上发表的评论质量具有一定的相似性.我们利用用户发表在社交网站上的历史评论文本信息构建用户的表示,以进一步提高评论质量检测的性能。

  2基于注意力机制用户信息的评论质量检测

  本文利用评论的文本信息构建LSTM模型对评论的质量进行检测,考虑到在线评论网站上的评论与以往独立的单文本不同,社交网站上,每个评论文本之间不是相互独立的.通过用户之间相关性可以找到这些评论质量之间的相关性。一般来说.拥有更多粉丝和已发表的高质量评论数越多的用户,再次发表的评论质量会更高,因为同一个用户或者相近的用户发表的评论质量也是相似的。因此.我们在模型中加入了用户信息.从而对评论的质量进行全面的预测。最近出现的注意力机制在其他自然语言处理任务上都取得了不错的效果,注意力机制可以更好地表征文本,在训练时可以自动获取更为重要的特征。

  例如,在情感分类任务中,地名、人名等名词没有表达情感类的形容词重要,所以,在神经网络训练时.表达情感的形容词就应该占有更大的权重。因此,引入注意力机制可以将神经网络的注意力集中在那些对当前任务更重要的向量上,以提高模型的准确率。所以,为了进一步放大用户信息的作用,我们结合注意力机制将用户信息融合到文本信息中,实验结果表明.评论质量检测分析的性能得到了进一步提高。

  3结论

  互联网上日益丰富的评论信息确实给人们的生活带来了便利,为人们在购物时的决策提供了更多的参考。但互联网上的信息良莠不齐,数据庞大,信息爆炸也为消费者带来了困惑,同时也影响了评论的参考价值,降低了消费者决策的效率和效果。因此快速地筛选出对消费者决策最有帮助的高质量评论就显得尤为重要。考虑到社交媒体上同一个用户发表评论质量的相似性,本文提出一种基于LSTM神经网络,针对用户信息引入注意力机制来预测在线评论质量的模型。该模型能帮助消费者从在线评论网站海量的评论中快速识别出有用的评论,做出正确的购买决策。

  类比在模型中加入评论的用户信息,我们很容易联想到.加入评论的对象商家信息是否也会提高评论质量分析的性能。我们在分析实验语料时发现,评论者的好友信息也具备一定的参考价值,有用评论的用户好友质量普遍比较高,发表的评论数比较多,同时有用的评论也比较多,因此,可以考虑在模型中加入用户的好友信息。同时,我们受到情感分类的启发,分析评论的情感信息或许也能更好地筛选质量高的评论。以上所述都有待未来更详尽的研究工作来完成,本文以后的工作将进一步考虑加入商家信息和情感信息,并探究其对评论质量的影响。