• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于微博平台的舆情参与主体情感强度研究

    时间:2023-01-18 22:40:05 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    黄卫东,程小香

    (南京邮电大学 管理学院,江苏 南京 210003)

    伴随着移动互联网以及移动终端的飞速发展,在线社交媒体的迅速普及,舆论重心逐渐由线下转移到线上。微博诞生于2009年,是移动互联网和Web2.0时代的代表产品。通过微博,用户可以利用140字的短文本形式发布信息,也可以浏览到正在发生的事件,满足了用户的社交需求和资讯需求,迅速占领国内市场。据CNNIC统计,截止到2020年6月月底,国内微博用户数量达5.23亿,日活跃用户2.3亿,如此庞大的注册用户数量以及活跃用户数量,让微博成为国内舆情研究最主要的社交媒体平台。

    通常情况下,具有不同的社会背景、生活经历以及教育水平的舆情参与主体会对相同舆情事件产生不同的情感,而这种情感影响舆情事件的发展趋势。情感的倾向可以有效反映出参与主体对舆情事件是积极或是消极的态度,情感强度也可以表现出参与主体对舆情事件的关注度和投入度的大小。该文通过微博话题“暴雪”作为研究对象并收集相关数据,构建Bilstm+Attention+情感副词词典的分类模型来研究舆情参与主体的情感强度。

    21世纪以来,大量学者针对情感进行分类研究,涉及到的情感分类技术基本可以划分成三种类型:基于情感词典的方法、基于机器学习的方法以及基于深度学习的方法。

    基于情感词典的方法主要依靠情感词典的构建对文本进行分类,通过词性标注以及词出现的位置来判断文本情感。Khoo等人[1]构建了一种通用情感词典,命名为WKWSCI,并将其和现有的情感词典分析比较,显示出较高的分类准确度。Wu等人[2]通过构建原始情感词典、表情符号词典以及其他相关词典,扩大了情感词覆盖范围,提高了实验的准确性。周知等人[3]提出一种针对短文本的情感词典构建方法,其结果的准确率、召回率、词典规模均高于通用情感词典。但由于网络新词的频繁出现,这类词在一定时期内会被广泛使用,并对文本情感影响很大,且情感词典未定义该类词,导致情感分类准确率降低。

    基于机器学习的方法,包括:支持向量机、朴素贝叶斯、随机森林等,通过统计的方法将文本情感进行分类。Kumar等人[4]从亚马逊(Amazon)中提取评论信息,并使用几类不同的机器学习算法将其判别为积极或消极,实验性能通过查准率、召回率和F1值来衡量。Long等人[5]基于SVM使用包含先验概率的样本数据对股票论坛帖子进行分类,并证明了其有较高的准确率。陈新元等人[6]将词典抽取的规则情感特征与机器学习的基本特征模板融合,使用朴素贝叶斯等分类器,提高情感分类的性能表现。但是基于统计的机器学习分类方法的工作量巨大,需要大量的人工提取特征,给实际工作带来诸多不便。

    对比机器学习,利用深度学习算法分类方式无需人工的特征提取,可以通过模型内部神经网络结构进行特征提取。Wang等人[7]采用长短期记忆神经网络来分析文本的情感类别。杨秀璋等人[8]针对传统方法对舆情事件情感分析缺乏深层次语义支持,且特征稀疏、上下文关系单薄,导致情感分类准确率较低,无法第一时间感知舆情突发事件等问题,提出一种基于TextCNN Attention的舆情事件情感分析模型,其实验结果表明该模型优于传统的舆情情感分类方法。Baziotis等人[9]将Attention机制引入到LSTM中,该算法在SemEval-2017对Twitter的情感分析,获得了较好的实验效果。赵宏等人[10]提出的Bert-Han模型能有效提升微博情感分析的Macro F1和Micro F1值,具有较大的实用价值。但是深度学习算法是根据语义提取特征,当特征的相似性接近时,分类效果会随之降低,无法对情感强度进行区分。

    对于情感强度的研究,刘依欢[11]提出了评价词的确定原则,从不同的角度对评价词进行分类,并论述了影响文本情感强度的语言因素,包括词汇、语境、固定搭配、语法手段、标点符号和表情等。来能烨[12]分析实际文本中副词可以表达出的情感强度,将不同情感强度的副词赋予不同权重值,通过将句子本身定义的权重值与句中副词权值相乘来获得文本总情感强度。李肇明等人[13]提出模糊量化情感词。根据训练的语料库找出情感词,情感词的选取标准按照高频词汇和情感词强度权值来选取,其中情感强度权值采用人工标注的方式。尹培培[14]根据现有的情感词典构建出包括情感极性和情感强度的情感词典,新的情感词典中包括修饰词的词典,然后基于构建的情感词典进行文本的情感倾向计算。吴青林[15]从客观情感强度和主观情感强度两方面分析微博情感强度。

    针对传统方法无法准确感知舆情参与主体的情感强度、特征稀疏以及对上下文关系没有充分挖掘的缺点,构建了一种Bilstm+Attention+情感副词词典,利用双向长短期记忆模型自动提取内部特征对文本情感倾向进行分类,并充分考虑上下文的语义联系,引入注意力机制,增强文本与结果的相关性,提高分类性能。但深度学习无法准确区分情感强度,该文将情感副词词典引入分类模型,构建Bilstm+Attention+情感副词词典的分类模型来研究舆情参与主体的情感倾向及强度。

    2.1 总体框架

    整体框架如图1所示。

    首先利用python从微博平台的开源API接口获取舆情参与主体的文本数据信息,保存在excel表格中。之后将数据进行清洗,去除无意义的词、字母以及标点符号,用jieba进行分词,关键词展示以及文本长度可视化,这一步可以大致确定接下来特征提取的维度。

    利用word2vec提取文本特征并计算中心词,将文本转化成向量形式输入到情感分类模型中,利用Bilstm+Attention+情感副词词典分析情感强度。

    2.2 基于Bilstm+Attention模型的情感倾向分类

    Bilstm+Attention模型主要由5部分构成,分别是输入层、词嵌入层、Bilstm层、Attention层和softmax输出层,如图2所示。

    (1)输入层(Input Layer)。

    Bilstm+Attention模型的输入层只接受词语级形式的输入,所以先将文本进行jieba分词等预处理操作后,将结果以词的形式输入。

    (2)嵌入层(Embedding Layer)。

    Bilstm+Attention模型的嵌入层选择word2vec预训练好的向量,将文本中的每个词映射到低维空间,并用表征词语的向量来计算整个句子的表征向量。

    word2vec是一种浅层的神经网络模型,其中包括两种模型跳字模型(skip-gram)和连续词袋模型(continuous bag of words,CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax),并且word2vec词向量可以较好地表达不同词之间的相似和类比关系。

    (3)双层长短期记忆层(Bilstm Layer)。

    Bilstm模型是在RNN模型上改进而来,其主要包括两个相反方向的传播,每个时间点包含一个LSTM单元用来选择性地记忆、遗忘和输出信息。LSTM单元的公式如下:

    it=σ(Wxixt+Whiht-1+Wcfct-1+bi)

    (1)

    ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

    (2)

    gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc)

    (3)

    ct=itgt+ftct-1

    (4)

    ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

    (5)

    ht=ottanh(ct)

    (6)

    Bilstm模型对输入的向量进行前向和后向遍历,然后将结果加和,公式如下:

    (7)

    h*=tanh(r)

    (8)

    式中,xt为t时刻的输入词,it为t时刻记忆门的值,ft为遗忘门,ct为t时刻的细胞状态,ht为t时刻的隐藏状态,ot为输出门,gt为上一细胞状态,W为权重系数,σ为激活函数,b为偏置值。

    (4)注意力机制层(Attention Layer)。

    注意力机制打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。注意力机制与传统的Seq2Seq模型主要是前者解并不是直接把所有encoder提供的hidden state作为输入,而是采取一种选择机制,把最符合当前位置的hidden state选出来。

    (5)输出层(Output Layer)。

    Bilstm+Attention模型输出层使用softmax分类:

    (9)

    (10)

    整个模型的损失函数(loss function)为:

    2.3 基于情感副词词典的情感强度分类

    文本中影响情感强度的因素繁复多样,最主要的研究方向就是词汇方面,按照词性可以将词汇分成四种:名词、动词、形容词以及副词。副词是影响文本情感倾向最典型的因素,其中对情感强度最具有区分度的是副词,现有系统对副词的处理方法是根据强度的差异,将其细分成四个等级,之后再给这四个强度分配不同的值,进行情感强度计算。具体分级及示例如表1所示。

    表1 程度副词分级及示例

    首先依据Bilstm+Attention模型将文本情感进行正负区分,正向情感用+1来表示,负向情感用-1来表示。再利用jieba分词工具中的标注词性模块将文本中的副词标注出来,提取文本中的副词,构造情感副词词典。具体公式如下:

    (12)

    式中,Ti表示第i个文本的情感得分,bi表示第i个文本中副词等级属于a的个数,wa=2、3、4、5,(±)i1表示第i个文本的情感正负值。

    实验主要在Windows10环境下完成,通过tensorflow框架构建Bilstm+Attention情感分类模型,编程语言为Python3.6。此外,为验证算法的有效性,进行了系统的对比实验。

    3.1 实验数据

    以“暴雪”为主题词,首先利用python从微博平台的开源API接口获取用来实验的舆情参与主体的文本数据信息。数据类型有用户id、用户发文内容,以及相应的转发、评论、点赞数量,数据总量为25 643。将数据进行去重处理,保证所有文本都是原创微博,剩余24 496条数据,保存在excel表格中。为了更好地训练Bilstm+Attention模型以及与其他模型做对比实验,将一部分数据进行人工划分情感正负倾向,部分数据如图3所示。

    3.2 评价指标

    针对微博舆情事件进行情感分析研究,其评价过程采用三个指标,即精确率(precision)、召回率(recall)和宏平均(F1-score)。其计算公式为:

    (13)

    (14)

    (15)

    式中,TP表示预测为正类且实际也为正类的数量,FP表示实际为负类预测为正类的数量,FN表示实际为正类预测为负类数量。

    3.3 实验分析

    (1)关键词云展示,如图4所示。

    在关键词云中,词语的大小表示出现的频率,位置代表词语与其他词语的亲密程度。正面情感词有安全、及时、畅通等,负面情感词有寒潮、灾害、患者等,也包括一些中性词语,例如:医院、地区、人民等。通过关键词云可以在海量的数据中直观地展示出舆情参与主体关注的重点方向。

    (2)文本长度分布,如图5所示。

    文本长度可以为提取特征的维度提供依据,根据大部分文本长度分布的区域选择相应大小的维度,可以提高结果的准确度和可靠性。从图5中可以看出大部分文本处于区间[30,130]之间,经调整后,文本长度设置120时,实验效果最佳。

    (3)对比结果分析。

    通过Bilstm+Attention模型对微博舆情参与主体的情感倾向进行分析,并与其他三种深度学习算法进行详细的对比实验,包括CNN+Bilstm、Bilstm、TextCNN。实验指标选择精确率(precision)、召回率(recall)以及宏平均F1(F1-score)。

    分别对正面情感和负面情感的文本进行预测,并绘制如图6所示的正面舆情结果,如图7所示的负面舆情结果。

    由图6可知,文中算法在正面情感分析中,其精确率为0.85、召回率为0.81、宏平均F1值为0.83,这些情感分析评估结果综合来看高于其他深度学习结果。在图7中,微博舆情参与主体的正面情感分析评估结果总的来说也优于其他三种算法,其精确率为0.86、召回率为0.81、宏平均F1值为0.84。通过上述对比实验,进一步验证了文中算法的良好性能。

    (4)情感强度分析。

    利用Bilstm+Attention模型对剩余的9 972条数据进行情感倾向分类处理,得出情感倾向,利用jieba分词工具标注实验文本的词性后将副词提取出来,构建副词词典。实验部分结果如图8所示。

    根据实验结果,将文本的情感强度以发布时间为基础进行累加,时间范围为2021年11月4~14日,分别计算每天正向情感总强度、负向情感总强度,与真实情况作比较。为了更好地拟合舆情走势,将结果映射到相应的区间里,如图9所示。

    从上述两张图中可以看出每日的情感总强度与舆情走势情况,两者的趋势基本一致。负面情感舆情走势及实验结果的情感强度在11月8日达到顶峰,正面情感舆情走势及实验结果的情感强度在11月10日达到顶峰。根据实际情况可知,8日的暴雪导致列车停运、学校停课、路面湿滑等,这些事件导致舆情参与主体总体情感较为消极。11月10号可知,政府部门及时介入,包括疏通铁路干线、清除路面积雪、开展相关宣传等,有效地消除了舆情参与主体的负面情绪,缓解了紧急的事态。

    针对传统方法无法准确感知舆情参与主体的情感强度、特征稀疏以及对上下文语义关系没有充分挖掘的缺点,构建了一种Bilstm+Attention+情感副词词典,利用双向长短期记忆模型自动提取内部特征对文本情感倾向进行分类,并充分考虑上下文的语义联系,引入注意力机制,增强文本与结果的相关性,提高分类性能。但深度学习无法准确区分情感强度,该文将情感副词词典引入分类模型,构建Bilstm+Attention+情感副词词典的分类模型来研究舆情参与主体的情感倾向及强度。实验结果表明,构建的模型计算的舆情参与主体情感强度可以有效反映出舆情走势。

    对于影响情感强度的因素,该文只考虑了词汇因素,像表情、特殊符号、图片等因素也包含丰富的情感信息。在未来的研究中,将会考虑以上的问题,进一步提高情感强度分类的准确度。

    猜你喜欢 词典副词舆情 米兰·昆德拉的A-Z词典(节选)文苑(2019年24期)2020-01-06米沃什词典文苑(2019年24期)2020-01-06短句—副词+谓语娃娃画报(2019年8期)2019-08-05词典引发的政治辩论由来已久 精读英语文摘(2019年5期)2019-07-13数字舆情领导决策信息(2017年13期)2017-06-21数字舆情领导决策信息(2017年9期)2017-05-04消费舆情消费电子(2016年12期)2017-01-19漫画词典中关村(2014年5期)2014-05-15副词和副词词组高中生学习·高三版(2014年3期)2014-04-29hardly是hard的派生词吗?中学英语园地·初二版(2008年3期)2008-07-15
    相关热词搜索: 舆情 强度 主体

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章