所属领域: A 电子信息技术
技术成果简介
文本情感分析是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。近几年来,随着自然语言处理在人们日常生活中的运用越来越多,文本情感分析技术也从中得到了很好的发展,在众多学者的研究下,长文本情感分类的准确率已经能到达一个较好的预估值;但当前互联网中大量存在的则是短文本,它所具有的特征稀疏和文本信息少的特点,使得对其做情感特征的提取显得十分困难,同时,在大多数评论信息中,由于用户文本描述的信息量不大,导致很难挖掘出用户对于当前事件的情感倾向。因此,如何从这些海量的短文本数据中及时的挖掘出有用的情感信息是一个巨大的挑战。针对现有技术中的上述不足,本发明公开了一种基于特征增强的短文本情感分类方法及系统,包括以下步骤:基于TextRank对短文本数据进行情感词提取得到情感词典;获取实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;基于所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;对所述Word2vec词向量矩阵进行分类。该方法提高了神经网络的情感特征提取能力,最终达到提高了短文本的分类效果。
技术成果前景
本发明提供一种基于特征增强的短文本情感分类方法及系统,考虑到短文本信息量少、特征稀疏等特点,在基于Word2vec的词向量基础上引入情感词典,结合设计的加权通过情感词典来对训练词向量中的情感词进行加权,提高了Word2vec训练词向量的情感特征的表征强度;进一步地,还提供一种基于注意力机制的神经网络对短文本数据进行情感词提取的方法,有别于其他单个神经网络对文本特征信息提取能力有限,本发明中引入混合神经网络来加强特征提取能力,混合神经网络结构为BERT+CNN+BiLSTM+Attention,其首先用BERT训练的词向量作为输入,然后通过注意力机制对情感特征进行权重加成,提高了神经网络的情感特征提取能力,最终达到提高了短文本的分类效果。