新闻资讯

深圳私家侦探公司待遇

人工智能与识别技术信息与电脑 China Computer&Communication2013年03月刊基于情感词语义的中文微博情感挖掘孙?先?段?卓 西南石油大学计算机科学学院关键词:微博;情感分析;语义1引言随着微博的迅猛发展,许多事件首先在微博中出现,并得到关注, 随之而来的是大量主观性信息。这些消息大多是对自己心境的描述, 或者对事件的看法和态度,如对政府政策、公共事件等的评论。分析 这些消息或正或负的情感,以及更细致的情感强弱,对于了解个人的 心理状态、社会舆情监控以及信息预测都有重大的意义 [1-2]。 目前对于文本的情感分析主要有两种方法:基于机器学习和基于 词典。前者的主要思想是通过领域专家事先标注一些文本的情感倾向, 按照机器学习的方法构造分类器,根据已标注的训练语料训练分类器, 用这个分类器对未标注的语料进行分类,从而挖掘出情感。如 Bo Pang 等人[3]分析了中文微博的情感倾向。2情感词典构建本文从微博语料中人工挑选了使用最为频繁的若干情感词,利用 HowNet 获得了这些词的情感义原,然后利用 HowNet 提供的语义信 息,通过词语相似度计算 [6],建立了形如 < 词,权值 > 的情感词典, 权值表示了词条的情感倾向程度,称之类“情感强度”。

情感强 度 在 [-1 , +1] 之间取值,取值为正时,说明该词为正向情感词,其 情感强度越靠近 +1,其积极情感倾向越显著。反之,则说明该词为 负向情感词,情感强度越接近 -1,其消极情感倾向越显著。 在我们的方法中,构建情感词典首先要选择一组情感基准词集情感词, 通过待选情感词与基准词集的语义关系计算出情感倾向。若用 O( w) 表示待选情感词 w 的情感强度,则有:引入了机器学习的方法,利用朴素贝叶斯(Naive Bayes,NB)方法、最大熵(Maximum Entropy,ME)方法、支持向量机(SupportVector Machines,SVMs)方法对电影评论文本进行情感倾向分析,发 1 = O( w) N 现三种方法效果并没有很大差异。相对而言,NB 效果最差,而 SVMs 方法则获得了最好的效果。后者的主要思想是根据文本中未知情感倾 向的词与基础情感词的相似度获得情感倾向,累加所有倾向值,从而 得到文本的总体情感倾向。如 Turney[4] 使用点互信息技术(Pointwise Mutual Information)和信息检索技术(Information Retrieval)确定待定 倾向的词与基础情感词的相似度,从而评估出词的情感倾向。

朱嫣岚 等人[5]p∈PP∑ Sim( p, w) ? M ∑ Sim(q, w)q∈PN1= PN {= PN j , j 1, 2, L , M } = PP {= PPi , i 1, 2, L , N } 为正向基准词集, 其中为负向基准词集。 对于基准词集有两种方案, 一是文献 [5] 那样用词语作基准词集, 但我们考虑到 HowNet 的词语相似度计算最终都是通过义原实现的, 并且这样做可消除基础情感词中非情感义原造成负面影响,同时还可 以提高系统实现的效率,故本文采用第二种方案:情感义原作基准词 集,而后的实验也证明这一方法确实准确有效。表 2-1 给出了我们所 采用的基准义原。正向则利用 HowNet 提供的语义相似度 ,来计算待定倾向词与基[6]础情感词之间的相似度,从而确定待定词语的情感倾向。 本文在基于词典方法的基础上,利用情感词的上下文语境知识,表 2-1?基准义原 良、好、强、专、美、雅、喜悦、真、优、满意、夸奖、善、福、勇、期望、正确、喜欢、谦、敬佩、致敬、爱惜、思念、愿意、祝贺、自由、拥护、需求、欢迎、 乐观、奖励、健壮、致谢、羡慕、感动、感激、爱恋、幸运 负向 莠、坏、恶、谴责、愚、难、弱、劣、害怕、伪、生气、悲哀、轻视、着急、危、呆、惨、羞愧、烦恼、淫、灰心、为难、厌恶、丑、犹豫、不幸、懊悔、怜悯、怀疑、 不满、忧愁、示怒、埋怨、仇恨、损害、失望、惋惜、贱、悲观、失败实验表明我们的方法判断词语情感倾向时,在正确率和计算效率 都比基于基准词的方法更优。

联系我们

CONTACT US

广州及时雨私家侦探(广州本地私家侦探公司)

微信:185-2064-4544

电话:185-2064-4544

地址:广州市天河区

广州出轨调查