新闻资讯

找深圳私家侦探

一次就好情感另类词_另类词情感_情感词

基于语料的情感词典构建方法

【专利摘要】本发明公开了一种基于语料的情感词典构建方法,通过预先获得一部分已知情感倾向的形容词,包括积极的和消极的两种,再利用转折词和否定词,提取并分析未知情感倾向的形容词,不断扩展种子词库,最后做出判断。该方法不需要人工干预,且属于无监督的学习方法,能大大提高工作效率。该方法构造的情感词典,可以用于评论分析,能快速地得到其情感倾向,达到快速分析的目的。

【专利说明】基于语料的情感词典构建方法

【技术领域】

[0001]本发明属于人工智能发明技术,具体涉及一种基于语料的情感词典构建方法。

【背景技术】

[0002]现存的部分中文情感词典,都是通过人为总结一些常用的形容词来构建,效率低下,又不具有领域性。而中文没有类似于英文wordnet的词典,无法通过现有词典来构建情感词词典。基于语料的情感词典构建方法,将人们的语言习惯运用到文本的分析中,构造出积极和消极两类词典。即节省了劳动力成本,又具有领域性和对新词情感的判断力。

[0003]较早根据语言规则来分析语料、构建情感词典的是Hazivassiloglou和McKeown,他们利用一个语料库和形容词情感词种子集,根据语言规则,找出其他形容词的情感指向。比如利用“AND”,“BUT”等连词。他们还使用聚类算法来确定两个连词连接起来的词具有相同还是相反的极性,从而产生两个单词集。Kanayama和Nasukawa使用句内和句间情感一致性的概念来生成情感词典,句间一致性是因为通常相同情感的句子是连着的。情感改变通常是由转折词造成,比如“but”。但是他们对算法执行过程中得到的情感词的利用率较差。

【发明内容】

[0004]本发明的目的在于提供一种基于大规模语料的情感词典生成方法,该方法具有准确率高,节省时间等优点,可为评论分析提供重要的参考资料。

一次就好情感另类词_情感词_另类词情感

[0005]实现本发明目的的技术方案为:一种基于语料的情感词典构建方法,包括以下步骤:

第一步,利用中文分词工具,对语料进行预处理,将语料中连续的中文句子划分成一个个词或者字,用空格隔开,并标记词或者字的词性;

第二步,统计出语料中所有形容词的词频并按从高到低进行排序,取前5%-10%有确定情感极性的形容词作为种子词构成情感词库,并分析种子词的情感极性,将正面评价的词的极性称为积极的,将负面评价的词的极性称为消极的,分别构成两个种子词列表,这两个种子词列表作为情感词库的初始列表,初始词频为I ;

第三步,取经过预处理的语料中的文本,若有需要分析的语料,按照标点对文本进行断句,得到多个分句,分句中不含标点,继续执行第四步;若没有需要分析的语料,则转至第六

I K

少;

第四步,搜索得到的每一个分句中的形容词,设定一个阈值K,在形容词所在位置的前K个词或字范围内遍历,根据汉语词典中指出的具有否定意义的词,判断是否有否定词,若有,则根据极性转移规则添加到相应列表中,否则停止寻找否定词;再根据汉语词典中指出的具有转折意义的词,判断该分句是不是以转折词开头,若是,则根据极性转移规则改变当前极性,否则极性不变;然后分别按极性转移规则将分句中的形容词添加到两个列表S和a中;

第五步,分析第四步得到的两个列表s和a的极性,即用情感词库中的种子词检验列表S和a的极性,若其中一个列表中含有积极种子词的数目不少于消极种子词的,则该列表中所有的词归为积极的,另一列表中的词则归为消极的;若两个列表中均分别含有相同数量的消极种子词和积极种子词,则返回第三步;否则,把两个列表s和a中判断出极性的形容词添加到情感词库的初始列表中作为种子词,若初始列表中已有该形容词,则把其词频加1,否则设置该形容词的词频为1,返回第三步;

联系我们

CONTACT US

广州及时雨私家侦探(广州本地私家侦探公司)

微信:185-2064-4544

电话:185-2064-4544

地址:广州市天河区

广州出轨调查