[00275508]一种基于词分布和文档特征的垃圾评论自动分类方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201510549592.7
交易方式:
技术转让
技术转让
技术入股
联系人:
南京大学
进入空间
所在地:江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种基于词分布和文档特征的垃圾评论自动分类方法,首先收集网络评论,对评论分词得到关键词集合;再建立词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;之后提取网络评论的文档特征,计算未标注网络评论的分类概率;最后对分类概率计算加权平均,重复上述步骤直到前后两次计算的分类概率相同或达到给定的迭代次数。该方法综合考虑网络评论中词分布特征和文档特征,通过自学习策略自动完成网络评论分类,帮助识别其中的垃圾评论的方法。本发明计算简单,通用性和扩展性强,只要少量具有标注的网络评论即可对大量的评论进行实时分类,适用于即时更新的网络评论中快速识别垃圾评论的应用需求。
本发明公开了一种基于词分布和文档特征的垃圾评论自动分类方法,首先收集网络评论,对评论分词得到关键词集合;再建立词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;之后提取网络评论的文档特征,计算未标注网络评论的分类概率;最后对分类概率计算加权平均,重复上述步骤直到前后两次计算的分类概率相同或达到给定的迭代次数。该方法综合考虑网络评论中词分布特征和文档特征,通过自学习策略自动完成网络评论分类,帮助识别其中的垃圾评论的方法。本发明计算简单,通用性和扩展性强,只要少量具有标注的网络评论即可对大量的评论进行实时分类,适用于即时更新的网络评论中快速识别垃圾评论的应用需求。