一种基于多粒度文本特征表示的微博用户兴趣识别方法,包括:对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
从主题层、词序层和词汇层三个方面构造文本向量;
对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;
将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
本发明提供的方法,综合多粒度文本特征的考量,提高了模型的表征能力,进而提高文本分类的准确性,达到精准分类的效果,能够解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。
Copyright © 2016 国家技术转移西南中心-区域技术转移公共服务平台 All Rights Reserved 蜀ICP备12030382号-1
主办单位:四川省科技厅、四川省科学技术信息研究所、四川省技术转移中心科易网