当前位置：首页 > 科技成果 > 详细页

[01898147]一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

交易价格： 面议

所属行业： 网络

类型： 发明专利

技术成熟度： 正在研发

专利所属地：中国

专利号：CN202010895778.9

交易方式： 技术转让

联系人：

所在地：

登录后向技术服务商咨询

技术详细介绍

一种基于多粒度文本特征表示的微博用户兴趣识别方法，包括：对获取的语料进行预处理，包括文本清洗、分词、去停用词和数据过滤；

从主题层、词序层和词汇层三个方面构造文本向量；

对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示；

将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估。

本发明提供的方法，综合多粒度文本特征的考量，提高了模型的表征能力，进而提高文本分类的准确性，达到精准分类的效果，能够解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。