[00223131]一种字频文本分类方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201610698064.2
交易方式:
技术转让
技术转让
技术入股
联系人:
中山大学
进入空间
所在地:广东广州市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
摘要:本发明提出一种字频文本分类方法,包括以下内容对输入的文本进行预处理,对于处理后的文本进行汉字分割,形成语料库,去除语料库内的停用词,形成词汇文本矩阵,采用分类器对样本进行训练,计算字频的召回率,计算方式为本发明的分类方法,具有以下特点字频的效果比词频要好很多,甚至在随机森林(RF),人工神经网络(NNET),已经组合分类器Bagging和Boosting算法中召回率都达到了100%。这证明在商品描述中,字频比词频更具有特征性。
摘要:本发明提出一种字频文本分类方法,包括以下内容对输入的文本进行预处理,对于处理后的文本进行汉字分割,形成语料库,去除语料库内的停用词,形成词汇文本矩阵,采用分类器对样本进行训练,计算字频的召回率,计算方式为本发明的分类方法,具有以下特点字频的效果比词频要好很多,甚至在随机森林(RF),人工神经网络(NNET),已经组合分类器Bagging和Boosting算法中召回率都达到了100%。这证明在商品描述中,字频比词频更具有特征性。