首页 >> 收录期刊 >> 中文信息学报 >> 正文
杂志中文名:中文信息学报
杂志英文名:Journal of Chinese Information Processing
主管单位:中国科学技术协会
主办单位:中国中文信息学会、中国科学院软件研究所
地址:北京海淀区中关村南四街4号
邮编:100080
电话:010-62562916;
Email:cips@iscas.ac.cn
ISSN:1003-0077
主编:孙茂松












中文文本分类中的特征选择研究
引用本文:周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23.
作者姓名:周茜  赵明生  扈旻
作者单位:清华大学,电子工程系,北京,100084
摘    要:本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Nave Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果.其中,当用Nave Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右.

关 键 词:计算机应用  中文信息处理  文本分类  特征选择  类别区分词
文章编号:1003-0077(2004)03-0017-07
修稿时间:2003年11月3日
作者简介:周茜(1980-),女,硕士研究生,研究方向为信息检索、中文信息处理.

Study on Feature Selection in Chinese Text Categorization
ZHOU Qian,ZHAO Ming sheng,HU min.Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(3):17-23.
Authors:ZHOU Qian  ZHAO Ming sheng  HU min
Abstract:
Keywords:computer application  Chinese information processing  text categorization  feature selection  class discriminating words
本文献已被 CNKI 维普 万方数据 等数据库收录!