中 文 信 息 学 报
第 19 卷 第 6 期 JOURNAL OF CHINESE INFORMATION PROCESSING
文章编号 :1003 - 0077 (2005) 06 - 0021 - 07
基于类别特征域的文本分类特征选择方法
赵世奇1 ,张 ,刘 ,陈毅恒 ,黄永光 ,李 宇 挺 生
( 哈尔滨工业大学 信息检索研究室 ,黑龙江 哈尔滨 150001)
摘要 : 特征选择是文本分类的关键问题之一 ,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍 .
[1 本文介绍了一种基于类别特征域的特征选择方法 .该方法首先利用 "组合特征抽取" ] 的方法去除原始特征
空间中的噪音 ,从中抽取出候选特征 .这里 "组合特征抽取" , 是指先利用文档频率 ( DF) 的方法去掉一部分低 频词 ,再用互信息的方法选择出候选特征 .接下来 ,本方法为分类体系中的每个类别构建一个类别特征域 ,对 出现在类别特征域中的候选特征进行特征的合并和强化 ,从而解决数据稀疏的问题 .实验表明 ,这种新的方 法较之各种传统方法在特征选择的效果上有着明显改善 ,并能显著提高文本分类系统的性能 . 关键词 : 计算机应用 ; 中文信息处理 ; 文本分类 ; 特征选择 ; 类别特征域 中图分类号 : TP391 文献标识码 :A
A Feature Selection Method Based on Class Feature Domains for Text Categorization
( Information Retrieval Laboratory , Harbin Institute of Technology , Harbin , Heilongjiang 150001 , China )
Abstract :Feature selection is one of the key problems in text categorization. The chief obstacles to feature selection are noise and sparseness. This paper presents a novel feature selection method which is based on class feature domains. First , tract candidate features. That is , we' take off low frequency words using Document Frequency method firstly and then se2 ll lect candidate features using Mutual Information method. Then , we will construct a class feature domain for each class and ture domains. Experiments show that our method is much better than kinds of traditional feature selection methods and it can improve the performance of text categorization systems markedly. Key words :computer application ; Chinese information processing ; text categorization ; feature selection ; class feature do2
Ξ
mains
we will make use of the combined feature selection method [1 ] to remove noisy features from the original feature space and ex2
1 引言
文本分类是指在给定的分类体系下 ,对未知类别的文档进行自动处理 ,并根据文档特征来 判断其所属类别的过程 .近年来 ,随着网上电子文档的数量以指数级的速度增长 ,文本分类技 术在信息检索 , 信息过滤以及内容管理等各项应用中变得越来越重要 .
conquer the sparseness of trainning datas by merging and strengthening the candidate features which appear in the class fea2
- catiar19安装方法 > 中文信息学报第19卷第6 期
-
中文信息学报第19卷第6 期
下载该文档 文档格式:PDF 更新时间:2010-02-01 下载次数:0 点击次数:7文档基本属性 文档语言: 文档格式: pdf 文档作者: Paredes Laymuns 关键词: 主题: 备注: 点击这里显示更多文档属性 经理: 单位: 分类: 创建时间: 上次保存者: hp 修订次数: 30 编辑时间: 文档创建者: 修订: 加密标识: 幻灯片: 26 段落数: 105 字节数: 1268995 备注: 26 演示格式: Carta (216 x 279 mm) 上次保存时间:
- 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
- PDF格式下载
- 更多文档...
-
上一篇:教育家长热线2008年11月19日星期三
下一篇:审计抽样和其他选取测试项目的方法第一章
点击查看更多关于catiar19安装方法的相关文档
- 您可能感兴趣的
- proe5.0安装方法 ug6.0安装方法 proe4.0安装方法 ansys12.0安装方法 ug4.0安装方法 ug7.0安装方法 ug7.5安装方法 ug8.0安装方法 ansys10.0安装方法 ansys12.1安装方法
- 大家在找
-
- · 食堂餐具清洗消毒制度
- · 电气设备安装理论知识试卷(A)
- · 小班教案认识五官
- · 新超越极限2.43e
- · 曲柄滑块机构瞬心
- · 厦门大学自动化系
- · 年轻的维多利亚£圣城loveliness
- · 现代通信原理ppt
- · 重装机兵沙尘
- · 2011发型梨花烫图片
- · 独山子石化公司乙烯厂
- · 第十三届书信大赛
- · 7座家用mpv
- · 小松挖掘机工作视频
- · 芦花荡阅读理解
- · 数控车工课件免费下载
- · 电梯主板维修技术
- · 模糊数学应用领域
- · 11对战平台imba
- · 万方科技学院
- · 大二学期总结与计划
- · 湖南省建筑设计专家合格人员汇总表
- · 音乐说课教案
- · 平狄克微观经济学课件
- · 上海外贸服装批发市场
- · l旅游版小学英语课件
- · cad室内平面图
- · 东风天锦货车济南价格
- · 小学二年级上数学试卷
- · 双卡百宝箱
- 赞助商链接