• catiar19安装方法 > 中文信息学报第19卷第6 期
  • 中文信息学报第19卷第6 期

    免费下载 下载该文档 文档格式:PDF   更新时间:2010-02-01   下载次数:0   点击次数:7
    文档基本属性
    文档语言:
    文档格式:pdf
    文档作者:Paredes Laymuns
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    中 文 信 息 学 报
    第 19 卷 第 6 期 JOURNAL OF CHINESE INFORMATION PROCESSING
    文章编号 :1003 - 0077 (2005) 06 - 0021 - 07
    基于类别特征域的文本分类特征选择方法
    赵世奇1 ,张 ,刘 ,陈毅恒 ,黄永光 ,李 宇 挺 生
    ( 哈尔滨工业大学 信息检索研究室 ,黑龙江 哈尔滨 150001)
    摘要 : 特征选择是文本分类的关键问题之一 ,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍 .
    [1 本文介绍了一种基于类别特征域的特征选择方法 .该方法首先利用 "组合特征抽取" ] 的方法去除原始特征
    空间中的噪音 ,从中抽取出候选特征 .这里 "组合特征抽取" , 是指先利用文档频率 ( DF) 的方法去掉一部分低 频词 ,再用互信息的方法选择出候选特征 .接下来 ,本方法为分类体系中的每个类别构建一个类别特征域 ,对 出现在类别特征域中的候选特征进行特征的合并和强化 ,从而解决数据稀疏的问题 .实验表明 ,这种新的方 法较之各种传统方法在特征选择的效果上有着明显改善 ,并能显著提高文本分类系统的性能 . 关键词 : 计算机应用 ; 中文信息处理 ; 文本分类 ; 特征选择 ; 类别特征域 中图分类号 : TP391 文献标识码 :A
    A Feature Selection Method Based on Class Feature Domains for Text Categorization
    ( Information Retrieval Laboratory , Harbin Institute of Technology , Harbin , Heilongjiang 150001 , China )
    Abstract :Feature selection is one of the key problems in text categorization. The chief obstacles to feature selection are noise and sparseness. This paper presents a novel feature selection method which is based on class feature domains. First , tract candidate features. That is , we' take off low frequency words using Document Frequency method firstly and then se2 ll lect candidate features using Mutual Information method. Then , we will construct a class feature domain for each class and ture domains. Experiments show that our method is much better than kinds of traditional feature selection methods and it can improve the performance of text categorization systems markedly. Key words :computer application ; Chinese information processing ; text categorization ; feature selection ; class feature do2
    Ξ
    mains
    we will make use of the combined feature selection method [1 ] to remove noisy features from the original feature space and ex2
    1 引言
    文本分类是指在给定的分类体系下 ,对未知类别的文档进行自动处理 ,并根据文档特征来 判断其所属类别的过程 .近年来 ,随着网上电子文档的数量以指数级的速度增长 ,文本分类技 术在信息检索 , 信息过滤以及内容管理等各项应用中变得越来越重要 .
    conquer the sparseness of trainning datas by merging and strengthening the candidate features which appear in the class fea2

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • proe5.0安装方法  ug6.0安装方法  proe4.0安装方法  ansys12.0安装方法  ug4.0安装方法  ug7.0安装方法  ug7.5安装方法  ug8.0安装方法  ansys10.0安装方法  ansys12.1安装方法