• 文本分析的方法 > 基于大规模真实文本的平衡语料分析与文本分类方法
  • 基于大规模真实文本的平衡语料分析与文本分类方法

    免费下载 下载该文档 文档格式:PDF   更新时间:2007-04-02   下载次数:0   点击次数:1
    文档基本属性
    文档语言:
    文档格式:pdf
    文档作者:ksu
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    基于大规模真实文本的平衡语料分析与文本分类方法
    陈克利*
    *
    +
    1
    宗成庆*
    王霞+
    中科院自动化所模式识别国家重点实验室 北京 100080
    诺基亚(中国)研究中心,北京和平里东街 11 号,诺基亚 1 号楼 100013

    要:本文通过对大规模真实语料的统计和分析,比较了不同领域词汇量,词 类比例等特征的差异.
    在此基础上, TF*IDF 文本分类器中采用的 TF*IDF 权重算法以及由此衍生的 TF*IWF*IWF 权重算法从 TF, 对 IWF 两个角度进行了改进,提出了一种基于大规模语料库的文本分类方法,并将它与 TF*IWF*IWF 权重算 法进行了对比,从实验结果看这种方法将 F1 测度值提高了 12.28%,充分验证了其有效性. 关键词:大规模语料库 语料分析 文本分类
    Analysis on Balance-Corpus and Text Categorization Based on Large-Scale Realistic Corpora
    Chen Keli* , Zong Chengqing* , and Wang Xia+
    *
    +
    National Laboratory of Pattern Recognition, Institute of Automation, CAS. Beijing, 100080
    Nokia (China) Research Center, Nokia No.1 Building, Hepingli Dongjie 11, Beijing, 100013
    Abstract: Based on the statistic and analytical results, this paper compares the differences of vocabulary and the ratios of part-of-speech in different domains. And then, this paper proposes a new approach to text categorization, which improves the TF*IWF*IWF algorithm from TF, IWF respectively. The new approach is compared with the TF*IWF*IWF algorithm. From the experimental results, we can find the F1-Measure has been improved for 12.28%. The efficiency of this approach is proved. Keywords: Large-scale corpora, Corpora analysis, Text categorization
    1
    前 言
    语料库建设和文本分类问题是自然语言处理领域两个热点问题.由于大规模语料库包 含丰富的语言现象,能够充分反映语言使用中一些普遍性规律,所以在计算语言学领域颇 受青睐.同时随着网络技术的发展和可用文本资源的飞速膨胀,有关海量信息的处理,分 类也成为人们越来越关心的一个话题.在这方面许多人都做过研究,尤其是上个世纪 90 年
    1
    本项研究受国家 973 项目"图像,语音,自然语言理解与知识挖掘"的资助(资助号为:G1998030504), 并得到诺基亚资助.
    代以来,出现了各种各样基于机器学习的文本分类方法,如:向量空间模型(SVM) ,K 近 邻(K-NN)算法,神经网络算法等等.尤其是前两种算法以其可操作性,准确性受到了人 们的青睐,它们共同的一个关键问题就是如何选择适当的权重算法求得文本的向量表示. 关于这个问题,Salton(1973)年提出了计算向量权重的 TF*IDF 算法,Thorsten J oachims 提出了概率 TF*IDF 算法[Thorsten, 1997];Roberto Basili 提出了 TF*IWF*IWF 算法 [Roberto et al, 1999]等等.这些权重算法与不同的分类算法(如上面提到的 SVM, k-NN) 相结合生成了不同的文本分类器,但是在已报道的实验中,这些分类器的分类结果普遍不 很理想,最好的其 F1-Measure 值也只有 85%左右,其中一个重要原因是这些分类器采用的 权重算法不完备.本文结合训练语料的特点,分析了 TF*IWF*IWF 算法的优缺点,并进行了 改进,然后结合线性分类方法,对改进后的权重算法与 TF*IWF*IWF 权重算法通过实验进行 了比较,结果证明改进后的权重算法是非常有效的.

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • 文本分析  外国短篇小说文本分析  科普英语文本分析  什么是文本分析  中文版文本分析软件  电视节目文本分析  办公空间案例分析文本  诗歌文本分析  温软的稻草文本分析