基于大规模真实文本的平衡语料分析与文本分类方法

基于大规模真实文本的平衡语料分析与文本分类方法
陈克利*
*
+
1
宗成庆*
王霞+
中科院自动化所模式识别国家重点实验室北京 100080
诺基亚(中国)研究中心,北京和平里东街 11 号,诺基亚 1 号楼 100013
摘
要:本文通过对大规模真实语料的统计和分析,比较了不同领域词汇量,词类比例等特征的差异.
在此基础上, TF*IDF 文本分类器中采用的 TF*IDF 权重算法以及由此衍生的 TF*IWF*IWF 权重算法从 TF, 对 IWF 两个角度进行了改进,提出了一种基于大规模语料库的文本分类方法,并将它与 TF*IWF*IWF 权重算法进行了对比,从实验结果看这种方法将 F1 测度值提高了 12.28%,充分验证了其有效性. 关键词:大规模语料库语料分析文本分类
Analysis on Balance-Corpus and Text Categorization Based on Large-Scale Realistic Corpora
Chen Keli* , Zong Chengqing* , and Wang Xia+
*
+
National Laboratory of Pattern Recognition, Institute of Automation, CAS. Beijing, 100080
Nokia (China) Research Center, Nokia No.1 Building, Hepingli Dongjie 11, Beijing, 100013
Abstract: Based on the statistic and analytical results, this paper compares the differences of vocabulary and the ratios of part-of-speech in different domains. And then, this paper proposes a new approach to text categorization, which improves the TF*IWF*IWF algorithm from TF, IWF respectively. The new approach is compared with the TF*IWF*IWF algorithm. From the experimental results, we can find the F1-Measure has been improved for 12.28%. The efficiency of this approach is proved. Keywords: Large-scale corpora, Corpora analysis, Text categorization
1
前言
语料库建设和文本分类问题是自然语言处理领域两个热点问题.由于大规模语料库包含丰富的语言现象,能够充分反映语言使用中一些普遍性规律,所以在计算语言学领域颇受青睐.同时随着网络技术的发展和可用文本资源的飞速膨胀,有关海量信息的处理,分类也成为人们越来越关心的一个话题.在这方面许多人都做过研究,尤其是上个世纪 90 年
1
本项研究受国家 973 项目"图像,语音,自然语言理解与知识挖掘"的资助(资助号为:G1998030504), 并得到诺基亚资助.
代以来,出现了各种各样基于机器学习的文本分类方法,如:向量空间模型(SVM) ,K 近邻(K-NN)算法,神经网络算法等等.尤其是前两种算法以其可操作性,准确性受到了人们的青睐,它们共同的一个关键问题就是如何选择适当的权重算法求得文本的向量表示. 关于这个问题,Salton(1973)年提出了计算向量权重的 TF*IDF 算法,Thorsten J oachims 提出了概率 TF*IDF 算法[Thorsten, 1997];Roberto Basili 提出了 TF*IWF*IWF 算法 [Roberto et al, 1999]等等.这些权重算法与不同的分类算法(如上面提到的 SVM, k-NN) 相结合生成了不同的文本分类器,但是在已报道的实验中,这些分类器的分类结果普遍不很理想,最好的其 F1-Measure 值也只有 85%左右,其中一个重要原因是这些分类器采用的权重算法不完备.本文结合训练语料的特点,分析了 TF*IWF*IWF 算法的优缺点,并进行了改进,然后结合线性分类方法,对改进后的权重算法与 TF*IWF*IWF 权重算法通过实验进行了比较,结果证明改进后的权重算法是非常有效的.

下一页

文档基本属性
文档语言：
文档格式：	pdf
文档作者：	ksu
关键词：
主题：
备注：
点击这里显示更多文档属性
经理：
单位：
分类：
创建时间：
上次保存者：
修订次数：
编辑时间：
文档创建者：
修订：
加密标识：
幻灯片：
段落数：
字节数：
备注：
演示格式：
上次保存时间：