基于大规模真实文本的平衡语料分析与文本分类方法
陈克利*
*
+
1
宗成庆*
王霞+
中科院自动化所模式识别国家重点实验室 北京 100080
诺基亚(中国)研究中心,北京和平里东街 11 号,诺基亚 1 号楼 100013
摘
要:本文通过对大规模真实语料的统计和分析,比较了不同领域词汇量,词 类比例等特征的差异.
在此基础上, TF*IDF 文本分类器中采用的 TF*IDF 权重算法以及由此衍生的 TF*IWF*IWF 权重算法从 TF, 对 IWF 两个角度进行了改进,提出了一种基于大规模语料库的文本分类方法,并将它与 TF*IWF*IWF 权重算 法进行了对比,从实验结果看这种方法将 F1 测度值提高了 12.28%,充分验证了其有效性. 关键词:大规模语料库 语料分析 文本分类
Analysis on Balance-Corpus and Text Categorization Based on Large-Scale Realistic Corpora
Chen Keli* , Zong Chengqing* , and Wang Xia+
*
+
National Laboratory of Pattern Recognition, Institute of Automation, CAS. Beijing, 100080
Nokia (China) Research Center, Nokia No.1 Building, Hepingli Dongjie 11, Beijing, 100013
Abstract: Based on the statistic and analytical results, this paper compares the differences of vocabulary and the ratios of part-of-speech in different domains. And then, this paper proposes a new approach to text categorization, which improves the TF*IWF*IWF algorithm from TF, IWF respectively. The new approach is compared with the TF*IWF*IWF algorithm. From the experimental results, we can find the F1-Measure has been improved for 12.28%. The efficiency of this approach is proved. Keywords: Large-scale corpora, Corpora analysis, Text categorization
1
前 言
语料库建设和文本分类问题是自然语言处理领域两个热点问题.由于大规模语料库包 含丰富的语言现象,能够充分反映语言使用中一些普遍性规律,所以在计算语言学领域颇 受青睐.同时随着网络技术的发展和可用文本资源的飞速膨胀,有关海量信息的处理,分 类也成为人们越来越关心的一个话题.在这方面许多人都做过研究,尤其是上个世纪 90 年
1
本项研究受国家 973 项目"图像,语音,自然语言理解与知识挖掘"的资助(资助号为:G1998030504), 并得到诺基亚资助.
代以来,出现了各种各样基于机器学习的文本分类方法,如:向量空间模型(SVM) ,K 近 邻(K-NN)算法,神经网络算法等等.尤其是前两种算法以其可操作性,准确性受到了人 们的青睐,它们共同的一个关键问题就是如何选择适当的权重算法求得文本的向量表示. 关于这个问题,Salton(1973)年提出了计算向量权重的 TF*IDF 算法,Thorsten J oachims 提出了概率 TF*IDF 算法[Thorsten, 1997];Roberto Basili 提出了 TF*IWF*IWF 算法 [Roberto et al, 1999]等等.这些权重算法与不同的分类算法(如上面提到的 SVM, k-NN) 相结合生成了不同的文本分类器,但是在已报道的实验中,这些分类器的分类结果普遍不 很理想,最好的其 F1-Measure 值也只有 85%左右,其中一个重要原因是这些分类器采用的 权重算法不完备.本文结合训练语料的特点,分析了 TF*IWF*IWF 算法的优缺点,并进行了 改进,然后结合线性分类方法,对改进后的权重算法与 TF*IWF*IWF 权重算法通过实验进行 了比较,结果证明改进后的权重算法是非常有效的.
- 文本分析的方法 > 基于大规模真实文本的平衡语料分析与文本分类方法
-
基于大规模真实文本的平衡语料分析与文本分类方法
下载该文档 文档格式:PDF 更新时间:2007-04-02 下载次数:0 点击次数:1文档基本属性 文档语言: 文档格式: pdf 文档作者: ksu 关键词: 主题: 备注: 点击这里显示更多文档属性 经理: 单位: 分类: 创建时间: 上次保存者: 修订次数: 编辑时间: 文档创建者: 修订: 加密标识: 幻灯片: 段落数: 字节数: 备注: 演示格式: 上次保存时间:
- 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
- PDF格式下载
- 更多文档...
-
上一篇:一种基于扩展的两步文本倾向性分析方法
下一篇:Qualitative Research Methods— Interviewing, Ethnography, and Analysis
点击查看更多关于文本分析的方法的相关文档
- 您可能感兴趣的
- 文本分析 外国短篇小说文本分析 科普英语文本分析 什么是文本分析 中文版文本分析软件 电视节目文本分析 办公空间案例分析文本 诗歌文本分析 温软的稻草文本分析
- 大家在找
-
- · 气动盘式制动器
- · 微软word2003密钥
- · 北京华都峪口禽业
- · 河北餐厅中级应知应会试卷
- · 日本街头千年杀
- · 315cn
- · 合肥模具维修钳工招聘
- · 发动机缸体材料
- · 电影囡囡国语版
- · tudou.letv.com
- · cw6163b刀架结构
- · sslmt.com
- · COORD10
- · 安卓原带office软件
- · 大学实用英语综合教程1
- · 江苏泰州公务员面试
- · office精简版下载
- · 三校中专护理
- · 幼儿家庭教育文章
- · 生产线上运输升降机的自动设计论文
- · 21世纪实用英语课后答案
- · 油库设计规范
- · 天大bbs
- · struts2api
- · 南昌自行车市场
- · 钢制路灯杆mail
- · 捷豹xj报价
- · 心理罪之教化场txt
- · 化学选修4课后答案
- · 斯沃绿色破解版
- 赞助商链接