汉语事件描述小句自动识别 *
陈丽欧 1,周强 2
1. 2.
清华大学计算机系,北京 100084
清华大学信息技术研究院语音和语言技术中心,北京 100084
1.
chouou@foxmail.com,2zq-lxd@mail.tsinghua.edu.cn
摘 要:本文提出了一种汉语事件描述小句的自动识别方法,通过对事件描述小句边界分布情况的分析,将该识 别任务转化为对句中特殊符号分类的任务.利用最大熵分类器,选择两类有效的特征,重点解决对非结句点号的 分类,并在后处理阶段中总结了对提高识别性能有帮助的规则,最终在测试集上获得了 79.98 的 F1 值.最后,总 结了识别方法的思想,分析现有处理系统的不足之处,并提出了一些展望. 关键词:点号,分类,后处理
Automatic Identification of Chinese Event Descriptive Clause
Chen Liou1
1 2
Zhou Qiang2
Department of Computer Science and technology,Tsinghua University,Beijing 100084,China
Center for Speech and Language Technologies, Tsinghua National Laboratory for Information Science and Technology, Beijing 100084,China
1.
chouou@foxmail.com,2zq-lxd@mail.tsinghua.edu.cn
Abstract: We propose an automatic method to identify Chinese Event Description Clause. By analyzing the boundary distribution of clauses, we formulate this identification task as a classification of special symbols. The maximum entropy classifier is trained and two kinds of useful features and their combinations are used to classify the Non-End Symbol. After identifying all clauses, a rule-based post-processing phase for improving the clause recognition performance is included, and ultimately F1=79.98 result is obtained on the test set. Finally, we summarize the method, analysis some deficiencies in current system and give the future research directions. Key words: punctuation mark, classify, Post-processing
1 概述
汉语事件描述小句(EDC)定义为以逗号,分号,句号,问号等点号分隔而形成的词语序 列,它是包含完整事件内容信息的最小单元.在 EDC 的基础上可以做进一步的句法分析和语义 理解,对自然语言处理具有重要的意义,因此迫切需要对 EDC 识别做深入的研究.同时,由于 汉语 EDC 平均长度较长(9 个词以上) ,内部组成复杂,且点号的使用非常灵活,又导致 EDC 的识别具有一定的挑战性. Leffa 对EDC的自动识别, 国内外的相关研究不多. Steven Abney[1] 提出了一种子句过滤器; [2] 实现了一种基于规则的英语及葡萄牙语文本中子句识别方法; Orasan[3]在Susanne语料库上完成一
*
本项研究得到国家自然科学基金项目(编号:60573185,60873173)和国家高科技研究发展计划(编号 2007AA01Z173)资助.
种基于记忆学习方法的子句识别系统, 该系统还包括一个基于规则的后处理阶段; CoNLL-2001[4] 也对英语子句识别任务进行过评测. 英语子句识别基本包括三个阶段,子句起点识别,终点识别和完整嵌套结构识别.本文的 EDC 识别不考虑小句内的嵌套结构,仅从输入的经过分词及词性标注的句子当中识别出所有上 层 EDC 的边界(起点,终点) . 现有的英文子句识别方法通常是基于子句间具有比较明显的先行词这一特征的,而汉语 EDC 则是以点号作为分隔, 子句间没有明显的标记. 考虑到汉语 EDC 的特殊结构, 本文将 EDC 识别任务转化为对句子中可充当 EDC 边界的符号的识别问题,通过选取分类特征,构造对符号 进行分类的分类器,从而识别出相邻两个自由符号之间的 EDC,并加入基于规则的后处理步骤, 进一步提升识别性能.实验结果表明,这种做法有效可行.
- 计算机系毕业设计 > 汉语事件描述小句自动识别
-
汉语事件描述小句自动识别
下载该文档 文档格式:PDF 更新时间:2009-10-02 下载次数:0 点击次数:2
文档基本属性 文档语言: 文档格式: pdf 文档作者: 关键词: 主题: 备注: 点击这里显示更多文档属性 经理: 单位: 分类: 创建时间: 上次保存者: 雨林木风 修订次数: 20 编辑时间: 文档创建者: 修订: 加密标识: 幻灯片: 9 段落数: 30 字节数: 617806 备注: 0 演示格式: 在屏幕上显示 上次保存时间:
- 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
-
PDF格式下载
- 更多文档...
-
上一篇:计算机系毕业综合训练成绩评定表
下一篇:常用函数 3
点击查看更多关于计算机系毕业设计的相关文档
- 您可能感兴趣的
- 计算机毕业设计 计算机毕业设计题目 计算机毕业设计下载 计算机专业毕业设计 计算机系毕业论文 计算机本科毕业论文 计算机网络毕业论文 计算机毕业论文下载 计算机专业毕业论文
- 大家在找
-
- · 广州数控980td对刀
- · 麦垛山煤矿掘进二队
- · 安徽驾驶员模拟考试c1
- · 上海总裁培训名录
- · 病理课件
- · ps教程下载免费pdf
- · 山西省农广校
- · 2011测量员考试时间
- · 开关稳压电源设计论文
- · 资源经济学泰坦伯格
- · 90后啤酒瓶门图
- · 第五届施坦威钢琴比赛
- · 人体生理学课件
- · 后宫甄嬛传电视剧176
- · 老公认错书
- · 外研社新标准英语下载
- · 保健酒招商加盟
- · 河南专升本高数总分
- · 恢复未保存excel文档
- · 三菱伺服放大器说明书
- · labview2010下载
- · 新生儿窒息ppt下载
- · 数控铣编程基本指令
- · 福清dj晓夜的网站是啥
- · 高一英语必修一
- · 分度表安卓
- · 上海交大大学研究生院
- · 新还珠格格86
- · cad厂房平面图
- · 富士丝锥代理
- 赞助商链接