X I A N D A I T U S H UQ I N G B A OJ I S H U 3 9 基于字位信息的中文分词方法研究 张金柱 张东王惠临 ( 中国科学技术信息研究所 北京 1 0 0 0 3 8 ) 【 摘要】分析中文自动分词的现状, 介绍和描述几种不同的分词思想和方法, 提出一种基于字位的分词方法.此 分词方法以字为最小单位, 根据字的概率分布得到组合成词的概率分布, 因此在未登录词识别方面比其它方法有 更优秀的表现.使用最大熵的机器学习方法来进行实现并通过两个实验得出实验结果的比较分析. 【 关键词】中文分词 字位 最大熵 未登录词识别 【 分类号】T P 3 1 1 T P 1 8 T h eR e s e a r c ho f C h a r a c t e r -P o s i t i o n-B a s e dC h i n e s e Wo r dS e g me n t a t i o n Z h a n gJ i n z h u Z h a n gD o n g Wa n gH u i l i n ( I n s t i t u t eo f S c i e n t i f i ca n dT e c h n i c a l I n f o r m a t i o no f C h i n a ,B e i j i n g 1 0 0 0 3 8 , C h i n a ) 【 A b s t r a c t 】T h i s p a p e r a n a l y s e s t h ea c t u a l i t ya n di n t r o d u c e s s e v e r a l d i f f e r e n t r e p r e s e n t a t i v ea p p r o a c h e s o f C h i n e s ew o r d s e g m e n t a t i o n ,t h e nb r i n g s o u t a c h a r a c t e r - p o s i t i o n - b a s e ds e g m e n t a t i o nm e t h o dw h i c ht a k e s t h e C h i n e s e c h a r a c t e r a s t h e l e a s t u n i t . I t i n d i c a t e s t h ep r o b a b i l i t yd i s t r i b u t i o no f aw o r dt h r o u g ht h ep r o b a b i l i t yd i s t r i b u t i o no f C h i n e s ec h a r a c t e r , s oi t p l a y s m u c hb e t t e r t h a no t h e r a p p r o a c h e s i nu n k n o w nw o r dr e c o g n i t i o n . T h i s i d e a t a k e s a m a c h i n e - l e a r n i n g m e t h o dc a l l e d m a x i m u me n t r o p yf o r i m p l e m e n t a t i o na n dt w oe x p e r i m e n t s f o r c o m p a r i n ga n da n a l y z i n gt h er e s u l t s . 【 K e y w o r d s 】C h i n e s ew o r ds e g m e n t a t i o n C h a r a c t e r - p o s i t i o n M a x i m u me n t r o p y U n k n o w nw o r dr e c o g n i t i o n 收稿日期: 2 0 0 7- 1 2- 2 8 收修改稿日期: 2 0 0 8- 0 1- 2 1 本文系中国科学技术信息研究所学科建设项目" 语言技术与知识技术" ( 项目编号: 2 0 0 7 D P 0 1- 8 ) 和国家科技支撑计划课题" 多语言信 息服务环境关键技术研究与应用" ( 项目编号: 2 0 0 6 B A H 0 3 B 0 2 ) 的研究成果之一. 汉语自动分词是中文信息处理领域的一项基础性课题, 也是智能化中文信息处理的关键, 它在机器翻译、 信 息检索、 文本分类等中文信息处理的各项任务中都发挥着基础性的重要作用[ 1 ] ." 词" 的定义未确定、 分词和理 解、 孰先孰后、 歧义切分字段处理以及未登录词识别等仍是中文自动分词的热点和难点问题[ 2 ] , 这些问题的解决 是自动分词前进和发展的关键. 当前, 已有许多分词方法被应用到中文切分中, 这些分词方法可分为 3大类: 基于字符串匹配的分词方法、 基 于理解的分词方法和基于统计的分词方法[ 3 ] .基于字位信息的中文分词方法较当前一些分词方法有其特定的优势: ( 1 ) 更好地处理未登录词识别问题, 同时兼顾歧义处理; ( 2 ) 对于不同的分词标准, 只要有与此标准匹配的语料库, 便能得到相应标准的切分结果; ( 3 ) 对于不同的应用, 如机器翻译与全文检索, 只要调整语料库的分词颗粒度, 也可得到相应的切分结果. 1 基于字位分词方法的提出 中文词不像英文单词那样有空格分隔符, 因而中文分词的关键就在于在句子合适的地方加上词语的分隔 符[ 4 ] , 从而得到词语的序列.如果假想有这样一种语言: 把所有词语的边界位置都用某些符号的有限集来表示, 用这个符号集的某一子集来表示词语的开始, 用另一个子集表示词语的结束, 而且这两个子集互相独立. 这样, 总第 1 6 4期2008年 第 5期 4 0 现代图书情报技术 识别词语便是一件轻而易举的事.同样, 中文词缺少 曲折形态变化, 而在印欧语中这种形态变化( 如词缀) 已经应用于标记词语边界.而上述的假想语言可以用 符号代替曲折形态实现同样的功能.因此, 中文分词 的问题不是缺少词语的自然分隔符和曲折形态, 而是 如何能无歧义地标记出一个词语的边界[ 5 ] , 下面介绍 的基于字位的中文分词方法就是以这种假想为基础 的.汉字在词中的位置比较少; 部分汉字的位置由于 使用习惯等原因已经被限定, 如复数标记" 们" 一般只 出现在词的末位置; 汉字数目基本处于稳定等原因使 得此方法有其可行性和必要性[ 5 ] . 本文根据汉字的上下文来进行歧义切分和未登录 词识别. 1 . 1 歧义切分 由于汉字可出现于词语内部各个不同的位置, 如'文' 在" 中文" 的右边, 却在" 文章" 的左边, 从而导致 了歧义.在某些情况中, 汉字作为词语的组成部分构 成词, 而在有些情况下, 汉字可单独成为词, 如:" 鱼" 、 " 章鱼" , 如果要切分" 英文章鱼怎么说" , 仅仅知道词 典里的词语是远远不够的, 还要利用积累的知识来对 词语进行正确判断. 由于歧义是汉字在词内部不同的位置引起的, 所 以便可根据当前汉字的上下文( 汉字所在的句子) 唯 一确定汉字的位置.如果句子中所有汉字的位置根据 上下文确定了, 歧义切分的问题便可得到解决. 1 . 2 未登录词识别 未登录词识别是中文切分的又一难题.尽管汉字 的数目有限, 但中文有很多产生新词语的机制: 词语的 组合和缩写; 新人名的出现它们以不可预知的方式把汉 字结合起来形成新词; 外国人名、 地名的音译也可产生 新词等.以上仅是中文新词众多产生机制中的几种. 基于字位信息分词方法并不是靠罗列所有词语来进行 切分, 而是通过观察组成词的汉字的概率分布, 利用数 学统计模型来计算汉字组合成词的概率分布, 并从中选 择概率最大的词[ 6 ] .因此, 未登录词识别的优越表现, 是基于字位信息分词方法相对于其他方法的最大优点. 2 分词系统工作原理及体系架构 根据语料库平均加权词长, 笔者从表 1中选择 6 词位标注集来标注汉字在词中的位置. 表1几种不同的标注集 标注集名称 标记 单字词与多字词词位标注举例 2词位 L , R L , L R , L R R , … 3词位 L , R , S S , L R , L R R , … 4词位 L , M , R , S S , L R , L M R , L M M R , … 6词位 L 1 , L 2 , L 3 , M, R , S S , L 1 R , L 1 L 2 R , L 1 L 2 L 3 R , L 1 L 2 L 3 M R , L 1 L 2 L 3 M M R , … ( 注: L 1 ( 第一个) , L 2 ( 第一个) , L 3 ( 第三个) , M( 中间) , R ( 右边) , S ( 单字词) ) 基于字位分词方法以汉字为切分的基本单位, 通 过当前汉字的上下文和前面已经标注的信息, 唯一确 定汉字在每个词中的位置[ 7 ] .本文把每个汉字位置用 下面标记集中的一个来表示: L 1 , L 2 , L 3 , M, R , S , 并根 据最大熵方法把每个汉字归入 6类中的一类, 确定汉 字在词中的位置.系统体系架构如图 1所示: 图1基于字位分词的系统体系架构 3 分词系统技术实现 此中文分词系统由语料库加工处理子系统, 特征 提取选择子系统, 模型训练子系统, 应用标注子系统这 几个系统组成, 如图 2所示: 图2基于字位分词的系统结构 知识组织与知识管理 X I A N D A I T U S H UQ I N G B A OJ I S H U 4 1 3 . 1 语料库加工处理子系统 子系统包括 5个处理步骤, 分别为去除编号、 去除 词性标记、 人名处理、 日期处理、 汉字位置标记.去除 的部分都是对训练没有帮助反而可能会加重训练负担 的部分.人民日报语料是纯文本文件, 文本中每一行 的开头是编号, 如" 1 9 9 8 0 1 0 1 0 1 0 0 1 0 0 1 " 表示这一自 然段是 1 9 9 8年 1月 1日01版 0 0 1篇文章的 0 0 1自然 段, 首先要去掉的就是这个编号; 由于这里只涉及分 词, 因而词性信息也需去除; 人民日报语料把姓和名分 开, 不利于训练, 因此人名处理的工作就是把人名信息 识别出来, 并把姓和名组合在一起; 日期处理主要是把 如" 1 9 9 9 " 这样的字段作为一个汉字位置进行标记, 而 不是分为 4个.最重要的部分是汉字位置标记, 例如: 把" 我们 是 中国 公民" 标记为" 我/ L 1们/R是/ S中/L1国/ R公/ L 1民/ R " . 3 . 2 特征提取选择子系统 这里使用特征模板来提取特征, 在下例中, 使用 C - 3 …C 3 代表汉字序列, T - 3 …T 3 代表与之对应的标记 序列.有两种特征模板提供选择, 如表 2所示: 表2两种特征模板 模板集 特征类型 特征 T M P T- 6 ( 6特征模板) 一元 C n , n =- 1 , 0 , 1 二元 C n C n + 1 , n =- 1 , 0 C- 1 C 1 T M P T- 1 0 ( 1 0特征模板) 一元 C n , n =- 2 , - 1 , 0 , 1 , 2 二元 C n C n + 1 , n =- 2 , - 1 , 0 , 1 C- 1 C 1 如" 我们是学生" , 对应表 2产生的特征为表 3 , 在 此假设当前字 C 0 = " 是" . 表3特征实例 模板集 特征类型 特征 T M P T- 6 一元 们是学二元 们是 是学 们学 T M P T- 1 0 一元 我们是学生二元 我们 们是 是学 学生 们学 这里以TMPT-1 0为例说明字包含的上下文信息: ( 1 ) 汉字特征: 如果给定一个句子, 这个模型会观 察当前 汉 字以 及前 后 两个 汉字.如果当前汉字是"们" ( 复数标记) , 它大多数情况下会作为词缀, 因此 会标记为" R " ; 如果一个汉字可能出现在左、 中、 右3种情况, 就要靠它周围的汉字进行判断.例如: 如果当 前汉字是" 爱" , 若它的下一个汉字是" 护" 时就把" 爱" 标记为" L 1 " , 若它的前一个汉字是" 热" 时, 它会被标 记为" R " . ( 2 ) 标记特征: 这对预测当前汉字的标记是相当 有用的.例如: 前一个汉字的标记是 S 或者 R时, 当前 汉字便是一个词的开始, 它最可能的标记便为" L 1 " . ( 3 ) 缺省特征: 用于上述特征都不适用的情况. 基于两种不同的特征模板, 笔者使用人民日报语 料库( 约100万词) 进行实验, 分别测试其分词准确率. 实验中把语料分为两部分: 第一部分为训练数据, 约83 9 99 3 1 ( 9 5 %) 个字节; 第二部分为测试数据, 约4295 4 7 ( 5 %) 个字节.本文第 4部分的实验也使用此 数据, 不再作说明.结果如表 4所示: 表4两种特征模板分词准确率比较 特征模板集 准确率( A c c u r a c y ) T M P T- 6 9 5 . 4 8 % T M P T- 1 0 9 5 . 6 6 % 由表 4可以看出, T M P T- 6比TMPT- 1 0的分词 准确率稍低, 但由于 T M P T- 6训练模型的计算量和得 到的模型较 T M P T- 1 0小, 使其易于训练且切分速度 较快, 从应用角度出发, 选择 T M P T- 6作为本系统的 特征模板. 特征提取完毕后, 用基于频数阈值的特征选择算 法进行特征筛选.在其他条件不变的情况下, 经过多 次实验发现, 阈值设为 2时切分准确率较高, 且比阈值 设为 1时得到的模型小得多, 综合考虑切分速度和准 确率, 本系统设置阈值为 2 , 即出现次数少于 2的特征 会被删除. 3 . 3 模型训练子系统 本文使用最大熵模型[ 8 ] 对语料库进行训练, 最大 熵模型是一个比较成熟的统计模型, 适合于分类问题 的解决.最大熵框架的计算模型不依赖语言模型, 独 立于特定的任务.本文选取的训练数据以每一个字作 为一个事件.假设有一个样本集合为{ ( x 1 , y 1 ) , ( x 2 , y 2 ) , …, ( x N, y N) } , 每一个 x i ( 1 i N ) 表示一个将被 标注的字的上下文, y i ( 1 i N ) 表示该字被标注的结 果.利用最大熵模型得出在特征约束下最优的概率分 布, 即概率值 p ( y | x ) .根据最大熵原理, 概率值 p ( y | 总第 1 6 4期2008年 第 5期 4 2 现代图书情报技术 x ) 的取值符合下面的指数模型: p ( y | x )= Z λ ( x ) e x p ( i λ i f i ( x , y ) ) ( 1 ) Z λ ( x )= 1 y e x p ( i λ i f i ( x , y ) ) ( 2 ) 这里 f i即上面所说的特征, 它是一个二值函数, 描 述某一个特定的事实.λ i指示了特征 f i对于模型的重 要程度.Z λ ( x ) 在x一定的情况下为一范化常数.公式( 1 ) 和公式( 2 ) 使模型由求概率值转化为求参数值 λ i , 一般的估计方法是 D a r r o c h和Ratcliff的通用迭代 算法( G e n e r a l i z e dI t e r a t i v eS c a l i n g , G I S ) [ 9 ] , 用来得到具 有最大熵分布的所有参数值 λ i .P i e t r a 等[ 1 0 ] 则描述了 一个改进的迭代算法, 具体算法可参考相应文献. 在这个系统中采用 G I S迭代训练 1 0 0次, 频数阈 值设置为 2 , 得到基于字位的最大熵模型[ 1 1 ] . 3 . 4 应用标注子系统 此子系统通过训练得到的模型以及输入句子特征 来计算句子标记序列的概率, 并从中选择概率最大的 作为该句子的标记.给定一个句子{ c i , …, c n } , 通过 以下公式计算并选择概率最大的标记序列{ t 1 , …, t n } : P ( t 1 , …, t n| C 1 , …, C n )= n i = 1 P ( t i | h i ) , 而在上下文 h下 标记 t 的条件概率为: P ( t | h )= p ( h , t ) p ( h , t ' ) t ' T , 从而可以得到 切分结果. 4 实验及结果分析 4 . 1 实验一 使用最大匹配分词方法建立一个比较的基准, 同 时也用来测试在有无未登录词时最大匹配算法的不同 表现. 此实验分为两个小实验: 在第一个小实验( A 1表示) 中使用仅从训练数据中得到的词典并使用最大匹 配法切分, 这样在测试数据中有 3 . 4 6 %的词是在训练 库中没有的, 即新词; 在第二个小实验( A 2表示) 中使 用从训练数据和测试数据中共同得到的词典并用最大 匹配法切分, 这样在测试数据中便没有新词. 4 . 2 实验二( B表示) 使用基于字位分词方法切分.此方法的实现和测 试环境均在 Wi n d o w s 操作系统( C P U : 3 . 4 G H z , 内存: 5 1 2 M ) 下进行, 在Eclipse集成开发环境下使用 J a v a 语 言进行开发.由于模型训练占用内存较大, 所以选择 在实验室的服务器( L i n u x 操作系统, 内存 4 G ) 进行训 练, 得到的模型在 Wi n d o w s 下使用. 4 . 3 结果分析 比较这两个实验的分词准确率( p , 正确切分的词 语占切分出词语总数的比例) 、 召回率( r , 标准结果中 正确切分出来的词语占的比例) 以及 f 值( f = 2* p * r / ( p + r )) , 结果如表 5所示: 表5实验结果比较 实验 A 1 A 2 B 准确率( %) 8 6 . 7 6 9 5 . 4 3 9 5 . 4 8 召回率( %) 9 0 . 8 7 9 5 . 4 6 9 5 . 3 4 f 值(%) 8 8 . 7 6 9 5 . 4 4 9 5 . 4 1 新词召回率( %) 1 . 2 4 7 1 . 3 0 实验一的结果显示, 就数据中仅有很少的新词出 现, 最大匹配法的准确率都大幅下降.此方法在词典 中找不到匹配时会把一个汉字当成一个词处理, 因此 被正确切分的 1 . 2 4 %的是单字构词.相比之下, 有新 词时基于字位方法的 f 值也只是比没有新词时的最大 匹配法的 f 值( A 2 ) 低一点.在基于字位分词方法中, 未登录词是通过词的组成部分( 汉字) 的概率分布进 行预测的: 即使在训练数据中找不到相对应的词, 它的 组成部分— — —汉字却可以找到, 通过统计模型中汉字 的概率分布来得到汉字在词中的位置, 从而把词切分 出来了.同时, 基于字位分词方法中未登录词召回率 明显低于总的召回率, 这表示未登录词的正确切分难 度比已登录词的切分难度大得多. 本文选定一些句子进行切分比较, 得到结果如图 3所示: 本文的结果: 他 只得 到 工厂 值班室 去 睡觉 坎昆市 市长 拉腊 和 夫人 央视 新闻 联播 换 新人 康辉 李梓萌 搭档 紧张 学校 学费 要一次性 交 一千 元 长春 市长 春节 致词 长春市 长春 药店 刘善 根本 来就没来中科院分词结果: 他只得到工厂 值班室 去 睡觉 坎昆市市长 拉腊 和 夫人 央视新闻 联播 换 新人 康辉 李梓萌搭档 紧张 学校 学费 要一次性 交 一千 元 长春市 长 春节 致词 长春市 长春 药店 刘善根 本来 就没来图3分词结果比较 ( 此处使用中科院第一代分词系统) 知识组织与知识管理 X I A N D A I T U S H UQ I N G B A OJ I S H U 4 3 从图 3切分结果可以看出, 此方法在处理未登录 词方面有较大的优势, 如" 坎昆市" , " 李梓萌" 都能正 确切分, 同时兼顾切分歧义处理, 如" 只得 到" , " 长春 市 长春药店" 和" 长春 市长" 都能正确切分; 同时此系 统还有一些不足之处: ( 1 ) 少数常用词切分错误, 这是单纯使用统计方 法进行中文分词的通病, 如" 一次性" 切分错误; ( 2 ) 有些切分歧义并没有解决, 如" 刘善 根本" 切 分错误.这些都需要更多的加入词层面的信息来加以 改进. 5 结语综上所述, 基于字位的分词方法能对中文进行有 效切分, 它包含的词层面信息使它对歧义字段有较好 的处理, 同时更多包含的字层面信息使它在未登录词 处理方面有优越的表现[ 1 2 ] , 因此比其他中文分词方法 有更好的健壮性, 也显示了最大熵模型在处理分类问 题上的优越性. 在以上研究的基础上, 还有很多后续工作要做: 此 方法包含的词层面的信息不够多使其在切分歧义字段 处理上还不如某些分词方法, 还需获取更多的词层面 的信息来进行改进; 可以在不同的语料库上做更多的 实验, 提高其适应性; 增加更多的训练数据或者改善特 征使准确率继续提高; 对汉字进行标记的同时对汉字 的其他特征( 如汉字的词性搭配信息) 进行标记等. 笔者希望通过不断改善分词系统性能, 使其能够应用 于实际, 为中文信息处理服务. 参考文献: [ 1 ]姚敏. 汉语自动分词和中文人名识别技术研究[ D ] . 浙江: 浙江 大学, 2 0 0 6 . [ 2 ]刘武. 基于统计机器学习算法的汉语分词系统的研究[ D ] . 北京: 北京邮电大学, 2 0 0 6 . [ 3 ]祁正华. 基于无词库的中文分词方法的研究[ D ] . 南京: 南京邮 电学院, 2 0 0 5 . [ 4 ]G a nKW. I n t e g r a t i n g Wo r dB o u n d a r y D i s a m b i g u a t i o nw i t hS e n t e n c e U n d e r s t a n d i n g [ D ] .S i n g a p o r e :N a t i o n a l U n i v e r s i t yo f S i n g a p o r e , 1 9 9 5 . [ 5 ]X u e N ,S h e nL . C i n e s eWo r dS e g m e n t a t i o na s L M RT a g g i n g [ C ] . P r o c e e d i n g s o f t h eS e c o n dS I G H A NW o r k s h o po nC h i n e s eL a n g u a g e P r o c e s s i n g , 2 0 0 3 : 1 7 6- 1 7 9 . [ 6 ]X u e N . C h i n e s e Wo r dS e g m e n t a t i o na s C h a r a c t e r T a g g i n g [ J ] . I n t e r n a t i o n a l J o u r n a l o f C o m p u t a t i o n a l L i n g u i s t i c s a n dC h i n e s e L a n g u a g e P r o c e s s i n g , 2 0 0 3 : 2 9- 4 8 . [ 7 ]S p r o a t R , S h i hCL .AS t a t i s t i c a l M e t h o df o r F i n d i n g Wo r dB o u n d a r i e s i nC h i n e s e T e x t [ J ] . C o m p u t e r P r o c e s s i n go f C h i n e s e a n dO r i e n t a l L a n g u a g e s , 1 9 9 0 , 4 ( 4 ) : 3 3 6- 3 5 1 . [ 8 ]B e r g e r AL , D e l l a P i e t r a VJ , D e l l a P i e t r a SA . AM a x i m u mE n t r o p y A p p r o a c ht oN a t u r a l L a n g u a g eP r o c e s s i n g [ J ] .C o m p u t a t i o n a l L i n g u i s t i c s , 1 9 9 6 , 2 2 ( 1 ) : 8- 1 5 . [ 9 ]D a r r o c hJ N , R a t c l i f f D . G e n e r a l i z e d I t e r a t i v e S c a l i n g f o r L o g - L i n e a r m o d e l s [ J ] .A n n a l s o f M a t h e m a t i c a l S t a t i s t i c s ,1 9 7 2 , 4 3 ( 5 ) : 1 4 7 0- 1 4 8 0 . [ 1 0 ]D e l l aP i e t r aS ,D e l l aP i e t r aV ,L a f f e r t yJ .I n d u c i n gF e a t u r e so f R a n d o mF i e l d s [ J ] .I E E E T r a n s a c t i o n so nP a t t e r nA n a l y s i sa n d M a c h i n e I n t e l l i g e n c e , 1 9 9 7 , 1 9 ( 4 ) : 3 8 0- 3 9 3 . [ 1 1 ]R a t n a p a r k h i A .A M a x i m u m E n t r o p yP a r t -o f -s p e e c hT a g g e r [ C ] . I nP r o c e e d i n g s o f t h e E m p i r i c a l M e t h o d s i nN a t u r a l L a n g u a g e P r o c e s s i n gC o n f e r e n c e , U n i v e r s i t yo f P e n n s y l v a n i a , 1 9 9 6 . [ 1 2 ]N a k a g a w aT .C h i n e s ea n dJ a p a n e s eWo r dS e g m e n t a t i o nU s i n g Wo r d - L e v e l a n dC h a r a c t e r -L e v e l I n f o r m a t i o n [ C ] .I nP r o c e e d i n g s o f C O L I N G , 2 0 0 4 . ( 作者 E- m a i l : z h j z h 1 0 1 6 @1 6 3 . c o m ) 总第 1 6 4期2008年 第 5期