基于字位信息的中文分词方法研究 ?

X I A N D A I T U S H UQ I N G B A OJ I S H U 3 9 基于字位信息的中文分词方法研究 张金柱张东王惠临 ( 中国科学技术信息研究所北京 1 0 0 0 3 8 ) 【摘要】分析中文自动分词的现状, 介绍和描述几种不同的分词思想和方法, 提出一种基于字位的分词方法.此分词方法以字为最小单位, 根据字的概率分布得到组合成词的概率分布, 因此在未登录词识别方面比其它方法有更优秀的表现.使用最大熵的机器学习方法来进行实现并通过两个实验得出实验结果的比较分析. 【关键词】中文分词字位最大熵未登录词识别【分类号】T P 3 1 1 T P 1 8 T h eR e s e a r c ho f C h a r a c t e r -P o s i t i o n-B a s e dC h i n e s e Wo r dS e g me n t a t i o n Z h a n gJ i n z h u Z h a n gD o n g Wa n gH u i l i n ( I n s t i t u t eo f S c i e n t i f i ca n dT e c h n i c a l I n f o r m a t i o no f C h i n a ,B e i j i n g 1 0 0 0 3 8 , C h i n a ) 【 A b s t r a c t 】T h i s p a p e r a n a l y s e s t h ea c t u a l i t ya n di n t r o d u c e s s e v e r a l d i f f e r e n t r e p r e s e n t a t i v ea p p r o a c h e s o f C h i n e s ew o r d s e g m e n t a t i o n ,t h e nb r i n g s o u t a c h a r a c t e r - p o s i t i o n - b a s e ds e g m e n t a t i o nm e t h o dw h i c ht a k e s t h e C h i n e s e c h a r a c t e r a s t h e l e a s t u n i t . I t i n d i c a t e s t h ep r o b a b i l i t yd i s t r i b u t i o no f aw o r dt h r o u g ht h ep r o b a b i l i t yd i s t r i b u t i o no f C h i n e s ec h a r a c t e r , s oi t p l a y s m u c hb e t t e r t h a no t h e r a p p r o a c h e s i nu n k n o w nw o r dr e c o g n i t i o n . T h i s i d e a t a k e s a m a c h i n e - l e a r n i n g m e t h o dc a l l e d m a x i m u me n t r o p yf o r i m p l e m e n t a t i o na n dt w oe x p e r i m e n t s f o r c o m p a r i n ga n da n a l y z i n gt h er e s u l t s . 【 K e y w o r d s 】C h i n e s ew o r ds e g m e n t a t i o n C h a r a c t e r - p o s i t i o n M a x i m u me n t r o p y U n k n o w nw o r dr e c o g n i t i o n 收稿日期: 2 0 0 7- 1 2- 2 8 收修改稿日期: 2 0 0 8- 0 1- 2 1 本文系中国科学技术信息研究所学科建设项目" 语言技术与知识技术" ( 项目编号: 2 0 0 7 D P 0 1- 8 ) 和国家科技支撑计划课题" 多语言信息服务环境关键技术研究与应用" ( 项目编号: 2 0 0 6 B A H 0 3 B 0 2 ) 的研究成果之一. 汉语自动分词是中文信息处理领域的一项基础性课题, 也是智能化中文信息处理的关键, 它在机器翻译、信息检索、文本分类等中文信息处理的各项任务中都发挥着基础性的重要作用[ 1 ] ." 词" 的定义未确定、分词和理解、孰先孰后、歧义切分字段处理以及未登录词识别等仍是中文自动分词的热点和难点问题[ 2 ] , 这些问题的解决是自动分词前进和发展的关键. 当前, 已有许多分词方法被应用到中文切分中, 这些分词方法可分为 3大类: 基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[ 3 ] .基于字位信息的中文分词方法较当前一些分词方法有其特定的优势: ( 1 ) 更好地处理未登录词识别问题, 同时兼顾歧义处理; ( 2 ) 对于不同的分词标准, 只要有与此标准匹配的语料库, 便能得到相应标准的切分结果; ( 3 ) 对于不同的应用, 如机器翻译与全文检索, 只要调整语料库的分词颗粒度, 也可得到相应的切分结果. 1 基于字位分词方法的提出中文词不像英文单词那样有空格分隔符, 因而中文分词的关键就在于在句子合适的地方加上词语的分隔符[ 4 ] , 从而得到词语的序列.如果假想有这样一种语言: 把所有词语的边界位置都用某些符号的有限集来表示, 用这个符号集的某一子集来表示词语的开始, 用另一个子集表示词语的结束, 而且这两个子集互相独立. 这样, 总第 1 6 4期2008年第 5期 4 0 现代图书情报技术识别词语便是一件轻而易举的事.同样, 中文词缺少曲折形态变化, 而在印欧语中这种形态变化( 如词缀) 已经应用于标记词语边界.而上述的假想语言可以用符号代替曲折形态实现同样的功能.因此, 中文分词的问题不是缺少词语的自然分隔符和曲折形态, 而是如何能无歧义地标记出一个词语的边界[ 5 ] , 下面介绍的基于字位的中文分词方法就是以这种假想为基础的.汉字在词中的位置比较少; 部分汉字的位置由于使用习惯等原因已经被限定, 如复数标记" 们" 一般只出现在词的末位置; 汉字数目基本处于稳定等原因使得此方法有其可行性和必要性[ 5 ] . 本文根据汉字的上下文来进行歧义切分和未登录词识别. 1 . 1 歧义切分由于汉字可出现于词语内部各个不同的位置, 如'文' 在" 中文" 的右边, 却在" 文章" 的左边, 从而导致了歧义.在某些情况中, 汉字作为词语的组成部分构成词, 而在有些情况下, 汉字可单独成为词, 如:" 鱼" 、 " 章鱼" , 如果要切分" 英文章鱼怎么说" , 仅仅知道词典里的词语是远远不够的, 还要利用积累的知识来对词语进行正确判断. 由于歧义是汉字在词内部不同的位置引起的, 所以便可根据当前汉字的上下文( 汉字所在的句子) 唯一确定汉字的位置.如果句子中所有汉字的位置根据上下文确定了, 歧义切分的问题便可得到解决. 1 . 2 未登录词识别未登录词识别是中文切分的又一难题.尽管汉字的数目有限, 但中文有很多产生新词语的机制: 词语的组合和缩写; 新人名的出现它们以不可预知的方式把汉字结合起来形成新词; 外国人名、地名的音译也可产生新词等.以上仅是中文新词众多产生机制中的几种. 基于字位信息分词方法并不是靠罗列所有词语来进行切分, 而是通过观察组成词的汉字的概率分布, 利用数学统计模型来计算汉字组合成词的概率分布, 并从中选择概率最大的词[ 6 ] .因此, 未登录词识别的优越表现, 是基于字位信息分词方法相对于其他方法的最大优点. 2 分词系统工作原理及体系架构根据语料库平均加权词长, 笔者从表 1中选择 6 词位标注集来标注汉字在词中的位置. 表1几种不同的标注集标注集名称标记单字词与多字词词位标注举例 2词位 L , R L , L R , L R R , … 3词位 L , R , S S , L R , L R R , … 4词位 L , M , R , S S , L R , L M R , L M M R , … 6词位 L 1 , L 2 , L 3 , M, R , S S , L 1 R , L 1 L 2 R , L 1 L 2 L 3 R , L 1 L 2 L 3 M R , L 1 L 2 L 3 M M R , … ( 注: L 1 ( 第一个) , L 2 ( 第一个) , L 3 ( 第三个) , M( 中间) , R ( 右边) , S ( 单字词) ) 基于字位分词方法以汉字为切分的基本单位, 通过当前汉字的上下文和前面已经标注的信息, 唯一确定汉字在每个词中的位置[ 7 ] .本文把每个汉字位置用下面标记集中的一个来表示: L 1 , L 2 , L 3 , M, R , S , 并根据最大熵方法把每个汉字归入 6类中的一类, 确定汉字在词中的位置.系统体系架构如图 1所示: 图1基于字位分词的系统体系架构 3 分词系统技术实现此中文分词系统由语料库加工处理子系统, 特征提取选择子系统, 模型训练子系统, 应用标注子系统这几个系统组成, 如图 2所示: 图2基于字位分词的系统结构知识组织与知识管理 X I A N D A I T U S H UQ I N G B A OJ I S H U 4 1 3 . 1 语料库加工处理子系统子系统包括 5个处理步骤, 分别为去除编号、去除词性标记、人名处理、日期处理、汉字位置标记.去除的部分都是对训练没有帮助反而可能会加重训练负担的部分.人民日报语料是纯文本文件, 文本中每一行的开头是编号, 如" 1 9 9 8 0 1 0 1  0 1  0 0 1  0 0 1 " 表示这一自然段是 1 9 9 8年 1月 1日01版 0 0 1篇文章的 0 0 1自然段, 首先要去掉的就是这个编号; 由于这里只涉及分词, 因而词性信息也需去除; 人民日报语料把姓和名分开, 不利于训练, 因此人名处理的工作就是把人名信息识别出来, 并把姓和名组合在一起; 日期处理主要是把如" 1 9 9 9 " 这样的字段作为一个汉字位置进行标记, 而不是分为 4个.最重要的部分是汉字位置标记, 例如: 把" 我们是中国公民" 标记为" 我/ L 1们/R是/ S中/L1国/ R公/ L 1民/ R " . 3 . 2 特征提取选择子系统这里使用特征模板来提取特征, 在下例中, 使用 C - 3 …C 3 代表汉字序列, T - 3 …T 3 代表与之对应的标记序列.有两种特征模板提供选择, 如表 2所示: 表2两种特征模板模板集特征类型特征 T M P T- 6 ( 6特征模板) 一元 C n , n =- 1 , 0 , 1 二元 C n C n + 1 , n =- 1 , 0 C- 1 C 1 T M P T- 1 0 ( 1 0特征模板) 一元 C n , n =- 2 , - 1 , 0 , 1 , 2 二元 C n C n + 1 , n =- 2 , - 1 , 0 , 1 C- 1 C 1 如" 我们是学生" , 对应表 2产生的特征为表 3 , 在此假设当前字 C 0 = " 是" . 表3特征实例模板集特征类型特征 T M P T- 6 一元们是学二元们是是学们学 T M P T- 1 0 一元我们是学生二元我们们是是学学生们学这里以TMPT-1 0为例说明字包含的上下文信息: ( 1 ) 汉字特征: 如果给定一个句子, 这个模型会观察当前汉字以及前后两个汉字.如果当前汉字是"们" ( 复数标记) , 它大多数情况下会作为词缀, 因此会标记为" R " ; 如果一个汉字可能出现在左、中、右3种情况, 就要靠它周围的汉字进行判断.例如: 如果当前汉字是" 爱" , 若它的下一个汉字是" 护" 时就把" 爱" 标记为" L 1 " , 若它的前一个汉字是" 热" 时, 它会被标记为" R " . ( 2 ) 标记特征: 这对预测当前汉字的标记是相当有用的.例如: 前一个汉字的标记是 S 或者 R时, 当前汉字便是一个词的开始, 它最可能的标记便为" L 1 " . ( 3 ) 缺省特征: 用于上述特征都不适用的情况. 基于两种不同的特征模板, 笔者使用人民日报语料库( 约100万词) 进行实验, 分别测试其分词准确率. 实验中把语料分为两部分: 第一部分为训练数据, 约83 9 99 3 1 ( 9 5 %) 个字节; 第二部分为测试数据, 约4295 4 7 ( 5 %) 个字节.本文第 4部分的实验也使用此数据, 不再作说明.结果如表 4所示: 表4两种特征模板分词准确率比较特征模板集准确率( A c c u r a c y ) T M P T- 6 9 5 . 4 8 % T M P T- 1 0 9 5 . 6 6 % 由表 4可以看出, T M P T- 6比TMPT- 1 0的分词准确率稍低, 但由于 T M P T- 6训练模型的计算量和得到的模型较 T M P T- 1 0小, 使其易于训练且切分速度较快, 从应用角度出发, 选择 T M P T- 6作为本系统的特征模板. 特征提取完毕后, 用基于频数阈值的特征选择算法进行特征筛选.在其他条件不变的情况下, 经过多次实验发现, 阈值设为 2时切分准确率较高, 且比阈值设为 1时得到的模型小得多, 综合考虑切分速度和准确率, 本系统设置阈值为 2 , 即出现次数少于 2的特征会被删除. 3 . 3 模型训练子系统本文使用最大熵模型[ 8 ] 对语料库进行训练, 最大熵模型是一个比较成熟的统计模型, 适合于分类问题的解决.最大熵框架的计算模型不依赖语言模型, 独立于特定的任务.本文选取的训练数据以每一个字作为一个事件.假设有一个样本集合为{ ( x 1 , y 1 ) , ( x 2 , y 2 ) , …, ( x N, y N) } , 每一个 x i ( 1 i N ) 表示一个将被标注的字的上下文, y i ( 1 i N ) 表示该字被标注的结果.利用最大熵模型得出在特征约束下最优的概率分布, 即概率值 p ( y | x ) .根据最大熵原理, 概率值 p ( y | 总第 1 6 4期2008年第 5期 4 2 现代图书情报技术 x ) 的取值符合下面的指数模型: p ( y | x )= Z λ ( x ) e x p (  i λ i f i ( x , y ) ) ( 1 ) Z λ ( x )= 1  y e x p (  i λ i f i ( x , y ) ) ( 2 ) 这里 f i即上面所说的特征, 它是一个二值函数, 描述某一个特定的事实.λ i指示了特征 f i对于模型的重要程度.Z λ ( x ) 在x一定的情况下为一范化常数.公式( 1 ) 和公式( 2 ) 使模型由求概率值转化为求参数值 λ i , 一般的估计方法是 D a r r o c h和Ratcliff的通用迭代算法( G e n e r a l i z e dI t e r a t i v eS c a l i n g , G I S ) [ 9 ] , 用来得到具有最大熵分布的所有参数值 λ i .P i e t r a 等[ 1 0 ] 则描述了一个改进的迭代算法, 具体算法可参考相应文献. 在这个系统中采用 G I S迭代训练 1 0 0次, 频数阈值设置为 2 , 得到基于字位的最大熵模型[ 1 1 ] . 3 . 4 应用标注子系统此子系统通过训练得到的模型以及输入句子特征来计算句子标记序列的概率, 并从中选择概率最大的作为该句子的标记.给定一个句子{ c i , …, c n } , 通过以下公式计算并选择概率最大的标记序列{ t 1 , …, t n } : P ( t 1 , …, t n| C 1 , …, C n )= n i = 1 P ( t i | h i ) , 而在上下文 h下标记 t 的条件概率为: P ( t | h )= p ( h , t )  p ( h , t ' ) t ' T , 从而可以得到切分结果. 4 实验及结果分析 4 . 1 实验一使用最大匹配分词方法建立一个比较的基准, 同时也用来测试在有无未登录词时最大匹配算法的不同表现. 此实验分为两个小实验: 在第一个小实验( A 1表示) 中使用仅从训练数据中得到的词典并使用最大匹配法切分, 这样在测试数据中有 3 . 4 6 %的词是在训练库中没有的, 即新词; 在第二个小实验( A 2表示) 中使用从训练数据和测试数据中共同得到的词典并用最大匹配法切分, 这样在测试数据中便没有新词. 4 . 2 实验二( B表示) 使用基于字位分词方法切分.此方法的实现和测试环境均在 Wi n d o w s 操作系统( C P U : 3 . 4 G H z , 内存: 5 1 2 M ) 下进行, 在Eclipse集成开发环境下使用 J a v a 语言进行开发.由于模型训练占用内存较大, 所以选择在实验室的服务器( L i n u x 操作系统, 内存 4 G ) 进行训练, 得到的模型在 Wi n d o w s 下使用. 4 . 3 结果分析比较这两个实验的分词准确率( p , 正确切分的词语占切分出词语总数的比例) 、召回率( r , 标准结果中正确切分出来的词语占的比例) 以及 f 值( f = 2* p * r / ( p + r )) , 结果如表 5所示: 表5实验结果比较实验 A 1 A 2 B 准确率( %) 8 6 . 7 6 9 5 . 4 3 9 5 . 4 8 召回率( %) 9 0 . 8 7 9 5 . 4 6 9 5 . 3 4 f 值(%) 8 8 . 7 6 9 5 . 4 4 9 5 . 4 1 新词召回率( %) 1 . 2 4 7 1 . 3 0 实验一的结果显示, 就数据中仅有很少的新词出现, 最大匹配法的准确率都大幅下降.此方法在词典中找不到匹配时会把一个汉字当成一个词处理, 因此被正确切分的 1 . 2 4 %的是单字构词.相比之下, 有新词时基于字位方法的 f 值也只是比没有新词时的最大匹配法的 f 值( A 2 ) 低一点.在基于字位分词方法中, 未登录词是通过词的组成部分( 汉字) 的概率分布进行预测的: 即使在训练数据中找不到相对应的词, 它的组成部分— — —汉字却可以找到, 通过统计模型中汉字的概率分布来得到汉字在词中的位置, 从而把词切分出来了.同时, 基于字位分词方法中未登录词召回率明显低于总的召回率, 这表示未登录词的正确切分难度比已登录词的切分难度大得多. 本文选定一些句子进行切分比较, 得到结果如图 3所示: 本文的结果: 他只得到工厂值班室去睡觉坎昆市市长拉腊和夫人央视新闻联播换新人康辉李梓萌搭档紧张学校学费要一次性交一千元长春市长春节致词长春市长春药店刘善根本来就没来中科院分词结果: 他只得到工厂值班室去睡觉坎昆市市长拉腊和夫人央视新闻联播换新人康辉李梓萌搭档紧张学校学费要一次性交一千元长春市长春节致词长春市长春药店刘善根本来就没来图3分词结果比较 ( 此处使用中科院第一代分词系统) 知识组织与知识管理 X I A N D A I T U S H UQ I N G B A OJ I S H U 4 3 从图 3切分结果可以看出, 此方法在处理未登录词方面有较大的优势, 如" 坎昆市" , " 李梓萌" 都能正确切分, 同时兼顾切分歧义处理, 如" 只得到" , " 长春市长春药店" 和" 长春市长" 都能正确切分; 同时此系统还有一些不足之处: ( 1 ) 少数常用词切分错误, 这是单纯使用统计方法进行中文分词的通病, 如" 一次性" 切分错误; ( 2 ) 有些切分歧义并没有解决, 如" 刘善根本" 切分错误.这些都需要更多的加入词层面的信息来加以改进. 5 结语综上所述, 基于字位的分词方法能对中文进行有效切分, 它包含的词层面信息使它对歧义字段有较好的处理, 同时更多包含的字层面信息使它在未登录词处理方面有优越的表现[ 1 2 ] , 因此比其他中文分词方法有更好的健壮性, 也显示了最大熵模型在处理分类问题上的优越性. 在以上研究的基础上, 还有很多后续工作要做: 此方法包含的词层面的信息不够多使其在切分歧义字段处理上还不如某些分词方法, 还需获取更多的词层面的信息来进行改进; 可以在不同的语料库上做更多的实验, 提高其适应性; 增加更多的训练数据或者改善特征使准确率继续提高; 对汉字进行标记的同时对汉字的其他特征( 如汉字的词性搭配信息) 进行标记等. 笔者希望通过不断改善分词系统性能, 使其能够应用于实际, 为中文信息处理服务. 参考文献: [ 1 ]姚敏. 汉语自动分词和中文人名识别技术研究[ D ] . 浙江: 浙江大学, 2 0 0 6 . [ 2 ]刘武. 基于统计机器学习算法的汉语分词系统的研究[ D ] . 北京: 北京邮电大学, 2 0 0 6 . [ 3 ]祁正华. 基于无词库的中文分词方法的研究[ D ] . 南京: 南京邮电学院, 2 0 0 5 . [ 4 ]G a nKW. I n t e g r a t i n g Wo r dB o u n d a r y D i s a m b i g u a t i o nw i t hS e n t e n c e U n d e r s t a n d i n g [ D ] .S i n g a p o r e :N a t i o n a l U n i v e r s i t yo f S i n g a p o r e , 1 9 9 5 . [ 5 ]X u e N ,S h e nL . C i n e s eWo r dS e g m e n t a t i o na s L M RT a g g i n g [ C ] . P r o c e e d i n g s o f t h eS e c o n dS I G H A NW o r k s h o po nC h i n e s eL a n g u a g e P r o c e s s i n g , 2 0 0 3 : 1 7 6- 1 7 9 . [ 6 ]X u e N . C h i n e s e Wo r dS e g m e n t a t i o na s C h a r a c t e r T a g g i n g [ J ] . I n t e r  n a t i o n a l J o u r n a l o f C o m p u t a t i o n a l L i n g u i s t i c s a n dC h i n e s e L a n g u a g e P r o c e s s i n g , 2 0 0 3 : 2 9- 4 8 . [ 7 ]S p r o a t R , S h i hCL .AS t a t i s t i c a l M e t h o df o r F i n d i n g Wo r dB o u n d a  r i e s i nC h i n e s e T e x t [ J ] . C o m p u t e r P r o c e s s i n go f C h i n e s e a n dO r i e n  t a l L a n g u a g e s , 1 9 9 0 , 4 ( 4 ) : 3 3 6- 3 5 1 . [ 8 ]B e r g e r AL , D e l l a P i e t r a VJ , D e l l a P i e t r a SA . AM a x i m u mE n t r o p y A p p r o a c ht oN a t u r a l L a n g u a g eP r o c e s s i n g [ J ] .C o m p u t a t i o n a l L i n  g u i s t i c s , 1 9 9 6 , 2 2 ( 1 ) : 8- 1 5 . [ 9 ]D a r r o c hJ N , R a t c l i f f D . G e n e r a l i z e d I t e r a t i v e S c a l i n g f o r L o g - L i n  e a r m o d e l s [ J ] .A n n a l s o f M a t h e m a t i c a l S t a t i s t i c s ,1 9 7 2 , 4 3 ( 5 ) : 1 4 7 0- 1 4 8 0 . [ 1 0 ]D e l l aP i e t r aS ,D e l l aP i e t r aV ,L a f f e r t yJ .I n d u c i n gF e a t u r e so f R a n d o mF i e l d s [ J ] .I E E E T r a n s a c t i o n so nP a t t e r nA n a l y s i sa n d M a c h i n e I n t e l l i g e n c e , 1 9 9 7 , 1 9 ( 4 ) : 3 8 0- 3 9 3 . [ 1 1 ]R a t n a p a r k h i A .A M a x i m u m E n t r o p yP a r t -o f -s p e e c hT a g g e r [ C ] . I nP r o c e e d i n g s o f t h e E m p i r i c a l M e t h o d s i nN a t u r a l L a n g u a g e P r o c e s s i n gC o n f e r e n c e , U n i v e r s i t yo f P e n n s y l v a n i a , 1 9 9 6 . [ 1 2 ]N a k a g a w aT .C h i n e s ea n dJ a p a n e s eWo r dS e g m e n t a t i o nU s i n g Wo r d - L e v e l a n dC h a r a c t e r -L e v e l I n f o r m a t i o n [ C ] .I nP r o c e e d  i n g s o f C O L I N G , 2 0 0 4 . ( 作者 E- m a i l : z h j z h 1 0 1 6 @1 6 3 . c o m ) 总第 1 6 4期2008年第 5期