• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

修驰 (修驰.) | 宋柔 (宋柔.)

Abstract:

近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注.但是这种分词方法在处理歧义切分方面存在一定的问题.CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分.本文尝试找到一种简单的、基于"大词"实例的机器学习方法解决分词歧义问题.实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分.本文分析了CRF在解决分词歧义时存在的问题,指出CRF在切分训练语料中出现过的字符串时会产生更多新的分词歧义。提出了基于大词的分词方法,将基于大词实例和基于普通词表的分词方法相结合,利用简单的机器学习拟合训练语料,解决测试语料中分词歧义的问题。实验表明,这种方法可以在一定程度上解决分词歧义问题,并且不会产生太多的副作用。大词虽然可以解决部分歧义,但仍需要改进分词策略才能取得更好的效果。对于大词、普通词的切分边界,可以吸取CRF的优点,引入字在词中位置的概率,进一步解决歧义问题。对于OOV的识别,借鉴CRF模型的优点找到一种专用的分词方法,也是下一步的工作。

Keyword:

中文分词 信息处理 条件随机场模型 分词歧义 机器学习

Author Community:

  • [ 1 ] [修驰]北京工业大学计算机学院
  • [ 2 ] [宋柔]北京工业大学计算机学院

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

Year: 2011

Page: 22-27

Language: Chinese

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 3

Affiliated Colleges:

Online/Total:829/5290462
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.