摘要:
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注.但是这种分词方法在处理歧义切分方面存在一定的问题.CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分.本文尝试找到一种简单的、基于"大词"实例的机器学习方法解决分词歧义问题.实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分.本文分析了CRF在解决分词歧义时存在的问题,指出CRF在切分训练语料中出现过的字符串时会产生更多新的分词歧义。提出了基于大词的分词方法,将基于大词实例和基于普通词表的分词方法相结合,利用简单的机器学习拟合训练语料,解决测试语料中分词歧义的问题。实验表明,这种方法可以在一定程度上解决分词歧义问题,并且不会产生太多的副作用。大词虽然可以解决部分歧义,但仍需要改进分词策略才能取得更好的效果。对于大词、普通词的切分边界,可以吸取CRF的优点,引入字在词中位置的概率,进一步解决歧义问题。对于OOV的识别,借鉴CRF模型的优点找到一种专用的分词方法,也是下一步的工作。
关键词:
通讯作者信息:
电子邮件地址: