• 综合
  • 标题
  • 关键词
  • 摘要
  • 学者
  • 期刊-刊名
  • 期刊-ISSN
  • 会议名称
搜索

作者:

李蓉 (李蓉.)

收录:

CQVIP PKU CSCD

摘要:

该文描述了一个处理OCR输出的中文文本的拼写校正系统.使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本.首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使用比较算法从匹配的两个句子中提取不同的字符;若两个句子存在不同,则使用错词提取算法来获得错误词和对应的校正词,并以如下三元组的形式保存:(校正词,错词,出现次数).用上述算法运行整个正负语料库之后,可获得错误模式的集合,由此建立错误模式库.错误模式可看作是校正规则,用于校正文本中和模式中与"错词"相同形式的错误.根据"错词"的长度将错误模式分为两类,一类为"错词"的长度大于两个字符,可直接应用错误模式规则进行校正;另一类为"错词"的长度等于两个字符,需使用验证算法确定是否当前的模式需要被校正.以上方法是为同方光盘公司开发的THOCR中文校对系统的核心算法,其中正负语料库来自公司在期刊网建设中的积累.由于算法所获得的错误模式均来自真实的OCR识别文本,所以校对效果较好.结尾部分给出了本校对系统的实验结果.

关键词:

中文信息处理 学习算法 正负语料 计算机应用 错误校对

作者机构:

  • [ 1 ] [李蓉]北京工业大学

通讯作者信息:

电子邮件地址:

查看成果更多字段

相关关键词:

来源 :

中文信息学报

ISSN: 1003-0077

年份: 2009

期: 5

卷: 23

页码: 92-97

被引次数:

WoS核心集被引频次: 0

SCOPUS被引频次:

ESI高被引论文在榜: 0 展开所有

万方被引频次: 7

中文被引频次:

近30日浏览量: 3

归属院系:

在线人数/总访问数:2588/2958294
地址:北京工业大学图书馆(北京市朝阳区平乐园100号 邮编:100124) 联系我们:010-67392185
版权所有:北京工业大学图书馆 站点建设与维护:北京爱琴海乐之技术有限公司