• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

李蓉 (李蓉.)

Indexed by:

CQVIP PKU CSCD

Abstract:

该文描述了一个处理OCR输出的中文文本的拼写校正系统.使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本.首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使用比较算法从匹配的两个句子中提取不同的字符;若两个句子存在不同,则使用错词提取算法来获得错误词和对应的校正词,并以如下三元组的形式保存:(校正词,错词,出现次数).用上述算法运行整个正负语料库之后,可获得错误模式的集合,由此建立错误模式库.错误模式可看作是校正规则,用于校正文本中和模式中与"错词"相同形式的错误.根据"错词"的长度将错误模式分为两类,一类为"错词"的长度大于两个字符,可直接应用错误模式规则进行校正;另一类为"错词"的长度等于两个字符,需使用验证算法确定是否当前的模式需要被校正.以上方法是为同方光盘公司开发的THOCR中文校对系统的核心算法,其中正负语料库来自公司在期刊网建设中的积累.由于算法所获得的错误模式均来自真实的OCR识别文本,所以校对效果较好.结尾部分给出了本校对系统的实验结果.

Keyword:

学习算法 错误校对 计算机应用 中文信息处理 正负语料

Author Community:

  • [ 1 ] [李蓉]北京工业大学

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

中文信息学报

ISSN: 1003-0077

Year: 2009

Issue: 5

Volume: 23

Page: 92-97

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: 7

Chinese Cited Count:

30 Days PV: 0

Affiliated Colleges:

Online/Total:1021/6384106
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.