收录:
摘要:
该文描述了一个处理OCR输出的中文文本的拼写校正系统.使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本.首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使用比较算法从匹配的两个句子中提取不同的字符;若两个句子存在不同,则使用错词提取算法来获得错误词和对应的校正词,并以如下三元组的形式保存:(校正词,错词,出现次数).用上述算法运行整个正负语料库之后,可获得错误模式的集合,由此建立错误模式库.错误模式可看作是校正规则,用于校正文本中和模式中与"错词"相同形式的错误.根据"错词"的长度将错误模式分为两类,一类为"错词"的长度大于两个字符,可直接应用错误模式规则进行校正;另一类为"错词"的长度等于两个字符,需使用验证算法确定是否当前的模式需要被校正.以上方法是为同方光盘公司开发的THOCR中文校对系统的核心算法,其中正负语料库来自公司在期刊网建设中的积累.由于算法所获得的错误模式均来自真实的OCR识别文本,所以校对效果较好.结尾部分给出了本校对系统的实验结果.
关键词:
通讯作者信息:
电子邮件地址: