一个用于OCR输出的中文文本的拼写校对系统 - Details

Author：

李蓉 (李蓉.)

Indexed by：

CQVIP PKU CSCD

Abstract：

该文描述了一个处理OCR输出的中文文本的拼写校正系统.使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本.首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使用比较算法从匹配的两个句子中提取不同的字符;若两个句子存在不同,则使用错词提取算法来获得错误词和对应的校正词,并以如下三元组的形式保存:(校正词,错词,出现次数).用上述算法运行整个正负语料库之后,可获得错误模式的集合,由此建立错误模式库.错误模式可看作是校正规则,用于校正文本中和模式中与＂错词＂相同形式的错误.根据＂错词＂的长度将错误模式分为两类,一类为＂错词＂的长度大于两个字符,可直接应用错误模式规则进行校正;另一类为＂错词＂的长度等于两个字符,需使用验证算法确定是否当前的模式需要被校正.以上方法是为同方光盘公司开发的THOCR中文校对系统的核心算法,其中正负语料库来自公司在期刊网建设中的积累.由于算法所获得的错误模式均来自真实的OCR识别文本,所以校对效果较好.结尾部分给出了本校对系统的实验结果.

Keyword：

学习算法错误校对计算机应用中文信息处理正负语料

Author Community：

[ 1 ] [李蓉]北京工业大学

Reprint Author's Address：

Email：

Show more details

Related Keywords：

Source ：

中文信息学报

ISSN： 1003-0077

Year： 2009

Issue： 5

Volume： 23

Page： 92-97

Cited Count：

WoS CC Cited Count： 0

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： 7

Chinese Cited Count：

30 Days PV： 0

Affiliated Colleges：

Get Fulltext

DOI Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to