摘要:本发明涉及一种自动识别数字文档版心的方法,属于文档处理技术领域。随着数字文档的广泛应用,对数字文档版心的识别技术也要求越来越精确,但是现有的技术,均是通过手工操作来完成数字文档的版心的识别,效率低下,特别是当数字文档的数据量很大而又排版不规则时,需要人工一页一页的去确定版心,非常不方便。本发明所述的方法,当输入一个含有版式信息的数字文档时,根据页眉、页脚的特征信息、主体字体的识别和多页间重复度的计算,自动识别出数字文档的版心。采用本发明所述的方法,能够高效准确的识别数字文档的版心,为数字文档的进一步加工和应用提供了良好的基础。
- 专利类型发明专利
- 申请人北京大学;北京方正阿帕比技术有限公司;北大方正集团有限公司;
- 发明人高良才;汤帜;贾爱霞;王长桥;
- 地址100871北京市海淀区颐和园路5号
- 申请号CN200710063772.X
- 申请时间2007年02月09日
- 申请公布号CN100552670C
- 申请公布时间2009年10月21日
- 分类号G06F17/21(2006.01)I;