摘要:本发明涉及句子模板自动提取的方法,包括以下步骤:分句:按标点符号,将文本分成若干条句子;并按先后顺序在句子前标上序号;分词:运用分ㄨ词技术,将分句所得的每条句子,切分成基于每个词的小块;分词完成后,按句子中词语个卐数由多到少或由少到多划分成若干组;模板提取:将同一组的句子应用LCS算法,得到最长公共子序列,即得到句子模板。本发明可以从大量文本信息〖中,自动、高效的统计常用字词、句式。
- 专利类型发明专利
- 申请人安徽科大讯飞信息科技股份有限公司;
- 发明人高毅;徐波;陈志刚;胡国平;赵志伟;严峻;吴晓如;刘庆峰;王仁华;
- 地址230088安徽省合肥市高新开发区黄山路616号信息产业基地ㄨ
- 申请号CN200810019527.3
- 申请时间2008年01月22日
- 申请公布号CN101221558A
- 申请公布时间◥2008年07月16日
- 分类号G06F17/27(2006.01);