摘要:本发明公开了一种文本的候选关键词的提取方法,给每个自然词确定对应的词项,并存储到自然词数据库中,设置多个候选关键词模板,存入模板库,根据自然词数据库对文本进行词法分析,获得文本每个自然词及其对应的词项,从模板库中按顺序抽取候选关键词模板,按ζ照文本的自然词的顺序,将候选关键词模板与文本全部自然词逐◣个进行比对,如果连续的自然词都满足候选关键词模板中的约束项的词项要求,则将连续¤的自然词中对应当前文约束项序列的自然词组合作为候选关键词,直到所有的候选关键词模板完√成比对。采用了本发明的技术方案,能够提高文本⌒ 的标引质量,从而提高文本检索的查◥准率。
- 专利类型发明专利
- 申请人天脉聚源(北京)传媒科技有限公司;
- 发明人韩建波;
- 地址100007 北京市东城区▼安定门东大街28号雍和大厦E座808室
- 申请号CN201110337333.X
- 申请时间2011年10月31日
- 申〗请公布号CN102682049B
- 申请㊣公布时间2014年04月23日
- 分类号G06F17/30(2006.01)I;