程芃森
- 作品数:6 被引量:1H指数:1
- 供职机构:成都信息工程大学更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hbase数据库的倒排索引混合压缩及解压方法
- 本发明公开了一种基于Hbase数据库的倒排索引混合压缩方法,包括以下步骤:对Hbase数据库进行处理得到内容包括键和值的Hbase数据库倒排索引数据表;对键部分采用键既字典压缩法进行压缩;对值部分采用可变字节码压缩法进行...
- 安俊秀程芃森
- 文献传递
- 基于词性分类统计的重复网页和近似网页的识别方法
- 本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功...
- 安俊秀程芃森王鹏
- 文献传递
- 基于Hbase数据库的倒排索引混合压缩及解压方法
- 本发明公开了一种基于Hbase数据库的倒排索引混合压缩方法,包括以下步骤:对Hbase数据库进行处理得到内容包括键和值的Hbase数据库倒排索引数据表;对键部分采用键既字典压缩法进行压缩;对值部分采用可变字节码压缩法进行...
- 安俊秀程芃森
- 基于词性分类统计的重复网页和近似网页的识别方法
- 本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功...
- 安俊秀程芃森王鹏
- 文献传递
- 基于最优路径策略方法快速计算字符串编辑距离被引量:1
- 2014年
- 传统编辑距离算法采用动态规划方法用一个维度大小分别为源字符串长度和目标字符串长度的二维数组保存计算过程中求得编辑距离值。这种传统求解方式在时间效率和空间效率上开销较大,限制了编辑距离算法在长字符串中地应用。针对传统方法存在的问题,经深入研究编辑距离的求解过程,发现在某个关键区域内存在一条最优路径,通过确定最优路径所在关键区域可以快速地求解两字符串之间的编辑距离值。实验表明,方法在计算两字符串之间的编辑距离与传统方法相比可以降低问题的求解规模,提高算法的时间效率和空间效率。所描述的方法同样适用于图论中使用动态规划方法求解一般问题地应用,比如最优分配问题和背包问题等。
- 王远超安俊秀程芃森王鹏
- 关键词:计算机软件与理论相似度动态规划
- 基于特征词群的新闻类重复网页和近似网页识别算法
- 2012年
- 新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达93.5%,准确率达88.4%。冗余网页小粒度分类识别上具有的缺陷,在很大程度上影响了准确率的提高。
- 程芃森安俊秀
- 关键词:计算机应用网页消重