公共文化服务平台

2025年7月21日星期一

|

欢迎来到贵州省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

程芃森: 作品数：6 被引量：1H指数：1; 供职机构：成都信息工程大学更多>>; 发文基金：国家社会科学基金更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

安俊秀成都信息工程大学软件工程学院
王鹏成都信息工程大学
王鹏成都信息工程大学软件工程学院
王远超成都信息工程大学软件工程学院

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

4篇专利
2篇期刊文章

领域

3篇自动化与计算...

主题

4篇倒排索引
4篇索引
3篇重复网页
3篇网页
3篇近似网页
2篇压缩数据
2篇字典压缩
2篇字节
2篇字节码
2篇网页文本
2篇文件读取
2篇计算机
2篇高频词
2篇查询
2篇查询效率
2篇词性
1篇动态规划
1篇新闻
1篇新闻类
1篇字符

机构

6篇成都信息工程...

作者

6篇安俊秀
6篇程芃森
2篇王鹏
1篇王远超
1篇王鹏

传媒

2篇成都信息工程...

年份

3篇2014
3篇2012

共 6 条记录，以下是 1-6

全选清除导出

排序方式：

基于Hbase数据库的倒排索引混合压缩及解压方法: 本发明公开了一种基于Hbase数据库的倒排索引混合压缩方法，包括以下步骤：对Hbase数据库进行处理得到内容包括键和值的Hbase数据库倒排索引数据表；对键部分采用键既字典压缩法进行压缩；对值部分采用可变字节码压缩法进行...; 安俊秀程芃森

基于词性分类统计的重复网页和近似网页的识别方法: 本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法，包括以下步骤：从网页文本中提取正文；切词；分类；统计词频；提取高频词；将高频词在词级倒排索引中查询，直到查询成功，记录下查询出来的对应文本编号，若查询不成功...; 安俊秀程芃森王鹏

基于Hbase数据库的倒排索引混合压缩及解压方法: 本发明公开了一种基于Hbase数据库的倒排索引混合压缩方法，包括以下步骤：对Hbase数据库进行处理得到内容包括键和值的Hbase数据库倒排索引数据表；对键部分采用键既字典压缩法进行压缩；对值部分采用可变字节码压缩法进行...; 安俊秀程芃森

基于词性分类统计的重复网页和近似网页的识别方法: 本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法，包括以下步骤：从网页文本中提取正文；切词；分类；统计词频；提取高频词；将高频词在词级倒排索引中查询，直到查询成功，记录下查询出来的对应文本编号，若查询不成功...; 安俊秀程芃森王鹏

基于最优路径策略方法快速计算字符串编辑距离被引量：1: 2014年; 传统编辑距离算法采用动态规划方法用一个维度大小分别为源字符串长度和目标字符串长度的二维数组保存计算过程中求得编辑距离值。这种传统求解方式在时间效率和空间效率上开销较大,限制了编辑距离算法在长字符串中地应用。针对传统方法存在的问题,经深入研究编辑距离的求解过程,发现在某个关键区域内存在一条最优路径,通过确定最优路径所在关键区域可以快速地求解两字符串之间的编辑距离值。实验表明,方法在计算两字符串之间的编辑距离与传统方法相比可以降低问题的求解规模,提高算法的时间效率和空间效率。所描述的方法同样适用于图论中使用动态规划方法求解一般问题地应用,比如最优分配问题和背包问题等。; 王远超安俊秀程芃森王鹏; 关键词：计算机软件与理论相似度动态规划

基于特征词群的新闻类重复网页和近似网页识别算法: 2012年; 新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达93.5%,准确率达88.4%。冗余网页小粒度分类识别上具有的缺陷,在很大程度上影响了准确率的提高。; 程芃森安俊秀; 关键词：计算机应用网页消重

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有©2014－2015 Chongqing VIP Information., Ltd., 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张