孟祥茹
- 作品数:4 被引量:10H指数:2
- 供职机构:中国科学院沈阳计算技术研究所更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于多特征融合Single-Pass-SOM组合模型的话题检测被引量:3
- 2020年
- 当今时代,网络舆情传播速度快、影响力大,而话题检测在网络舆情监管中有着不可替代的作用.针对传统方法提取文本特征不完整和特征维度过高的问题,本文提出了基于时间衰减因子的LDA&&Word2Vec文本表示模型,将LDA模型的隐含主题特征和Word2Vec模型的语义特征进行加权融合,并引入了时间衰减因子,同时起到了降维和提高文本特征完整度的作用.同时,本文又提出了Single-Pass-SOM组合聚类模型,该模型解决了SOM模型需要设定初始神经元的问题,提高了话题聚类的精度.实验结果表明,本文提出的文本表示模型和文本聚类方法较传统方法拥有更好的话题检测效果.
- 李丰男孟祥茹焦艳菲张琳琳刘念
- 关键词:文本表示SOM聚类
- 基于关键阶段分析的Spark性能预测模型被引量:2
- 2018年
- Spark作为目前大数据处理领域广泛使用的计算平台,合理分配集群资源对Spark作业性能优化有着重要的作用.性能预测是集群资源分配优化的基础和关键,本文正是基于此提出了一种Spark性能预测模型.文中选取作业执行时间作为Spark性能衡量指标,提出了Spark作业关键阶段的概念,通过运行小批量数据集来获取关键阶段的运行时间和作业输入数据量之间关系,从而构建了Spark性能预测模型.实验结果表明该模型较为有效.
- 葛庆宝陶耀东高岑田月孟祥茹
- 关键词:SPARK资源分配
- Oracle中矢量数据安全保护方法被引量:4
- 2012年
- 为防止矢量数据在Oracle Spatial的存储过程中被非法访问,设计一个独立于Oracle的加密系统。以字段作为粒度,利用3DES算法加密空间字段,以确保对矢量数据加密后不会增加额外的存储空间。并提出一种基于DES的R树加密方法,以结点为粒度,采用"重叠"的方式对空间索引进行加密,由此保证加密后R树的完整性,降低每次查询时需要解密的数据量。实验结果证明,该加密系统可以实现对空间数据的透明加/解密,适用于各种基于Oracle的地理信息系统应用,并提供灵活、高效的安全保护。
- 李光师孟祥茹
- 关键词:ORACLE矢量数据加密R树索引
- 基于Spark并行化改进混合地点推荐被引量:1
- 2019年
- 推荐算法是数据挖掘中最重要的算法之一.地点推荐是推荐系统的重要研究内容.针对目前地点推荐面临的数据稀疏、冷启动、个性化程度低等问题,设计并实现了基于Spark并行化处理的改进混合地点推荐模型.该算法融合了基于内容的推荐和基于协同过滤的推荐,结合了用户当前的偏好和其他用户的意见.使用基于用户-地点属性偏好的矩阵填充方式,以此改善数据稀疏性问题;同时,对于海量数据,系统采用Spark分布式集群实现并行计算,缩短了模型训练时间.实验结果表明,与其他推荐算法相比,该算法能有效改善数据稀疏性、提升推荐效果.
- 蒲鑫孟祥茹高岑王美吉刘锦扬
- 关键词:混合模型数据填充协同过滤SPARK