国家高技术研究发展计划(2007AA01Z417)
- 作品数:3 被引量:4H指数:1
- 相关作者:马旭徐蔚然郭军徐雅静冯博更多>>
- 相关机构:北京邮电大学北京大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金高等学校学科创新引智计划更多>>
- 相关领域:自动化与计算机技术更多>>
- SMS-2008标注中文短信息库被引量:4
- 2009年
- 随着短信息应用的普及,用户、运营商及政府管理部门均迫切需要智能短信处理工具。语料库是研究算法,开发系统,测试性能等必不可少的基础资源。但受到技术、版权保护、隐私权利等种种原因,目前还没有公开的标准短信息语料库。SMS-2008标注短信息库是本项目组在国内外率先建立的多用途中文短信息语料库,它包括原始语料库、预处理语料库、隐私标注语料库、内容标注语料库、错误标注语料库等。该语料库可用于短信语言现象研究、短信分类过滤算法研究、隐私保护算法研究、自动纠错算法研究等。
- 马旭徐蔚然郭军胡日勒
- 关键词:计算机应用中文信息处理标注语料库
- 基于合并模型的中文文本情感分析
- 本文研究中文文本的篇章倾向性分析问题。针对于传统的只考虑单一粒度上的情感分析方法,本文提出了一种新颖的基于不同粒度的结合模型的中文文本情感分析算法,该方法结合了基于词语级和句子级的篇章情感分析。在基于词语级篇章情感分析方...
- 李思张浩徐蔚然郭军
- 关键词:情感分析
- 文献传递
- 基于事务拆分的超团挖掘算法
- 2009年
- 为发现处在低支持度下的潜在有趣模式,针对传统基于支持度策略的模式发现算法存在的问题,提出一种基于改进Relim算法的超团模式挖掘算法,将一个事务拆分为2个或多个事务,把相同事务进行压缩,并用Relim算法的思想进行超团模式挖掘。仿真实验结果表明,该算法能有效提高超团模式的挖掘效率。
- 卓鹏肖波蔺志青
- 关键词:数据挖掘关联规则
- 数据流中的频繁标记闭子树的批量挖掘
- 2010年
- 在频繁模式挖掘(FPM)的研究中,为了在海量数据流中有效地挖掘子树结构的频繁模式,根据数据流和子树模式的特点,提出了一种基于数据流的频繁标记闭子树挖掘(SFCLTreeMiner)算法.该算法首次对动态数据流中频繁标记闭子树的挖掘进行研究,给出了在数据流中标记闭子树集合添加、删除的批量挖掘方法,并结合时间衰减模型,有效保证了结果的时效性.实验结果表明,该算法在挖掘性能,如挖掘时间和内存占用等方面,比类似算法有较大提高.
- 冯博徐雅静赵娜徐惠民
- 关键词:频繁子树挖掘数据流