国家自然科学基金(60305006) 作品数:5 被引量:22 H指数:3 相关作者: 牛军钰 姚静 徐隽 郑佳谦 林琛 更多>> 相关机构: 复旦大学 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于时间流特性的垃圾邮件过滤方法 被引量:1 2009年 垃圾邮件过滤具有处理规模巨大,数据无限递增、动态变化等流数据特征,传统的垃圾邮件过滤方法利用静态的文本特征提取方法,无法体现流数据特征随时间动态变化的特点。该文提出一种基于时间流特性来实时调整有效特征的垃圾邮件过滤方法,在TREC Spam Track语料集上的测试结果表明,该方法在保证垃圾邮件过滤高准确率的同时,使垃圾邮件过滤计算的时间性能和空间性能更加优化。 徐隽 郑佳谦 姚静 牛军钰关键词:计算机应用 中文信息处理 垃圾邮件 流数据 文本分类 论坛社区用户时空特征建模与挖掘 用户建模是提供个性化服务的基础工作.结合数据挖掘在论坛社区系统中的运用,把言论行为建模为数据记录,提出基于时空特征属性的用户模型(spatiotemporal feature based user model)表示和挖掘... 郑佳谦 徐隽 姚静 牛军钰关键词:用户建模 文献传递 基于倒排文件的索引模型综述 1引言文本索引中一般存放着文本库词典,记录着相应索引项的出现位置及其一些统计信息。经典的索引模型包括倒排文件,签名文件,位图,PatriciaTrie等。文[9]中考察了倒排文件与签名文件在索引文本数据方面的性能,结果表... 孙琦 牛军钰关键词:INDEX 文献传递 论坛社区用户时空特征建模与挖掘 被引量:1 2007年 用户建模是提供个性化服务的基础工作.结合数据挖掘在论坛社区系统中的运用,把言论行为建模为数据记录,提出基于时空特征属性的用户模型(spatiotemporal feature based user model)表示和挖掘算法.不同于传统的基于文本特征的用户模型,SFBUM提供了量化的用户在时间和空间维度上行为特征的描述,并通过实验表明该模型的稳定性以及在社区用户角色分类上的运用. 郑佳谦 徐隽 姚静 牛军钰关键词:用户建模 URL和文档结构信息在网页检索中的应用 <正> 1 引言网页的URL,很早就应用于检索领域,然而由于其提供的信息量不足,只是被用来辅助检索,并且只是作为查询相关信息,也就是对网页的URL和查询中的项进行匹配。从2001年的TREC10中,我们发现URL有着较以... 邓芳 牛军钰关键词:URL 文献传递 基于领域相关词汇提取的特征选择方法 被引量:4 2007年 传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适用于特定领域的文本分类系统,能轻松应用到各个领域.该系统在2005年文本检索会议(TREC,Text REtrieval Conference)的基因领域文本分类任务(Genomics Track Categorization Task)的评测中取得第一名. 孙麟 牛军钰关键词:文本分类 信息检索中语言模型的研究 被引量:3 2007年 介绍了最新被应用于信息检索领域的模型——语言模型。论述了构造应用于信息检索语言模型的3个步骤,介绍了这种语言模型的排序方法、反馈和与其它因素结合的方法,以及其在检索领域的应用效果,提出了语言模型在信息检索中的发展方向。 楼炉群 牛军钰关键词:语言模型 信息检索 一种基于紧密度的半监督文本分类方法 被引量:13 2007年 自动的文本分类已经成为一个重要的研究课题。在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点,传统的文本分类器如果直接应用到这类问题上,也难以取得令人满意的效果。因此,本文提出了一种基于紧密度衡量的方法来解决这一类问题。由于没有标注出来的负例文档,所以,本文先提取出一些可信的负例,然后再根据紧密度衡量对提取出的负例集合进行扩展,进而得到包含正负例的训练集合,从而提高分类器的性能。该方法不需要借助特别的外部知识库来对特征提取,因此能够比较好的应用到各个不同的分类环境中。在TREC’05(国际文本检索会议)的基因项目的文本分类任务语料上的实验表明,该算法在解决半监督文本分类问题中取得了优异的成绩。 郑海清 林琛 牛军钰关键词:计算机应用 中文信息处理 文本分类 支持向量机