李荣陆
- 作品数:22 被引量:554H指数:11
- 供职机构:复旦大学信息科学与工程学院计算机与信息技术系更多>>
- 发文基金:国家自然科学基金山西省自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术文化科学化学工程语言文字更多>>
- 评价情报检索系统性能的新方法—加权中值法被引量:9
- 2003年
- 查全率和查准率被大多数情报检索系统作为评价系统性能的方法,但人们已逐渐认识到它们的局限性.本文通过对三组情报检索系统用户相关性判断分布规律实验的数据分析,使用了一种基于用户相关性判断分布规律的方法--加权中值法,对情报检索系统的性能进行评价,并通过倾斜度的计算分析用户相关性判断的态度.
- 杨立英尚克聪李荣陆
- 关键词:情报检索系统信息检索查准率查全率
- 文本分类及其相关技术研究
- 本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。同时,对文本分类技术的一个新的研究方向—文本流派分类,文本分类的一个重要应用领域——文本信息过滤,进...
- 李荣陆
- 关键词:文本分类信息过滤最大熵模型
- 一种协调的科技文献分类方法被引量:3
- 2003年
- 科技文献之间的相互引证关系反映了一种科学交流活动,显示了科学文献之间(甚至是学科之间)的内在联系,而通过追溯文献之间的这种关系,可以改善和提高传统的基于内容的科技文献的分类的方法。论文利用有相互引证关系,有同引关系,以及有耦合关系的两篇文献一般是属于同一类的这一特点,提出了文献之间的引用相似度,同引相似度,耦合相似度这三个概念,再利用这三个概念生成了文献之间的“结构相似度”,并将它用于K-NN分类法中得出一种基于结构的分类法。最后,论文将这种基于结构的分类法和基于内容的NaveBayes分类法结合起来提出了一种新的协调分类法。
- 陈鑫卿张永奎李荣陆
- 三种文档语义倾向性识别方法的分析与比较被引量:23
- 2007年
- 研究并实现三种文档倾向性识别的方法:基于情感词加权的方法、基于语义模式分析的方法和基于文本分类的方法。第一种方法利用特征词汇的情感语义倾向性。第二种方法对自然语言的句法结构进行简化,以获取合适粒度的倾向性语义模式。第三种方法则直接利用传统的基于文本分类的方法。通过在网络舆情分析系统中的具体实现,探讨这三种方法各自的不足和优势。
- 马海兵刘永丹王兰成李荣陆
- 关键词:自然语言处理文本分类
- 层次化中文文档分类被引量:15
- 2004年
- 对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别、多标注分类问题进行求解,分别利用KNN和基于Boosting的分类方法进行层次化中文文档分类。测试结果显示层次化分类比平面分类能够取得更好的分类效果。
- 袁时金李荣陆周水庚胡运发
- 关键词:文档分类分类器
- 基于最小词频阈值的文档特征选择被引量:9
- 2006年
- 为降低内容无关的特征词对文本分类系统的影响,在对与文本内容无关的特征词进行分析后发现:不相关特征词的词频普遍较低,利用最小词频阈值滤除低频特征可以明显降低无关特征的数量。为此,提出基于最小词频阈值的文档频评估函数。利用该函数选择特征可以有效减少与内容无关的噪声特征,改善分类质量。实验结果显示,几种基于最小词频阈值的文档频评估函数比基于普通文档频的评估函数的分类准确性有不同程度的改进,其中对互信息的改进最为显著,宏平均F_1值比词频方法提高40%,比普通文档频方法提高15%~30%。
- 陈晓云李荣陆胡运发
- 关键词:文本分类信息增益互信息
- 一种基于多实例的自适应用户模型被引量:12
- 2002年
- 信息过滤中用户兴趣模型的表示是影响过滤精确度的最重要的因素之一。该文提出了一种基于多实例的自适应用户模型,它在一定程度上抑制了传统用户模型表示中同义现象对系统精确度的影响,并且使用户模型具有了关键词自动扩充和自适应能力。
- 李荣陆张永奎
- 关键词:信息过滤遗传算法信息处理计算机
- 基于语义分析的倾向性文本过滤被引量:62
- 2004年
- 采用基于统计的文本过滤技术对具有倾向性的文本进行过滤的效果并不理想,原因在于基于统计的方法忽略了文本中的语义约束,无法有效识别倾向性信息。本文提出一种基于语义分析的文本过滤技术,将文本中的语义关系加以考虑,能高效地识别和过滤倾向性文本信息。
- 刘永丹曾海泉李荣陆胡运发
- 关键词:人工智能文本过滤语义分析自然语言处理
- 基于智能Agent的用户兴趣发现和更新被引量:24
- 2003年
- 提出了一种新的基于智能Agent的用户兴趣发现和更新方法,主要介绍了智能Agent需要跟踪用户的哪些行为,如何发现用户真正感兴趣的文献,如何通过分析提取兴趣特征词及权重计算等内容。该方法主要利用了用户浏览文献页面的信息,有效地解决了用户兴趣的自适应变化。
- 白丽君张永奎李荣陆
- 关键词:智能AGENT程序设计用户模型人工智能
- 自适应确定摘要长度被引量:5
- 2004年
- 随着信息技术的发展和信息量的大量增多 ,提出了很多自动摘要的算法 在这些众多的算法中 ,都有一个共同的现象———摘要的长度均需事先给定 然而 ,实际的情况是 ,随着信息样本的不同 ,该信息样本所包含的信息量也是不同的 为了能够全面地反映信息样本的主题思想 ,又不产生信息冗余 ,就要求根据具体信息样本 ,动态地确定与该样本信息量相适应的结果摘要长度 据此 ,提出了一种自适应于不同样本的、动态确定摘要长度的算法 ,从具体样本中循序渐进地抽取出其所包含的所有子主题 ,这些子主题的集合构成了该信息样本的主题思想 然后 ,再根据子主题的数量确定摘要的长度 ,既全面地反映了信息样本的内容 ,又不会产生信息冗余 另外 ,还提出了新的互依赖模型 ,使用该模型可以使切词的结果较为准确 ,并可有效地降维 。
- 王建会胡运发李荣陆
- 关键词:N-GRAM