陈翀 作品数:20 被引量:89 H指数:5 供职机构: 北京师范大学政府管理学院 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 医药卫生 经济管理 更多>>
书评众包的用户参与意愿及影响因素研究——以北京师范大学图书馆为例 被引量:8 2016年 [目的/意义]探究借用众包模式汇集读者智慧,建设高校图书馆书评资源在理论和实际上的可行性,并提出具体实施建议。[方法/过程]结合统计分析进行实证研究,围绕3个问题对高校图书馆用户进行调查:(1)用户对网络及本地书评资源的使用及看法;(2)激励措施及校园社交关系对用户参与书评建设意愿的影响;(3)怎样的激励措施更加行之有效。[结果/结论]论证本地图书馆书评资源建设的可行性,得出书评系统中用户群培育及书评资源积累策略,对完善书评系统功能提出建议。 陈翀 罗文馨 张黎雪 王琼关键词:书评 众包 参与意愿 从大众分类到层次式资源组织体系——利用聚类信息构建标签树 被引量:5 2013年 提出一种合理运用大众标注数据自动构建资源导航体系的方法,首先使用聚类技术将标签分成主题相近的簇,然后在簇内按标签的泛指度和相似性构造标签树。将该方法用在公开的标签数据集SocialODP-2k9上进行实效评价,结果表明,本方法减少了以往标签树构造方法中"意义漂移"的缺陷,使组织结构有更好的语义一致性,且具有更好的导航效率,从而使本研究能适应信息组织与服务的实际需要。 罗鹏程 陈翀关键词:社会标注 资源组织 大规模中文搜索引擎的用户日志分析 北大'天网'是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示:用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户在一天内只进行1~2次内容不同的查询,多于2/3的用户点... 王继民 陈翀 彭波关键词:搜索引擎 用户日志 文献传递 大规模中文搜索引擎的用户日志分析 被引量:30 2004年 北大"天网"是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示:用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户在一天内只进行1-2次内容不同的查询,多于2/3的用户点击了结果页面中的某些网址(URL);多数用户输入的查询串中只含有一个词项并且包含中文字符,其中以2-4个汉字居多;用户查看结果页面的时间大约是2-3min;只有少数用户查看历史网页(或称网页快照).用户日志中不同查询串、不同用户和点击不同URL的数量满足Heaps定律. 王继民 陈翀 彭波关键词:搜索引擎 用户日志 用户行为 网络资源层次组织规律定量研究 被引量:3 2012年 本文以互联网FTP目录树为对象,从大众构造的层次式结构中揭示管理网络资源时的组织规律。通过考察44,972个软件资源及其在目录树中的位置,得到如下认识:①对于用户查找、浏览资源来说,资源存放在深度为2或3层较适合。②当要管理的资源数量在200以内时,人们可容忍平均1个目录中包含10个左右的软件资源;当资源数量更大时,人们可容忍平均1个目录中包含15个左右的软件资源。③在使用层次式组织结构时,人们会对结构的深度有一个习惯上限,目录结构平均深度一般不多于6层。④人们考虑组织结构时,会在"分类体系复杂度"和"分类精细度"之间权衡,在资源量增多时,尽量保证扁形结构。本文揭示了采用层次方式组织资源时的一些共性,有助于设计更贴近大众习惯的网络资源组织与导航系统,并对标签聚类等从扁平型信息组织方式中提取类目层次的研究工作提供依据。 陈翀 罗鹏程 刘晓兵 陆炀关键词:网络资源 目录树 大众分类 网络资源命名及用户命名行为的分析 被引量:4 2009年 网络资源是指通过互联网传播共享、以文件目录为主要存储组织结构的内容,如书、讲义、音乐等。每个资源的内容具有完整独立性。它们是数字图书馆、教学资源库、专业内容库藏的重要组成。网络资源的一大特点是命名模式不规范,给检索利用带来极大不便。本文以2003~2006年间搜集的61万文件构成的16 284个网络资源为对象,用统计的方法考察网络资源命名特点及其中体现的用户命名习惯。包括资源及其内部子目录、文件的名字长度分布,字符类型熵、常用符号、高频片段模式、语义类型等,并分析无序命名中蕴含的用户命名习惯。本文的意义一方面有助于从混乱命名中净化和提取对检索查询有用的信息,另一方面有助于揭示网络用户参与海量网络资源共享的行为习惯。 陈翀 闫宏飞关键词:互联网 网络资源 一种搜索引擎的查询意图发现的新方法 被引量:4 2012年 查询背后的信息需求被定义为查询意图,搜索引擎可以根据不同的查询意图,提供多样性的服务,优化检索效果。查询意图的识别多被看成是一种分类问题,现有的大多数方法都基于查询串文本本身的特征和查询的用户点击数据特征。这两种方法存在如下的困难:对于查询串的文本特征,查询比较短,特征比较稀疏,要进行比较准确的理解会比较困难;对于用户点击特征,由于用户提交查询的长尾性分布,大多数查询的提交次数都是较少的,对于这些查询,要判别它们的意图是比较困难的。为了克服长尾查询上查询意图判断的不可靠问题。本文提出利用查询结果的相关性分数的分布作为特征来判断查询意图的方法。这种方法依赖查询结果的特征,比查询串本身的特征更加丰富;同时不依赖于用户的点击数据,因此可以克服长尾查询上的困难。结果表明,使用结果分数分布,可以提高意图判别的准确程度。 陈翀 刘晓兵 徐谷子 何靖 闫宏飞关键词:查询意图 查询分类 利用引用信息的关键词提取 被引量:4 2014年 提出一种利用引用信息提取关键词的新方法,将候选词项与引用文献之间的关系抽象为二部图,使用Co-HITS方法迭代计算词项重要性得分至收敛,选出得分最高的词项作为关键词。用ACM数据库中主分类为"信息系统"的论文摘要作为数据集进行评测,结果显示本文所提出的方法优于同类基于图模型计算词项重要度的方法,适用于科学文献和其他具有链接关系的文本集合。在考虑引用信息的情况下,所提取的关键词不但概括原文还能体现原文受到外界关注的内容要点。 陈翀 罗鹏程 汪十红关键词:关键词提取 研究型教学在非计算机专业程序设计课程中的应用探索 被引量:1 2011年 本文结合非计算机专业开设程序设计课程的特点,从教学内容和教学方法、课程实践体系、课程学习评价三方面,探讨了研究型教学理念在程序设计教学中的应用。 黄崑 耿骞 陈翀 崔莎关键词:研究型教学 程序设计课程 非计算机专业 一种词汇共现算法及共现词对检索系统排序的影响 被引量:15 2005年 为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法——FDC。算法中考虑了词汇在文档中的共现频度、相对距离和共文档率。从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LS I)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果。D iscoun ted cum u lative ga in(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LS I方法获得的共现词对排序相关性也表现出同样显著的改进效果。结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法。 陈翀 彭波 闫宏飞 王继民关键词:排序 信息检索