国家科技支撑计划(2013BAG06801)
- 作品数:8 被引量:24H指数:2
- 相关作者:徐硕曾文张运良翟娟华韩红旗更多>>
- 相关机构:中国科学技术信息研究所北京印刷学院北京联合大学更多>>
- 发文基金:国家科技支撑计划国家自然科学基金国际科技合作与交流专项项目更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 基于互信息强度构建标签概念层次结构方法的探究
- 2014年
- 大众分类、社会化标注等个性化标签系统对网络资源的组织优势很明显,但存在标签多样和概念结构模糊的缺陷。文章以"豆瓣"读书标签为例,探讨自由标签系统概念上下位关系的识别方法。主要是先对标签进行聚类,将其分成若干个内部结构联系紧密的类簇,然后以互信息强度,具体判别上下位关系,由此构建标签层次结构。实验表明构建完成的概念层次结构图,能够比较准确地识别标签间的概念关系,为用户提供良好的标签导航和浏览机制。
- 江雪琴张志平李琳娜
- 关键词:标签聚类
- 面向电动汽车领域的专利文献加工和术语抽取方法研究
- 2014年
- 随着国家科技战略规划发展的进一步深化,知识产权战略已经提升到国家层面,未来国家重点产业持续发展和新兴产业创新开拓都与知识产权战略息息相关。本文以电动汽车领域专利文献为基础,从专利文献加工和解决专利文献术语抽取的研究问题入手,提出专利文献再处理的基本流程以及一种基于专利术语语言特点和统计计算相结合的专刊文献术语抽取识别方法,并在电动汽车专利文献数据集上进行了验证和测试。测试结果表明,本文提出的方法是有效的。
- 曾文
- 关键词:电动汽车术语抽取
- 科技文献术语的自动抽取技术研究与分析被引量:16
- 2014年
- 【目的】为提高科技文献信息的组织和检索效率,从解决科技文献术语抽取这一基础研究问题入手,提出一种基于科技文献术语特点和统计计算相结合的科技文献术语自动抽取方法。【方法】核心技术是结合科技文献术语的语言特点,以及术语在文献中的词语组合强度和出现位置等统计计算信息,构建科技文献术语自动抽取算法。【结果】实验测试结果表明,获取的科技文献术语词语的平均准确率可以达到51.2%。【局限】在统计计算算法和数据处理方面,还需进一步改进算法和提高数据质量。【结论】提出的基于科技文献术语特点和统计计算相结合的科技文献术语自动抽取方法是有效的。
- 曾文徐硕张运良翟娟华
- 关键词:自动抽取
- 基于专利文本数据的技术实力评价方法被引量:5
- 2014年
- 【目的】提出不依靠专利引文数据、利用专利文本数据评价企业技术实力的方法。【方法】该方法综合采用专利授权数量指标、专利增长率指标、技术中心性指标和专利最小价值指标来评估技术实力。这4类指标分别从技术规模、技术增长性、技术重要性和技术价值性等不同侧面反映一个企业的技术能力。【结果】通过CII和TII指标对比实验,验证引文分析给公开早的专利较高评价的问题;通过TS指标和TSQGIV对比实验,验证提出的技术实力评价方法的有效性。【局限】数据处理中没有对机构名称进行规范化处理,实验结果可能存在误差。【结论】相比于其他评价技术实力的方法,本研究可以在没有引文数据的情况下对企业的技术实力进行评价。
- 韩红旗桂婕徐硕刘玉琴
- 关键词:评价指标
- 研究者标识系统的整合及其应用
- 2014年
- 本文阐述了研究者标识系统整合的重要意义,介绍了国外主要研究者标识系统及其整合案例,并从应用目标出发,结合现有体系,设计了一种与全球研究者标识系统相接轨的“中国研究者标识体系”。最后,进行了问题分析并给出结论。
- 李颖徐硕姚长青
- 关键词:唯一标识符DOI
- TimeML在文本时间关系解析中的应用被引量:1
- 2014年
- TimeML是在自然语言文本中标注事件和时间表达的一种规范语言。本文介绍了TimeML标准及其语料库TimeBank,从其起源英文文本事件时间表达标注开始,分析TimeML在文本时间关系解析研究中的发展,并探讨了TimeML在汉语文本时间关系解析研究中的应用。
- 李路标张寅生王惠临
- 关键词:时间信息
- 子句对齐及其在专利统计机器翻译中的应用
- 2014年
- 针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。
- 何彦青张娟
- 关键词:词对齐统计机器翻译
- 数字图书馆数字化文献再处理工具的开发与实践被引量:2
- 2013年
- 数字图书馆运用计算机系统管理各种载体文献的加工与服务,通过网络和通信技术支持用户访问数字化文献信息资源。数字图书馆对海量数据的处理能力是保证数据质量、支持与深化数字图书馆服务功能的基础。文章论述数字图书馆中数字文献再处理工具研究的重要性,介绍和阐述已有工作的开展情况,以及结构化的数字文献再处理工具的开发与实践工作。
- 曾文徐硕张运良
- 关键词:数字图书馆结构化数据