安波
- 作品数:8 被引量:19H指数:2
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金青海省自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 提供云字库服务的方法和系统
- 本发明公开一种提供云字库服务的方法和系统,涉及互联网字库应用技术领域,解决了现有技术中终端下载字库耗费大量流量的问题。所述提供云字库服务的方法包括:接口服务器接收客户端的缺字请求,将所述缺字请求发送给云字库服务器;云字库...
- 安波吴健芮建武马龙龙刘汇丹
- 文献传递
- 传统蒙古文“同形不同码”问题研究
- 2015年
- 设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出相同的字形。系统根据倒排索引、同形词列表统计出语料中传统蒙古文同形不同码的情况。实验结果显示,同形不同码问题在传统蒙古文中普遍存在,反映出了制定相关标准的迫切性。
- 安波诺明花吴健刘汇丹马龙龙
- 关键词:爬虫倒排索引语料库
- 基于分布式表示和多特征融合的知识库三元组分类被引量:7
- 2016年
- 三元组分类是知识库补全及关系抽取的重要技术。当前主流的三元组分类方法通常基于TransE来构建知识库实体和关系的分布式表示。然而,TransE方法仅仅适用于处理1对1类型的关系,无法很好的处理1对多、多对1及多对多类型的关系。针对上述问题,该文在分布式表示的基础上,提出了一种特征融合的方法—TCSF,通过综合利用三元组的距离、关系的先验概率及实体与关系上下文的拟合度进行三元组分类。在四种公开的数据集(WN11、WN18、FB13、FB15K)上的测试结果显示,TCSF在三元组分类上的效果超过现有的state-of-theart模型。
- 安波韩先培孙乐吴健
- 关键词:知识库
- 双语对齐语料的加工方法及装置
- 本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文...
- 刘汇丹龙从军诺明花安波吴健
- 文献传递
- 融合知识表示的知识库问答系统被引量:12
- 2018年
- 基于知识库的问答系统能够根据知识库中的事实自动回答自然语言的问题.简单问题是指可以通过知识库中单一的事实来进行回答的问题,这类问题也是最常见的问题.但是当面对大规模的知识库时,简单问题依然存在很大的挑战.当前的端到端(end-to-end)模型主要依赖于对问句、实体和关系的文本描述进行表示学习,进而根据这些表示来计算实体、关系与问句的语义相关度,忽略了知识库中的实体和关系的结构信息.而这些结构信息,对于问句中实体和关系的识别有重要作用.本文采用一种融合文本和知识的表示学习方法,通过文本表示和组合模型来学习问句和知识的表示,同时使用知识的结构信息来约束文本的表示和组合.在基于知识的问答任务上的结果表明,本文提出的方法学习到的问句和知识的表示能很好地反映问句与知识之间的语义相关性,并显著地提升了问句中实体链接和关系识别的准确率.
- 安波安波韩先培
- 关键词:问答系统知识库知识表示文本表示
- 结构信息增强的文献分类方法研究
- 2023年
- [目的/意义]针对传统文献分类方法未能充分利用文献结构信息的问题,本文提出使用关键词-文献图网络构建文献之间的结构信息,并用于增强传统基于文献内容的分类方法。[方法/过程]本文借助图卷积神经网络建模关键词-文献图数据,学习文献在图网络中的节点表示。同时使用Bert+BiLSTM学习文献的内容表示。然后,我们将文献的节点表示与内容表示进行拼接,得到融合文献结构信息和文本语义信息的表示,并基于该表示开展文献分类。[结果/结论]实验结果表明,文献的结构信息能够提升文献分类的性能,但单一的结构信息并不能很好地实现文献分类。通过错误分析,我们发现模型在处理包含新兴交叉科学和新概念的文献时容易出现分类错误,表明模型在处理这类数据时还有一定的局限性,是未来需要继续优化的方向。
- 安波
- 关键词:语义关联知识组织自然语言处理
- 基于分布式表示和多特征融合的知识库三元组分类
- 三元组分类是知识库补全及关系抽取的重要技术。当前的state-of-the-art三元组分类方法通常基于TransE来构建知识库实体和关系的分布式表示。然而,TransE方法仅仅适用于处理1对1类型的关系,无法很好的处理...
- 安波韩先培孙乐吴健
- 关键词:知识库
- 藏文编码字符集标准应用中的问题及对策
- 2016年
- 藏文文本中存在同形异码现象给文本处理带来一定的问题。通过大规模文本统计,找出了90组同形异码实例;分析发现,藏文文本中同形异码现象是国际编码集中同时存在单字符编码和组合字符编码导致的。描述了各种可能产生同形异码的字符,从改进国际编码字符集和改进输入法等方面提出一些建议。
- 龙从军刘汇丹安波才华吴健