王厚峰
- 作品数:82 被引量:673H指数:12
- 供职机构:北京大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字理学文化科学更多>>
- 一种实时问答方法及系统
- 本发明公开了一种实时问答方法及系统。本方法为:1)建立并训练一个多任务神经网络并训练;其中多任务神经网络包括文档编码器、问题编码器和排序器,文档编码器和问题编码器为共享同一套训练参数的预训练语言模型网络;2)用文档编码器...
- 文亮王厚峰汪小林罗英伟
- 一种中文自动语法纠错中的动态掩码训练方法
- 本发明提供一种中文自动语法纠错的动态掩码训练方法,属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式,提出了一种混合加噪模式来更好地利用已有标注数据,提升模型泛化能力和健壮性;且利用动态掩码机制来避免静态掩码机制...
- 王厚峰赵泽伟
- 文献传递
- 基于层次聚类的网络新闻热点发现
- 网络新闻热点发现的主要目的是从海量互联网数据中发现人们感兴趣的热点话题。在已有研究中,主要采用基于单篇报道的增量聚类方法。本文则提出一套针对单日新闻进行层次聚类,发现每日热点,再对热点进行增量聚类的框架。在对每日新闻的层...
- 彭楠赟王厚峰凌晨添
- 关键词:特征选取层次聚类
- 文献传递
- 汉语理解系统的核心技术-句类分析技术
- 黄曾阳张全晋耀红苗传江张倪杜燕玲林杏光张普王厚峰刘志文庄咏谬萧友菱雷良颖薛侃张艳红郝惠宁陶明阳汪保安初玉凤孙伟峰武连文尚京陈磊热汗姑丽
- 句类分析技术包括知识库和软件分析系统。目前该技术对一般应用文的处理能力为:语义块感知处理的正确率≥90%;句类分析正确率,基本句类≥95%或混合句类≥90%。并已经应用到语音识别系统和文语转换系统中,取得了较理想的结果。...
- 关键词:
- 关键词:自然语言理解句类分析
- 汉语指代消解与省略恢复研究
- 自然语言为人们提供了表达思想的丰富手段,但也正是这一丰富多彩的特点导致了计算机对其处理的巨大困难;指代消解和省略恢复便是其中公认的两大困难点.随着自然语言处理应用领域的不断扩展,越来越多的语言学家和计算机工作者开始关注相...
- 王厚峰
- 关键词:先行语句类语义块
- 文献传递
- 结合RNN和CNN层次化网络的中文文本情感分类被引量:21
- 2018年
- 提出一种多层网络H-RNN-CNN,用于处理中文文本情感分类任务。将文本按句子进行划分,引入句子层作为中间层,以改善文本过长带来的信息丢失等问题。模型中使用循环神经网络建模词语序列和句子序列,并通过卷积神经网络识别跨语句的信息。探讨循环神经网络变种和不同输入向量对模型的影响。实验结果表明,所提方法在多类数据集上都取得良好的效果。
- 罗帆王厚峰
- 关键词:循环神经网络
- 向量子程序预处理系统
- 1992年
- 在程序设计中,子程序有着独特的优点。然而,过多地调用子程序又必然要花费许多额外代价。为此,我们针对SEG协会提出的一套具有向量特征的子程序设计了预处理器VPPS。它将调用SEG子程序的语句用相应的Fortran Do-循环取代,可以使速度提高近10倍。
- 王厚峰
- 关键词:程序设计向量子程序
- 一种基于文档词汇特征变化的突发事件检测方法
- 一种基于文档词汇特征变化的突发事件检测方法。包括:利用计算机从新闻网站上的时政新闻报道中爬取指定时间段的新闻文章;对每一个文档进行预处理,包括汉语词切分和词性标注;留下内容词,过滤掉其它词;获取前面k年与目标文档相同时间...
- 王厚峰张龙凯
- 文献传递
- 一种快速序列标注方法
- 本发明提供一种快速序列标注方法,属于语言信息处理领域。所述方法基于随机梯度下降(SGD)在线学习算法,适合大规模语料训练;在训练过程中,针对特征频率,对二阶海森矩阵采用对角化近似,即:利用特征频率高低对对角元素赋予不同权...
- 王厚峰何正焱
- 采用无标注语料的动词和形容词主观性评级
- 2013年
- 为了自动区分中文主观词和客观词,采用主观性线索和汉字的主观性两种手段对动词和形容词进行主观性度量.主观性的线索进一步被分成级差(gradability)线索和主体(subject)线索;根据这些线索,使用基于图的算法进行评级(ranking).在汉语主观性词表构建中,提出使用主体线索和汉字主观性.5个标注人员对随机选择的500个单词进行主观性标注,据此构建主客观标准集,并将其用于各种设置下的实验结果评估.实验结果显示,当被标注的单词出现频率较高时,所提出的方法能够超过或者匹配人工标注.此外,尽管文中只使用了无标注的数据,但还有更多的先验知识(如语义词典等)可以被引入到该方法中.
- 徐戈蒙新泛王厚峰
- 关键词:主观性评级