魏庭新
- 作品数:13 被引量:39H指数:3
- 供职机构:南京师范大学国际文化教育学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金江苏省教育厅哲学社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 面向中文AMR标注体系的兼语语料库构建及兼语结构识别被引量:1
- 2021年
- 兼语结构是汉语中常见的一种动词结构,由述宾短语与主谓短语共享兼语,结构复杂,给句法分析造成困难,因此兼语识别工作对于语义解析及下游任务都具有重要意义。但现存兼语语料库较少,面向中文抽象语义表示(AMR)标注体系的兼语语料库构建仍处于空白阶段。针对这一现状,该文总结出一套兼语语料库标注规范,构建了包含4760个兼语句的面向中文AMR标注体系的兼语语料库。基于构建的语料库,采用LA-BiLSTM-CRF模型识别兼语结构,达到了86.06%的F1,并分析了识别结果,提出了改进方向。
- 侯文惠曲维光魏庭新魏庭新李斌顾彦慧
- 关键词:兼语结构
- 不同编班方式对初级阶段留学生汉语学习的影响效应研究
- 2016年
- 本文通过问卷调查了单语班和混合班两种编班方式下留学生使用媒介语和目的语的情况以及他们的语言焦虑度,并比较了他们的学习效果。结果发现,单语班母语使用量远远高于混合班,但目的语使用量基本持平;单语班语言焦虑度低于混合班,混合班中汉语使用量与语言焦虑度之间存在负相关关系;在学习效果方面,学习初期单语班的效果要好于混合班,但这种效应随着时间的推移而逐渐减弱。
- 魏庭新
- 关键词:目的语媒介语焦虑度
- 基于深度学习的中文零代词识别
- 2021年
- 针对中文零代词识别任务,提出了一种基于深度神经网络的中文零代词识别模型.首先,通过注意力机制利用零代词的上下文来帮助表示缺省的语义信息.然后,利用Tree-LSTM挖掘零代词上下文的句法结构信息.最后,利用语义信息和句法结构信息的融合特征识别零代词.实验结果表明,相对于以往的零代词识别方法,该方法能够有效提升识别效果,在中文OntoNotes5.0数据集上的F1值达到63.7%.
- 王立凯曲维光魏庭新周俊生顾彦慧李斌
- 现代汉语介词结构位置的考察及影响其位置的句法、语义因素分析
- 本文主要统计了现代汉语中的介词结构的位置分布情况,重点考察了《汉语水平词汇与汉字等级大纲》中的介词所能出现的位置及分布情况比例,发现:现代汉语中介词结构可能出现的位置有三个,分别为:主语前、主语谓语之间和谓语后;对于绝大...
- 魏庭新
- 关键词:介词教学句法语义对外汉语教学
- 文献传递
- 词向量和语义知识相结合的汉语未登录词语义预测研究被引量:1
- 2020年
- 【目的】将词向量和语义知识相结合,提高未登录词语义预测的准确性。【方法】抓取含有未登录词网页的语料,利用Word2Vec等模型得到词语的分布式表示信息,再结合构词语义知识对候选词进行中心词和词性过滤,实现未登录词的语义预测。【结果】在人民日报语料未登录词测试集上的实验结果表明,模型预测正确率可达87.5%,高于只使用词语内部知识的模型和只使用外部分布信息的词向量模型。【局限】无法预测语义不透明的未登录词。【结论】将携带词语外部信息的词向量与词语内部特征相结合,显著提高了未登录词语义预测的正确率,说明词语内、外部信息对于语义的组成有重要作用。
- 魏庭新柏文雷曲维光
- 关键词:未登录词语义知识
- 汉语V+V序列关系识别研究
- 2023年
- “V+V”是现代汉语中的常见结构,能够形成兼语、连动等多种完全不同的句法结构,给句法和语义解析造成困难。针对“V+V”形成的句法结构类型和序列关系识别问题,设计并制定了一套语料库标注规范,以解决语料库中存在的“V+V”结构的嵌套标注问题,并据此构建起一个包含5 381个兼语句子、7 987个连动句子,以及1 212个兼语连动嵌套句子的“V+V”语料库。提出一个基于BiLSTM-CRF和多头注意力机制的模型,能够同时识别结构中的多个动词和名词的句法、语义角色。相比于以往只研究单项识别兼语或者连动结构,该模型不仅可以同时识别兼语结构、连动结构,还可以解决兼语连动嵌套结构的识别问题。实验结果表明:该方法能够很好地解决“V+V”序列关系的识别问题,在测试集语料上达到92.12%的F1值。
- 李胜男曲维光魏庭新魏庭新顾彦慧顾彦慧
- 关键词:连动结构兼语结构
- 介词短语的位置意义被引量:3
- 2007年
- 本文分析了介词短语在句首、句中做状语以及在谓语后做补语时的位置意义的不同。句首状语与句中状语的不同主要是说话人心理视点的不同,而状语位置与补语位置的意义差别在于状语位置表达的意义为:从某一方面对动作行为加以限定、描写,补语位置则表示动作行为或动作行为致使事物最后到达的处所、方向、对象、结果、目的等。另外,状语位置和补语位置语义上的另一重要差别是体的不同。
- 魏庭新
- 关键词:介词短语
- 汉语词语离合现象识别研究
- 2023年
- 离合现象是指汉语中一种词语的前后语素之间可以插入其他成分,但分离后表达的意思仍然是一个整体的现象。该文采用字符级序列标注方法解决二字动词离合现象的自动识别问题,以避免自动分词及词性标注的错误传递;引入掩码机制,遮蔽句中离合词,以强化对中间插入成分的学习,并对前后语素采用不同的掩码以强调其出现顺序;设计双编码模型,对原始句子与掩码后的句子分别进行编码。实验结果表明,该文提出的BERT_MASK+2BiLSTMs+CRF模型比当前性能最优的离合词识别模型提高了2.85%的F1值。
- 周露曲维光魏庭新魏庭新李斌李斌
- 关键词:离合词自动识别神经网络
- 外国学生学习汉语成语的难点分析及对策被引量:20
- 2007年
- 成语是对外汉语教学的难点之一,留学生在学习汉语成语时的难点主要是:对成语的意义理解有偏差;对其句法功能不明确;对其搭配不清楚;活用时也常犯错误。对症下药,具体问题具体解决无疑是一种有效的方法。
- 魏庭新
- 关键词:成语对外汉语教学句法功能教学对策
- 基于神经网络的复句判定及其关系识别研究被引量:1
- 2021年
- 复句是自然语言的基本单位之一,复句的判定及其语义关系的识别,对于句法解析、篇章理解等都有着非常重要的作用。基于神经网络模型识别自然语料中的复句,判断其复句关系,构造复句判定和复句关系识别联合模型,以最大程度地减少误差传递。在复句判定任务中通过Bi-LSTM获得上下文语义信息,采用注意力机制捕获句内跨距离搭配信息,利用CNN捕获句子局部信息。在复句关系识别任务中,使用Bert增强句子的语义表示,运用Tree-LSTM对句法结构和成分标记进行建模。在CAMR中文语料上的实验结果表明,基于注意力机制的复句判定模型F1值达到91.7%,基于Tree-LSTM的复句关系识别模型F1值达到69.15%。在联合模型中,2项任务的F1值分别达到92.15%和66.25%,说明联合学习能够使不同任务获得更多特征,从而提高模型性能。
- 贾旭楠魏庭新曲维光曲维光顾彦慧
- 关键词:神经网络语义建模