朱慕华
- 作品数:7 被引量:55H指数:4
- 供职机构:东北大学自然语言处理实验室更多>>
- 发文基金:国家自然科学基金教育部科学技术研究重点项目沈阳市科学技术计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向支持向量机的降维方法比较分析
- 支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点。本文考察了信息增益、文档频度、X2统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验。结果表明,潜在语义索...
- 朱慕华朱靖波陈文亮
- 关键词:支持向量机文本分类特征降维
- 文献传递
- 面向移进—归约句法分析器的单模型系统整合算法被引量:5
- 2012年
- 该文提出了一种面向移进—归约句法分析器的单模型系统整合算法。在训练阶段,该方法通过调整训练数据的分布,来构建用于整合的多个移进—归约句法分析器。在解码阶段,该方法首先使用各个移进—归约句法分析器对待分析的句子进行句法分析,然后利用一个线性模型对各句法分析器输出的句法树进行评分,从中选出得分最高的句法树作为最终结果。该文中的实验是在宾州英文树库上进行的。实验结果表明,该文中的方法能够显著改善基准系统的性能。
- 马骥朱慕华肖桐朱靖波
- 关键词:句法分析系统整合
- 面向支持向量机的降维方法比较分析
- 支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点.本文考察了信息增益、文档频度、x2统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验.结果表明,潜在语义索...
- 朱慕华朱靖波陈文亮
- 关键词:支持向量机文本分类特征降维潜在语义索引
- 文献传递
- 基于领域类别信息C-value的多词串自动抽取被引量:8
- 2010年
- 该本的多词串抽取是自然语言处理领域一项重要的研究内容。该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能。在汽车、科技和旅行三个领域的数据上进行实验,评价多词串的准确率,在top-100级别上,较传统的C-value方法在三个领域中分别提高了12、12和13个百分点。实验结果验证了方法的有效性。
- 李超王会珍朱慕华张俐朱靖波
- 关键词:中文信息处理领域信息
- 向上学习方法改进移进-归约中文句法分析被引量:2
- 2015年
- 基于移进-归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进-归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进-归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进-归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进-归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。
- 朱慕华王会珍朱靖波
- 基于领域词典的文本特征表示被引量:32
- 2005年
- 为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———自划分模型———来解决这个覆盖度不足的问题·实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果·相对于传统词文本特征方法,在特征数为500时分类的F1值提高6·58%·
- 陈文亮朱靖波朱慕华姚天顺
- 关键词:文本分类知识获取领域知识文本表示
- 基于Bootstrapping的文本分类模型被引量:8
- 2005年
- 本文提出一种基于Bootstrapping的文本分类模型 ,该模型采用最大熵模型作为分类器 ,从少量的种子集出发 ,自动学习更多的文本作为新的种子样本 ,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明 ,在相同的手工训练语料的条件下 ,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势 ,仅使用每类10 0篇种子训练集 ,分类结果的F1值为 70 5 6 % ,比传统模型高出 4 70 %。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。
- 陈文亮朱慕华朱靖波姚天顺
- 关键词:计算机应用中文信息处理文本分类最大熵模型