孙荣
- 作品数:3 被引量:24H指数:3
- 供职机构:上海大学计算机工程与科学学院更多>>
- 发文基金:上海市教育委员会重点学科基金国家自然科学基金上海大学创新基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 应用本体对特征向量降维研究被引量:4
- 2010年
- 在应用SVM对文本进行分类时,用传统的TFIDF算法对文本特征进行选择会产生高维特征向量问题,这个问题干扰了SVM的效率和准确性,使SVM的性能下降。为了解决SVM文本分类过程中产生的这个问题,提出一种基于本体的特征项约简方法。该方法通过本体找出特征向量中具有同义关系、组成关系和上下位关系的冗余特征项,然后对它们进行合并降低特征向量的维数。试验结果表明,采用本体约简特征向量的方法改进了SVM分类器的性能。
- 孙荣刘宗田廖涛王利
- 关键词:文本分类本体支持向量机特征向量维数约简
- 用规则抽取句子中事件信息被引量:10
- 2011年
- 信息抽取是数据挖掘的重要课题.目前的研究主要通过机器学习的方法对信息进行抽取.但是机器学习对训练数据的质量要求高,学习过程中参数设置复杂.而利用事先构建好的规则可以简单有效的从文本中提取事件信息.提出一种基于抽取规则对句子中的事件信息进行抽取的方法,摆脱了繁杂的机器学习过程.该方法利用本体对动词与事件角色匹配规则、事件角色抽取规则、时间信息抽取规则和地点信息抽取规则进行定义,用OWL对这些抽取规则进行了描述,然后应用这些规则抽取句子中的动词词义信息、事件角色信息、时间信息和地点信息,并用本文提出的一种新评测指标对事件信息进行评测.实验表明该方法从句子中抽取事件信息是有效的.
- 孙荣周文刘宗田
- 关键词:本体句子信息抽取
- Web表格定位技术的研究与实现被引量:10
- 2009年
- Web表格的定位作为Web表格抽取的一个重要研究内容,现在越来越得到更多人的重视。根据Web表格的结构标记和自定义的启发式规则,通过对〈TABLE〉嵌套问题的解决、数据表格完整性的判断、〈TABLE〉树的遍历来完成表格的定位。
- 廖涛刘宗田孙荣
- 关键词:DOM树启发式规则遍历