您的位置: 专家智库 > >

国家自然科学基金(69873011)

作品数:8 被引量:251H指数:5
相关作者:黄萱菁吴立德郭以昆周雅倩欧嘉致更多>>
相关机构:复旦大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划上海市教育委员会重点学科基金更多>>
相关领域:自动化与计算机技术电子电信文化科学语言文字更多>>

文献类型

  • 8篇期刊文章
  • 1篇会议论文

领域

  • 7篇自动化与计算...
  • 2篇电子电信
  • 1篇文化科学
  • 1篇语言文字

主题

  • 4篇语言处理
  • 4篇自然语言
  • 4篇自然语言处理
  • 2篇信息处理
  • 2篇语音
  • 2篇语音识别
  • 2篇向量
  • 2篇向量空间
  • 2篇向量空间模型
  • 1篇短语识别
  • 1篇多媒体
  • 1篇新闻
  • 1篇新闻节目
  • 1篇新闻视频
  • 1篇信息过滤
  • 1篇音频
  • 1篇语言模型
  • 1篇语种
  • 1篇视频
  • 1篇特征抽取

机构

  • 8篇复旦大学

作者

  • 7篇吴立德
  • 7篇黄萱菁
  • 2篇陈凯江
  • 2篇周雅倩
  • 2篇郭以昆
  • 2篇欧嘉致
  • 1篇孙晓光
  • 1篇刘秉伟
  • 1篇牛军钰
  • 1篇张杰

传媒

  • 3篇计算机科学
  • 1篇计算机研究与...
  • 1篇电子学报
  • 1篇计算机工程
  • 1篇小型微型计算...
  • 1篇中文信息学报

年份

  • 2篇2003
  • 3篇2002
  • 2篇2001
  • 2篇2000
8 条 记 录,以下是 1-9
排序方式:
基于DOP技术的目标语生成机制
2001年
提出在面向数据的英汉机译系统中 ,一种以面向数据的语言分析技术作为基本框架的目标语生成机制 .该机制通过对源语语句的句法分析树进行线性化操作 ,生成目标语译文 .其中包括从源语语句句法分析树的所有片段组合形式中选择一个适合生成操作的生成片段组合形式、对生成片段组合形式中的所有片段进行线性化操作以及对所有片段已经线性化的生成片段组合形式进行线性化操作 ,从而获取最终的目标语译文 .为论证方法有效性 ,基于包含 1,0 0 0个语句的真实英语语料构建知识源 ,并采用包含 10 0个语句的真实英语语料作为测试集 .实验表明 ,目标语译文质量比较令人满意 。
张杰牛军钰孙晓光
关键词:机器翻译DOP自然语言处理
基于向量空间模型的Web中文信息过滤系统被引量:6
2003年
提出了一种基于VSM的自适应的Web信息过滤系统的设计及实现方法.与传统的信息过滤系统相比,Web上的信息过滤系统具有许多全新的特征.页面为半结构化的文档、页面上的噪声信息比较多,用户提交的正例比较少.这些特性成为影响过滤性能的主要因素.针对Web的上述特性设计的Fudanfilter2002过滤系统,具有使用方便、过滤时间短、精度高等特点.
胡恬
关键词:信息过滤向量空间模型自适应
现代汉语熵的计算及语言模型中稀疏事件的概率估计被引量:10
2000年
文本文在大规模语料的基础上 ,利用语言模型中稀疏事件的概率估计方法对汉语的熵进行计算 ,并讨论了语料规模等因素对熵的影响 .在 4年的人民日报的语料规模下 ,所求得的零阶熵、一阶熵、二阶熵分别为 9 6 2 ,6 18和 4 89比特 .
黄萱菁吴立德郭以昆刘秉伟
关键词:现代汉语语言模型
基于向量空间模型的文本过滤系统
文本过滤指的是从大量的文本数据流中寻找满足特定用户需求的文本的过程.本文首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目;然后详细地描述了...
黄萱菁夏迎炬吴立德
关键词:文本检索文本过滤向量空间模型
文献传递
新闻视频、音频中的主题检测被引量:1
2002年
Topic Detection in News Video and Audio is to automatically detect snippets with a topic the user searches for, in the news streams, including video,audio and broadcasting. It is a novel research scope rises along with the rapid development of multimedia technology, automatic speech recognition and natural language processing. This technology detects the topic of the news in the semantic level and fits for most people's retrieval need.
陈凯江欧嘉致黄萱菁吴立德
关键词:语音识别自然语言处理新闻视频音频主题检测新闻节目
基于最大熵方法的中英文基本名词短语识别被引量:106
2003年
使用了基于最大熵的方法识别中文基本名词短语 在开放语料ChineseTreeBank上 ,只使用词性标注 ,达到了平均 87 4 3% / 88 0 9%的查全率 /准确率 由于 ,关于中文的基本名词短语识别的结果没有很好的可比性 ,又使用相同的算法 ,尝试了英文的基本名词短语识别 在英文标准语料TREEBANKⅡ上 ,开放测试达到了 93 31% / 93 0 4 %的查全率/准确率 ,极为接近国际最优水平 这既证明了此算法的行之有效 。
周雅倩郭以昆黄萱菁吴立德
关键词:最大熵基本名词短语自然语言处理
基于双向策略标记上下文无关文法的图算法
2002年
一、引言句法分析是自然语言处理的重要基础,相应的研究很多,但是由于速度问题,句法分析很难大规模运用,因此提高分析速度一直是句法分析的重要研究方向。我们知道,句法分析的过程实际上是一个在句法成分树的空间中寻找最优分析树的过程,因此可以把分析过程看成是个搜索最佳路径的过程。在搜索的过程中给些“启发”将提高效率。双向图算法,是个最佳的例证,由于每条规则都有触发类来规定它的使用时机,使得它无论是时间还是空间上都比传统的图算法有更高的效率。
周雅倩黄萱菁吴立德
关键词:自然语言处理句法分析图算法信息处理
关键词识别的基本技术和研究进展被引量:5
2002年
Keyword Spotting (KWS) or Keyword Recognition is to recognize a set of given keywords in continuous,spontaneous speech.It is a very active branch of Speech Recognition.It differs from Continuous Speech Recognition (CSR) in terms of research focus,implementation techniques and application background.So they are often regarded as two different issues.This paper gives an overview of basic techniques and advances in recent years,including how to combine the traits of Mandarin.
陈凯江欧嘉致黄萱菁吴立德
关键词:语音识别关键词识别信息处理多媒体计算机
独立于语种的文本分类方法被引量:127
2000年
文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。
黄萱菁吴立德石崎洋之徐国伟
关键词:文本分类特征抽取分类器语种
共1页<1>
聚类工具0