郭以昆
- 作品数:9 被引量:225H指数:4
- 供职机构:复旦大学信息科学与工程学院计算机科学系更多>>
- 发文基金:国家自然科学基金上海市教育委员会重点学科基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 现代汉语熵的计算及语言模型中稀疏事件的概率估计被引量:10
- 2000年
- 文本文在大规模语料的基础上 ,利用语言模型中稀疏事件的概率估计方法对汉语的熵进行计算 ,并讨论了语料规模等因素对熵的影响 .在 4年的人民日报的语料规模下 ,所求得的零阶熵、一阶熵、二阶熵分别为 9 6 2 ,6 18和 4 89比特 .
- 黄萱菁吴立德郭以昆刘秉伟
- 关键词:现代汉语语言模型
- 基于统计方法的中文姓名识别被引量:88
- 2000年
- 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。
- 刘秉伟黄萱菁郭以昆吴立德
- 关键词:自动分词未登录词中文姓名识别
- 基于内容的图像检索中几个关键问题的研究
- 吴立德薛向阳范建平梁学斌黄萱菁朱兴全陈维军郭以昆孙国振鲁翔
- 本研究在面向对象的思想指导下,根据具体应用场合,首先采用自动/半自动的方法,将图象表示成一个对象或者一组对象的集合,然后将这些对象存放到一个面向对象的数据库中,再依据相似度大小进行检索。该项目研究将计算机视觉和自动推理的...
- 关键词:
- 关键词:图象检索计算机视觉人工智能
- 基于最大熵模型的英文名词短语指代消解被引量:28
- 2003年
- 提出了一种新颖的基于语料库的英文名词短语指代消解算法 该算法不仅能解决传统的代词和名词 /名词短语间的指代问题 ,还能解决名词短语间的指代问题 同时 ,利用最大熵模型 ,可以有效地综合各种互不相关的特征 算法在MUC 7公开测试语料上F值达到了 6 0 2 % ,极为接近文献记载的该语料库上F值的最优结果 6 1 8%
- 钱伟郭以昆周雅倩吴立德
- 关键词:最大熵自然语言处理
- 大规模文本检索的现状及发展被引量:1
- 1999年
- 详尽地介绍了大规模文本检索领域的研究现状和今后的发展方向,同时介绍了当前此领域最权威的国际会议。
- 郭以昆吴立德黄萱菁
- 关键词:查全率准确率信息检索系统计算机
- 中文信息搜索引擎的研究和开发
- 郭以昆
- Internet网上文本信息的分类、检索和摘要系统
- 吴立德黄萱菁郭以昆刘秉伟韦雄观叶丹瑾王文欣季祥周雅倩罗翀牛军钰张玥杰陈凯江
- 本项成果在大规模语料库统计分析的集础上,解决了大规模文本处理的许多技术难点,实现了网络中文信息的分类、检索、文本摘要和信息提取系统的原型。所达到的技术指标和国际上著名的权威评测会议(如文本检索会议、消息理解会议和文本摘要...
- 关键词:
- 关键词:INTERNET
- 基于最大熵方法的中英文基本名词短语识别被引量:106
- 2003年
- 使用了基于最大熵的方法识别中文基本名词短语 在开放语料ChineseTreeBank上 ,只使用词性标注 ,达到了平均 87 4 3% / 88 0 9%的查全率 /准确率 由于 ,关于中文的基本名词短语识别的结果没有很好的可比性 ,又使用相同的算法 ,尝试了英文的基本名词短语识别 在英文标准语料TREEBANKⅡ上 ,开放测试达到了 93 31% / 93 0 4 %的查全率/准确率 ,极为接近国际最优水平 这既证明了此算法的行之有效 。
- 周雅倩郭以昆黄萱菁吴立德
- 关键词:最大熵基本名词短语自然语言处理
- 信息检索和自然语言处理中的几个关键问题的研究
- 该论文系统地介绍了作者在信息检索、机器学习以及问题回答等领域的研究的工作.随着因特网的高速发展,信息检索技术已成为当今计算机信息处理领域最热门的技术之一.根据第二章对信息检索技术的深入讨论,第三章介绍了一个中文信息搜索引...
- 郭以昆
- 关键词:信息检索最大熵模型自然语言处理
- 文献传递