邹嘉彦
作品数: 25被引量:572H指数:10
  • 所属机构:香港城市大学
  • 所在地区:湖北省 武汉市
  • 研究方向:自动化与计算机技术
  • 发文基金:国家自然科学基金

相关作者

孙茂松
作品数:351被引量:2,346H指数:25
供职机构:清华大学
研究主题:向量 中文信息处理 机器翻译 句子 自然语言处理
游汝杰
作品数:49被引量:426H指数:10
供职机构:复旦大学中国语言文学系
研究主题:方言 社会语言学 语言接触 汉语方言 汉语
邝蔼儿
作品数:3被引量:7H指数:1
供职机构:香港城市大学
研究主题:语料库语言学 港城 汉语语料库 共时 华语
路斌
作品数:2被引量:7H指数:1
供职机构:香港教育学院
研究主题:语料库语言学 汉语语料库 语言处理
蔡永富
作品数:1被引量:7H指数:1
供职机构:香港教育学院
研究主题:语料库语言学
海南省三亚市迈话音系被引量:7
2007年
海南省三亚市迈话有些特点与粤语、客家话相近,但尚不容易判定它属于哪种方言。本文描写了迈话的声韵调系统,并列出了同音字汇。
江荻欧阳觉亚邹嘉彦
关键词:声韵调系统同音字汇
汉语共时语料库与追踪语料库:语料库语言学的新方向
随着信息技术的不断提升、互联网的普及,汉语自然语言处理的难题不断得到解决,汉语语料库的发展和语料库语言学的应用也面临着新的契机。如何持续充分应用庞大的多种语料库,并协同与配合语言学和人文、社会科学多个领域,来追踪了解各种...
邹嘉彦邝蔼儿路斌蔡永富
关键词:语料库语言学汉语语料库语言处理
文献传递
《21世纪华语新词语词典》编纂感言被引量:1
2007年
华语文及其背后的中华文化,历史悠久,千姿百态,涉及的地域辽阔,人口众多。受不同文化背景和政治实体的影响,各地域间在相当长一段时期内交流较少,因此渐渐形成了各具特色的华语文地域变体。近三十年来,随着社会的发展,经济和文化中心格局的变迁,特别是中国大陆改革开放政策的实施,在不同地区使用的汉语词汇又有了新的特色。对不同地域的汉语进行调查、记录、了解和比较研究,无论从实用的角度还是从社会语言学的角度来看,都是很有意义的。这也正是我们编写《21世纪华语新词语词典》(以下简称《华语新词语词典》)的宗旨。
邹嘉彦游汝杰
关键词:新词语词典华语地域变体编纂改革开放政策
利用上下文信息解决汉语自动分词中的组合型歧义被引量:43
2001年
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
肖云孙茂松邹嘉彦
关键词:自然语言处理汉语自动分词中文信息处理
评述新闻报道或文章色彩-正负两极性自动分类的研究
任何一篇报道文章的作者对有关事情或人物都不免带有或多或少的正面或负面评述色彩,举简单的例子来说,把同样情况说成[节俭]或[吝啬],把[半杯酒]说成[半杯满酒]或[半杯空酒],或把同样的组织形容成[恐怖分子]或[自由战士]...
邹嘉彦
关键词:自动文本分类
文献传递
基于无指导学习策略的无词表条件下的汉语自动分词被引量:65
2004年
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % .
孙茂松肖明邹嘉彦
关键词:无指导学习汉语自动分词互信息统计量
汉语专名的初步研究
专名对于自然语言处理有重要意义.本文对专名进行了界定,提出了汉语专名的特点,讨论了这些特点在信息量表示、词语聚类、专名识别方面的应用.
宋柔邹嘉彦
文献传递
汉语新词与流行语的采录和界定被引量:28
2008年
新词和流行语是语言研究的一个热点。新词的采录和界定,应该以具有连续性和惯常性的语料库作基础,因为它具有时间、空间、频量的依据,可大大提高研究成果的科学性和准确性。采录新词时,则应注意其地区性、时间性、广用性、频用性和稳定性,尤其是地区词、流行语、网络用语、字母词等,须在客观原则下经细心甄选和鉴定,才能赋予现代汉语新词语的资格,使其不与"新词语"相混淆。
邹嘉彦游汝杰
关键词:新词流行语词典
从大数据库比较港沪两地“车”和“笔”类词的衍生和发展被引量:1
2021年
近50年来,因社会环境和语言政策不同,港沪两地的语言呈现出不同的发展趋势。本文着重探讨两地语言的四个具体课题:(1)核心词的门槛,(2)文化词汇"车"和"笔"类词,(3)不同地区语言的互懂度,(4)语言和文化对比和对称情况。词汇量与阅读能力息息相关,3000高频词是阅读各华语地区报章70%到80%内容的最低要求,即"门槛"。但若要看懂其他地区报章中同样的内容,需要更多的词汇。本文还比较研究"车"和"笔"两类词从上世纪90年代到本世纪初期十年之间,在港沪两地发展的差别。并进一步探讨两地语言间的可懂度,认为影响可懂度的参数并不是单一的。从此及彼,从彼及此,比较方向不同,结果也不同,并可引发对社会、文化与语言之间互动的更多思考。
邹嘉彦游汝杰
关键词:词汇发展社会语言学文化语言学核心词词频
利用汉字二元语法关系解决汉语自动分词中的交集型歧义被引量:119
1997年
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理90.
孙茂松黄昌宁黄昌宁陆方邹嘉彦
关键词:汉语自动分词计算机语言学