公共文化服务平台

2025年1月23日星期四

|

欢迎来到贵州省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

刘春丽: 作品数：2 被引量：50H指数：2; 供职机构：西安邮电大学计算机学院更多>>; 发文基金：陕西省普通高等学校重点学科专项资金建设项目国家自然科学基金更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

刘睿西安邮电大学计算机学院
杜丽萍西安邮电大学计算机学院
李晓戈西安邮电大学计算机学院
范贤西安邮电大学计算机学院

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

2篇中文期刊文章

领域

2篇自动化与计算...

主题

2篇中文
2篇中文分词
2篇分词
1篇登录
1篇随机场
1篇条件随机场
1篇未登录词
1篇向量
1篇新词发现
1篇新词识别
1篇聚类
1篇互信息
1篇PMI

机构

2篇西安邮电大学

作者

2篇李晓戈
2篇杜丽萍
2篇刘睿
2篇刘春丽
1篇范贤

传媒

1篇北京大学学报...
1篇计算机应用

年份

2篇2016

共 2 条记录，以下是 1-2

全选清除导出

排序方式：

基于互信息改进算法的新词发现对中文分词系统改进被引量：46: 2016年; 提出一种非监督的新词识别方法。该方法利用互信息（PMI）的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词（n为发现的新词最大长度,可以根据需要指定）。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。; 杜丽萍李晓戈于根刘春丽刘睿; 关键词：新词识别未登录词互信息中文分词

基于表示学习的中文分词被引量：5: 2016年; 为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别。对词向量的维数、聚类数及不同聚类算法对分词的影响进行了分析。基于第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料进行测试,实验结果表明,在未利用外部知识的条件下,分词的F值和OOV识别率分别达到95.67%和94.78%,证明了将字的聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能。; 刘春丽李晓戈刘睿范贤杜丽萍; 关键词：聚类条件随机场中文分词

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有©2014－2015 Chongqing VIP Information., Ltd., 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张