吴娜
- 作品数:5 被引量:13H指数:2
- 供职机构:南京农业大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家重点基础研究发展计划更多>>
- 相关领域:文化科学自动化与计算机技术社会学农业科学更多>>
- 基于领域大语言模型的古籍分词研究
- 2024年
- [目的/意义]文章以古籍自动分词为切入点,引入“荀子”系列大语言模型,对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料,进行了数据清洗和整理,构建了指令数据集,在此基础上,从数据集中抽取了1 000条作为测试数据,并分别使用500、1 000、2 000、5 000条数据作为训练数据进行指令微调,并测试其性能。[结果/结论]实验结果表明,只需要少量的数据,大语言模型就可以有较为理想的表现,在微调数据量达到5 000条数据时,Xunzi-Qwen-7B模型表现出了最优性能,F1值达到84.54%。
- 朱丹浩赵志枭吴娜王希羽孙光耀王东波
- 关键词:《左传》分词
- 融合不同语义知识的中国古代典籍机器翻译研究
- 2024年
- [目的/意义]文章旨在探究将不同语义知识融入机器翻译模型能否增强机器翻译的效果以及何种语义知识的作用更为显著,以助力机器翻译研究与中华优秀传统文化的传承与传播。[方法/过程]研究选取了30万对精加工的《二十四史》“古代汉语-现代汉语”平行语料作为实验数据,基于神经机器翻译OpenNMT模型,通过三种不同的特征融合方法,将词边界知识、词性知识、实体知识和依存句法知识分别融入机器翻译模型的训练过程中。[结果/结论]不同语义知识与模型的融合对典籍翻译效果有不同的影响,词边界知识、词性知识、实体知识对机器翻译任务有一定的贡献且实体知识的贡献最大,依存句法知识无明显作用。
- 吴梦成林立涛吴娜许乾坤王东波
- 关键词:古籍文献语义知识《二十四史》机器翻译
- 水稻磷转运蛋白OsPT4的生理功能鉴定
- 水稻是单子叶模式植物,其基因组测序工作已完成,水稻的功能基因组学已成为水稻科研工作的重点。对于与磷胁迫相关的磷酸盐转运蛋白基因的生理功能研究,可从分子水平上阐明水稻适应低磷胁迫的遗传本质,这为水稻对磷营养吸收转运规律的发...
- 吴娜
- 关键词:水稻超表达根系形态
- 文献传递网络资源链接
- 一种水稻磷酸盐转运蛋白基因ORYsa;Pht1;4的应用
- 本发明属于植物基因工程技术领域,公开了一种水稻磷酸盐转运蛋白基因ORYsa;Pht1;4的应用。水稻磷酸盐转运蛋白基因ORYsa;Pht1;4根部特异表达,为水稻中第一次发现的根部特异表达基因。该基因可在开发水稻籽粒中没...
- 徐国华孙淑斌范晓荣吴娜
- 文献传递
- 深度学习驱动的海量人文社会科学学术文献学科分类研究被引量:7
- 2023年
- [目的/意义]探索不同社会科学学科间差异,支持学科建设、科技检索服务,进一步完善文献学科的分类体系。[方法/过程]基于多种深度学习模型和预训练语言模型构建社会科学文献学科分类器,利用CSSCI目录中的20多个一级学科中近350万篇文献构成的数据集进行实验;利用Sentence-BERT输出摘要句子向量并进行层次聚类,根据聚类结果划分学科组,并计算模型对于不同学科组的分类性能以缓和学科交叉的影响;利用模糊准确性指标输出模型对每条记录输出的前N个高概率学科以弥补原有学科分类的局限性。[结果/结论]在“摘要+标题”上使用深度预训练语言模型取得最佳性能;基于层次聚类所得的学科组进行的分类较单一学科性能有所提升;模型的模糊准确性在N=3时能够达到96%。[局限]未考虑从全文文本上获取更丰富的文献学科特征进行自动分类。
- 刘江峰林立涛刘畅何洪旭吴娜沈思王东波
- 关键词:跨学科性