Exploring the application of large language models in the compilation of converged media learners' dictionaries of Chinese neologisms

WU Qiong; KANG Shiyong; WANG Xinglong

doi:10.16131/j.cnki.cn44-1669/g4.2026.01.006

2026, 01, No.101 9-18

大模型在外向型汉语新词语融媒体学习词典编纂中的应用探索

基金项目(Foundation): 国家社科基金重点项目“面向融媒体汉语学习词典的语言资源整合与平台建设研究”（23AYY025）; 国家语委科研重点项目（全球中文学习联盟研究专项）“现代汉语新词语融媒体知识库建设”（ZDI145-43）; 山东省社会科学规划研究项目“融媒体汉语学习词典与用户的互动实践及其优化研究”（22CYYJ07）

邮箱(Email):

DOI: 10.16131/j.cnki.cn44-1669/g4.2026.01.006

投稿时间： 2025-08-13

投稿日期（年）： 2025

修回时间： 2025-09-27

终审时间： 2025-11-24

终审日期（年）： 2025

审稿周期（年）： 1

发布时间： 2026-02-03

出版时间： 2026-02-03

移动端阅读

372	0	773
下载次数	被引频次	阅读次数

引用本文下载本文

PDF

引用导出

GB/T 7714-2015 MLA APA Refworks EndNote NoteExpress NoteFirst

摘要全文参考文献出版信息相关文章

摘要：

本研究采用人工测评和自动化测评相结合的方法，对国内外大模型生成汉语新词语注音、释义及图片的能力进行了考察。结果表明，大模型按字注音正确率较高，但在按词注音、大小写处理等方面存在不足。释义方面，国产模型准确率高于国外模型，但所有模型生成的释义普遍存在阅读难度较高的问题。图片生成方面，通义万相与DALL·E3在图文一致性和图片真实性方面表现优异，且前者的细节处理能力更佳。研究认为，利用大模型开展融媒体学习词典编纂具有较高可行性，未来编纂工作需关注不同模型在特定领域的生成能力，制定模型性能的评测标准，建设高质量的数据资源，以及提升编纂人员的理论与技术应用能力。

关键词： 大语言模型; 汉语新词语; 外向型融媒体学习词典; 多模态释义;

Abstract：

This study employed a combination of human and automated evaluations to assess the performance of both domestic and international large language models to generate Pinyin, definitions, and images for Chinese neologisms. The findings revealed that while the models generally achieved high accuracy in character-level Pinyin, they exhibited limitations in generating word-level Pinyin. In definition generation, domestic models surpass foreign models in accuracy, yet all models yield definitions with relatively high reading difficulty. For image generation, Wanx 2.1 and DALL·E3 showed significant advantages in both text-image consistency and image authenticity, with the former showing superior detail rendering. The study concludes that employing large language models to compile learners ' dictionaries of Chinese neologisms is highly feasible. Future work should prioritize matching models to domain-specific tasks, establishing standardized performance evaluation criteria, building high-quality data resources, and enhancing editors ' theoretical knowledge and technical application capabilities.

KeyWords： large language models; Chinese neologism; converged media dictionary; multimodal definitions;

如需获取全文，请访问cnki.net

参考文献

陈文泰,张帆2025提示词构成要素对大语言模型跨模态内容生成质量的影响研究——基于讯飞星火大模型文生图功能的探索性实验[J].郑州大学学报(哲学社会科学版)(2).

陈贤德,陈松林,段彤彤,杨玉玲2024基于眼动实验的英语学习者词典图文释义阅读中的图文整合研究[J].外语导刊(4).

陈贤德,潘宇华,杨玉玲2025大语言模型辅助外向型汉语学习词典编纂的研究——以DeepSeek为例[J].云南师范大学学报(对外汉语教学与研究版)(2).

陈贤德,杨玉玲2025用户视域下外向型在线汉语学习词典评价指标体系构建[J].华文教学与研究(1).

程勇,董军,晋淑华2023基于新标准的汉语二语文本阅读难度分级体系构建及应用[J].世界汉语教学(1).

崔乐,侯敏2011论外向性词典的简易性原则——基于对外汉语新词语词典的编纂探索[J].广西社会科学(6).

范冰冰,李战子2025 AIGC辅助的多模态话语教学路径研究[J].外语教育研究前沿(2).

葛晓帅,王梦2024大语言模型辅助下基于词典的义项表生成及应用研究[A].载语料库语言学(1)[C].北京:外语教学与研究出版社.

国家质量监督检验检疫总局,国家标准化管理委员会2012 GB/T 16159-2012汉语拼音正词法基本规则[S].北京:中国标准出版社.

亢世勇2020关于汉语融媒体学习词典的思考——以《当代汉语学习词典》为例[J].鲁东大学学报(哲学社会科学版)(2).

亢世勇,詹今慧,李璐溪2024汉语融媒体学习词典的现状及发展趋势[J].鲁东大学学报(哲学社会科学版)(4).

李泉2020新时代对外汉语教学研究:取向与问题[J].语言教学与研究(1).

李泉,孙莹2021论国际中文教育五种微观关系[J].民族教育研究(5).

李宇明,王东海2020中国辞书历史发展的若干走势[J].鲁东大学学报(哲学社会科学版)(1).

柳长青2025基于大语言模型的词典自动化编纂实验及思考[J].语言战略研究(2).

鲁健骥,吕文华2006编写对外汉语单语学习词典的尝试与思考——《商务馆学汉语词典》编后[J].世界汉语教学(1).

毛骞,谢维成,乔逸天,黄小龙,董刚2024推荐系统冷启动问题解决方法研究综述[J].计算机科学与探索(5).

庞仙,张袁硕,陈波,赵小兵2024融合多源提示信息的新词语释义自动生成[J].语言文字应用(4).

Rundell,M.,赵翠莲,于文雍2024自动生成词典:我们接近了吗?[J].辞书研究(4).

苏新春,黄启庆2003新词语的成熟与规范词典的选录标准——谈《现代汉语词典》(二〇〇二年增补本)的“附录新词”[J].辞书研究(3).

唐昆,李白杨,张心源2024基于主客观融合的人工智能跨模态生成内容质量及效能测度研究[J].情报理论与实践(11).

王兴隆,亢世勇2021新时代融媒体汉语学习词典的融合特征及其优化路径——以当代汉语学习词典为例[J].语言文字应用(4).

王兴隆,亢世勇,刘媛媛2022加工路径和输入模态对英语习语类隐喻习得的影响[J].外语教学与研究(5).

吴琼2019二语学习者汉语特殊类动名搭配认知机制研究[J].外语教学与研究(2).

杨尔弘,朱君辉,朱浩楠,宗绪泉,杨麟儿2024大语言模型的中文文本简化能力研究[J].语言战略研究(5).

杨玉玲2021解码编码双驱动的融媒汉语学习词典编纂理念与实践[J].北华大学学报(社会科学版)(5).

杨玉玲2024融媒词典《JUZI汉语》的研发理念与实现路径[J].语言战略研究(3).

杨玉玲,段彤彤2024外向型汉语学习词典释义元语言定量研究[J].语言文字应用(4).

张永伟,李宇明2025中国辞书融合发展的理念与实践[J].辞书研究(1).

张永伟,刘婷2024汉语辞书词条自动编纂调查研究——以ChatGPT为例[J].辞书研究(5).

章宜华2019论融媒体背景下辞书编纂与出版的创新[J].语言战略研究(6).

章宜华2024融媒框架下多模态词典及其释义的理论模式研究[J].外语教学与研究(4).

Bender,M.,T.Gebru,A.McMillan-Major&S.Shmitchell 2021 On the dangers of stochastic parrots:Can language models be too big?[A].In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency[C].New York:Association for Computing Machinery.

Dai,D.,Z.Wu,S.Kang,X.Wu,J.Jia,D.Su,D.Yu&H.Meng 2025 Disambiguation of Chinese polyphones in an endto-end framework with semantic features extracted by pre-trained BERT[EB/OL].https://arxiv.org/abs/2501.01102v1.01-02.

Dehouche,N.&K.Dehouche 2023 What's in a text-to-image prompt?The potential of stable diffusion in visual arts education[J].Heliyon 9(6).

Hessel,J.,A.Holtzman,M.Forbes,R.Le Bras&Y.Choi 2021 CLIPScore:A reference-free evaluation metric for image captioning[A].In M.Moens et al.(eds.),Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing[C].Online and Punta Cana:Association for Computational Linguistics.

Lew,R.2023 ChatGPT as a COBUILD lexicographer[J].Humanities and Social Sciences Communications(10).

Mittal,A.,K.Moorthy&C.Bovik 2021 No-reference image quality assessment in the spatial domain[J].IEEE Transactions on Image Processing 21(12).

Penedo,G.,Q.Malartic,D.Hesslow,R.Cojocaru,H.Alobeidli,A.Cappelli,B.Pannier,E.Almazrouei&J.Launay2023 The RefinedWeb dataset for Falcon LLM:Outperforming curated corpora with web data only[A].In A.Oh et al.(eds.),Proceedings of the 37th International Conference on Neural Information Processing Systems(NIPS'23)[C].Curran Associates Inc.

Periti,F.,D.Alfter&N.Tahmasebi 2024 Automatically generated definitions and their utility for modeling word meaning[A].In Y.Al-Onaizan et al.(eds.),Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing[C].Miami:Association for Computational Linguistics.

Pham,B.,J.Wong,S.Kim,Y.Yin&S.Skiena 2025 Word definitions from large language models[EB/OL].https://arxiv.org/html/2 3 11.06362v3.01-06.

Salimans,T.,I.Goodfellow,W.Zaremba,V.Cheung,A.Radford&X.Chen 2016 Improved techniques for training GANs[A].In D.Lee et al.(eds.),Proceedings of the 30th International Conference on Neural Information Processing Systems[C].New York:Curran Associates Inc.

Zhang,Y.&S.Clark 2007 Chinese segmentation with a word-based perceptron algorithm[A].In Zaenen,A.&A.van den Bosch(eds.),Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics[C].Prague:Association for Computational Linguistics.

(1)SuperCLUE是中文通用大模型评测基准之一，涵盖知识问答、语言理解、推理等多维任务，定期发布权威排行榜与测评报告，广泛用于衡量中文大模型的综合能力。

(1)上述报告可在SuperCLUE网站查看：https：//superclueai.com/。

基本信息:

DOI：10.16131/j.cnki.cn44-1669/g4.2026.01.006

中图分类号:H195

引用信息:

[1]吴琼,亢世勇,王兴隆.大模型在外向型汉语新词语融媒体学习词典编纂中的应用探索[J].华文教学与研究,2026,No.101(01):9-18.DOI:10.16131/j.cnki.cn44-1669/g4.2026.01.006.

基金信息:

国家社科基金重点项目“面向融媒体汉语学习词典的语言资源整合与平台建设研究”（23AYY025）; 国家语委科研重点项目（全球中文学习联盟研究专项）“现代汉语新词语融媒体知识库建设”（ZDI145-43）; 山东省社会科学规划研究项目“融媒体汉语学习词典与用户的互动实践及其优化研究”（22CYYJ07）

投稿时间：

2025-08-13

投稿日期（年）：

2025

修回时间：

2025-09-27

终审时间：

2025-11-24

终审日期（年）：

2025

审稿周期（年）：

发布时间：

2026-02-03

出版时间：

2026-02-03

请选择需要下载的pdf数据

华文教学与研究

使用微信“扫一扫”功能。
将此内容分享给您的微信好友或者朋友圈

引用

GB/T 7714-2015 格式引文

MLA格式引文

APA格式引文

请选择需要下载的pdf数据

华文教学与研究

使用微信“扫一扫”功能。将此内容分享给您的微信好友或者朋友圈

引用

使用微信“扫一扫”功能。
将此内容分享给您的微信好友或者朋友圈