- 刘华;
<正>文本可读性(text readability)是指文本材料被特定读者群体顺利理解和接受的程度,文本可读性评估(text readability assessment)是语言学和自然语言处理领域的一项重要任务,旨在量化文本的理解难度,并预测特定读者群体对文本材料的接受程度。文本可读性评估的核心任务是将文本划分为不同的等级,判断文本是否适合目标读者,并进一步提供文本简化或者调整方案如词汇替换、句子重构等。
2025年03期 v.10;No.36 1页 [查看摘要][在线阅读][下载 963K] [阅读次数:11 ] |[引用频次:0 ] |[网刊下载次数:0 ] |[下载次数:110 ] - 姜悦;高珊;叶子恒;张浩敏;
汉语作为第一语言全球使用人数最多,以其作为第二语言的学习者数量也在不断增加。为不同背景的汉语学习者提供科学的分级阅读材料,对于学习者语言能力发展和阅读能力提升具有重要意义。本文通过系统分析2010—2024年44项相关中英文文献,深入探讨了中文文本可读性自动评估的研究现状与发展趋势,重点关注其对国际中文教育实践的启示。研究发现,当前,中文可读性研究在语料库建设方面主要基于教材语料,针对二语学习者的语料除教材外,集中于中文水平考试(HSK)材料等有限文本类型。在语言特征表征方面,研究证实语法点等特异性特征对二语学习者具有更高的预测效度。就方法论演进而言,研究呈现从传统线性回归向深度学习转变的趋势,特别是在国际中文教材分级领域。
2025年03期 v.10;No.36 2-16+75页 [查看摘要][在线阅读][下载 1545K] [阅读次数:5 ] |[引用频次:0 ] |[网刊下载次数:0 ] |[下载次数:202 ] - 徐云洁;胡韧奋;
词汇丰富性的测量在语言教学与研究中扮演着重要角色。本文旨在针对汉语特点设计较为系统、全面的词汇丰富性指标测量体系,并研发相应的自动分析工具。具体来说,本研究引入词语等级、词语常用度及词义认知等多类型特征,构建了一个包含词形、词义、词用、词语学习顺序等48种信息的词汇知识库。基于该知识库,设计了词汇密度、词汇长度、词汇复杂度和词汇多样性等维度的测量指标,并利用自然语言处理技术实现了指标的自动化分析。进一步地,本研究利用二语学习者作文语料、二语教材语料和母语教材语料构建了一个词汇丰富性指标测试语料库,对指标进行筛选和验证,得到了词汇丰富性测量指标体系,收录了涵盖四个核心维度的63项词汇丰富性指标。据此,本研究构建了中文词汇特征分析软件(Chinese Lexical Richness Analyzer,简称CLRA),并结合实验结果提出了不同场景下的指标应用建议,以期为汉语作文评估、教材分级等研究提供参考。
2025年03期 v.10;No.36 17-30页 [查看摘要][在线阅读][下载 1511K] [阅读次数:7 ] |[引用频次:0 ] |[网刊下载次数:0 ] |[下载次数:210 ] - 刘丰恺;金檀;陆小飞;姜以实;
文本简化任务旨在通过调整文本的语言和内容,使其更易于阅读和理解。鉴于国际中文阅读文本的独特性及其不断扩大的全球读者群,开展相关的文本简化研究显得尤为重要。近年来,人工智能和自然语言处理技术的迅速发展,为国际中文阅读文本的自动简化提供了技术支持,也为其教学应用带来了新的可能性。结合专家在人工简化中的不同需求与策略,国际中文阅读文本的自动简化可以划分为三种主要范式:局部自动简化,通过语言规则识别并替换难点;整体自动简化,基于平行语料训练模型实现内容简化;可控自动简化,通过指令策略实现人机协同的个性化交互与生成。本文系统阐述了这三种范式的核心特征,分析了不同范式的优势与局限,探究了国际中文阅读文本自动简化的驱动因素和当前挑战,并展望了该领域未来的研究方向和在教学中的应用前景。
2025年03期 v.10;No.36 31-42页 [查看摘要][在线阅读][下载 1429K] [阅读次数:2 ] |[引用频次:0 ] |[网刊下载次数:0 ] |[下载次数:155 ]