行业洞见

Our Insights

生成式人工智能时代语料库研究的话题变革

2026-06-25

生成式人工智能技术快速迭代,人机共生成为语言生活的新形态。语料库作为语言理论与应用研究的核心基础资源,其价值与使命正在被重新审视。显然,生成式人工智能在功能和知识生产的生态位上,与语料库并非取代或承继关系。语料库的存在价值毋庸置疑——它仍是捕捉真实语言现象、支撑语言研究与人工智能技术发展的重要基础,也是经验主义语言研究方法的主要资源。荀恩东 (2025) 将其定义为“人类对语言生活和语言大数据的采样”。语料库的这一核心属性并不因语言社团(研究对象)的构成和语言数据的生产方式(技术方法)变化而改变。但随着语言生活进入自然人、机器人、数字人“三人”共生时代(王春辉 2024),语料库对应的“采样之源”在构成上发生了巨大变化,语料库的建设方法和应用目标也得到了更新,因而势必驱动语料库的研究话题改变以适配数智时代的语言生活。为简便起见,本文将传统的语料库研究和应用称为前大模型时代,与此相对的是大模型时代。

一、研究目标变化:由语言社群变革驱动

语言社群作为语料库“采样之源”的核心构成,其变革是驱动语料库研究话题更新的核心外部因素。在前大模型时代,语言社群的主体是单一的自然人,语言生活的场景、内容与互动方式均围绕人类展开,语料库的采样范围、研究边界也随之限定在人类语言行为之内,研究话题自然聚焦于人类语言的规律与应用。而进入“三人”共生时代,语言社群的构成从“单一自然人”拓展到“自然人+机器人+数字人”。这种社群构成的变革,打破了传统的研究边界,倒逼研究话题向多元语言互动场景延伸。

语言社群的多元变革体现在众多具体场景之中,社交机器人便是其一。哪怕在前大模型时代,社交媒体中就有20%以上的公共事件信息(如疫情、英国脱欧等)由社交机器人发布。贸易战中更涌现出大量基于生成式模型的社交机器人。它们作为语言社群的新成员,参与到舆论传播、信息交互等语言活动中,产生了海量的人机话语、机机话语。(张洪忠等 2019)而今天这一比例更是大幅增长,并具有超过人类原生信息规模的趋势。(Caoetal.2025) 这些语言新现象,既与人类话语存在明显差异,又形成了新的语言生态。传统语料库聚焦人类语言的研究话题已无法覆盖这类新场景,亟需新增研究内容,探索多元主体的语言行为特征与互动规律。

这一变化带来了一些新的研究话题,笔者尝试对语料库研究可直接支持的话题进行归纳,并列举出近期可能产生重要影响的话题:1)人机多元话语的特点。重点探究三类话语在表达逻辑、语义传递上的差异,进而从话语运用的基础上描述新型语言生活的面貌和发展趋势。2)语言具身性带来的差异。语言的生成和认知具有具身性。人类的“身体”和生活环境塑造了自然语言,而机器没有这些条件。我们处在一个观察“身体”究竟如何影响语言的绝佳窗口中。3)在人机混合的舆论场中,人机、机机语用行为如何互相影响,这些影响又如何沉淀到人人交际之中。

二、建设路径变化:由数据生产方式变革引发

如果说语言社群变革是驱动语料库研究话题更新的外部动力,那么数据生产方式的变革则是其内部因素。语料库的核心是语言数据,数据生产方式直接决定了语料库的构成、质量与应用场景。当数据生产方式发生根本性变革时,语料库的研究话题也必然随之调整,以适配新的数据源与数据特征。

在建设理念上,前大模型时代强调“平衡采样”,追求主题、语体、来源、时间等方面的全面均衡,力求构建代表性强、偏差小的通用语料库,研究者视其为具有一定标准性的基础资源。大模型时代则新增了“需求驱动+平衡采样”的理念,根据下游任务、模型短板和实际场景定向优化采集,规模与质量并重,语料从“通用食材”变为“任务定制配方”。

在语料库与模型的关系上,前大模型时代的语料库是模型性能的硬性前提,后者依赖前者:没有优质语料,模型就难以出彩;模型更多是对语料的被动统计建模。而在大模型时代,数据生产方式出现了“师生模式”:高质量指令、示范样本扮演“老师”角色,主动引导和塑造模型学习,语料从静态输入转变为动态教学内容,其价值的高低更多取决于能否提出“好问题”和“好需求”。

最基础的还是对知识表示方式的认识不同了。在前大模型时代,知识以显式、符号化形式存在于文本的词汇、句法、实体关系中,语料库是可查询的符号知识库,依赖显式解析和模式匹配。在大模型时代,知识被深度压缩、分布式嵌入神经网络权重之中,成为隐式、连续的分布表示。语料库脱离传统“知识容器”角色,转而成为设定和调节网络参数、注意力分布和生成路径的测试材料。在这个过程中,数据质量重于数量,精炼提纯远胜粗放堆砌。

这种学术趋势催生了一系列和语料库建设有一定关联而极具挑战性的研究问题:1)探针实验 (probing) 成为理解大模型“内在思维”机制的工具。研究者通过设计精巧的探针追问:大模型到底是如何“想问题”的?它在不同层级究竟编码了哪些语法、语义、常识、世界知识?更好地理解和解释大模型的知识生产机制,是使其成为语料库建设生产力工具的基础保障。2)提示词工程和探针实验是一体两面。后者侧重工程实践,对研究者应用大模型能力至关重要。提示词工程也已与模型同步升级迭代,形成了上下文工程(上下文工程 (Context Engineering) 是设计和构建动态系统,向大模型提供恰当的信息、工具和背景知识,从而使模型可靠地完成复杂任务。它超越了单一的提示,强调管理整个上下文窗口。)和驭智工程(驭智工程 (Harness Engineering) 是围绕AI代理构建 “harness” (“马具”式的框架),用于约束、引导和驾驭代理的行为,确保其在长期、复杂的任务中保持可靠、透明和易维护。)。过去依赖海量标注数据的监督学习,现在很大程度上已被“好问题+好示范”的技术取代。如何根据需要系统化地设计、优化、自动化提示?这不仅是工程问题,更触及认知科学与人机交互的深层议题。3)垂域语料生产和管理。生成式语料库大多是根据目标进行定制的垂域语料库(朱奕瑾,饶高琦2023),其重要性急剧上升。大模型落地于垂域,语料库研究和服务业越来越集中于垂域。设计蒸馏和微调方法,使模型高效“吸收”领域知识,进而根据需求生产语料;高效构建、持续迭代、隐私合规地维护领域语料;构建人在闭环中的语料生产、管理架构等,都具有很强的实践价值。

三、研究理念变化:新旧融合,螺旋上升

语言社群的外部变革与数据生产方式的内部变革,共同推动语料库的建设与研究理念实现螺旋上升。这种理念升级并非否定传统,而是在继承核心价值基础上的创新发展,最终实现语料库研究适应数智时代语言生活的目标。

在研究目标上,前大模型时代的语料库研究服务于“归纳、验证语言规律和现象”,视语料库为“证据库”,强调从真实语言使用中提炼可检验的知识,追求理论的解释力和可证伪性。大模型时代则新增了“试探模型表现”的探索式研究。研究者更多将大模型视为“黑箱”,通过精心设计的输入来探测其语言和知识的边界乃至涌现行为。此时,语料库的角色转变为“试题”或“测试集”——不再主要用于发现新规律,而是用于评估、诊断和迭代模型。这种转变使语言研究从“人类中心”的理论驱动,部分转向“模型中心”的表现驱动。

在科研伦理上,前大模型时代的语料库研究关涉的问题主要围绕版权与隐私。这些挑战多可通过法律合规、数据清洗和脱敏技术加以缓解,属于已经可控的“输入端”伦理。大模型时代则涌现出更复杂、系统性的伦理困境。尤其是在包含生成式数据的语料库中,回音室效应导致语料多样性下降、错误放大;溯源困难令研究者难以精确追溯原始信源;在训练和应用过程中,语料“好”和“安全”的定义也越来越模糊和难以量化。

最后,最根本的转变恐怕在于我们要更深刻地认识“压缩产生智能”的信息原理:真实世界(事件)抽象形成知识,但知识不再是显式存储(语料库),而是通过海量参数对语料的极致压缩与重构而涌现(神经网络)。由此衍生出问题:什么样的数据分布、什么样的压缩过程最容易催生“智能”?是否存在更高效的知识表示形式?知识蒸馏的极限在哪里?这些问题已经超越了传统语料库和自然语言处理工作,指向下一代人工智能的基础理论。

本文转载自公众号:汉语堂,内容来源于:《辞书研究》2026 年第 3 期