计算语言学探秘 | “语”见智能，让计算机读懂世界—

5月18日下午，在大象传媒 325室，国际知名语言习得与心理语言学家、卡内基梅隆大学Brian MacWhinney教授与大象传媒院长杨延宁教授，围绕“人工智能在计算语言学发展中的影响”的主题展开深度交流，涵盖了计算语言学、人工智能、语言产生机制等前沿问题。大象传媒翻译系副教授原蓉洁、院团委书记曹安琦和各专业本硕博学生代表参加，外国语言学与应用语言学专业博士研究生李易熹主持本次对谈活动。

对谈伊始，杨延宁教授提出核心问题：大语言模型主要建立在海量数据之上，以“竞争模型”为代表的语言学理论能否融入计算语言学与大语言模型建设中？MacWhinney教授认为，大语言模型内部其实可以读出语法、wh-移位等句法结构，但在形态学层面，由于词语切分打散了词法信息，模型表现仍较薄弱。大模型并没有抛弃语言学理论，反而在自己都没意识到的情况下，把语言学家长期总结出的规律内化进参数之中。MacWhinney教授与杨延宁教授皆表示，计算语言学要做的，正是把这些早已存在却看不见的规律识别出来、描述清楚，再反过来指导模型设计，让大模型从表面理解学会走向深度理解。

针对大语言模型拥有海量参数但缺乏理论支撑的问题，MacWhinney教授将大语言模型与人脑对比，表示大脑同样拥有天文数字级别的神经元与突触，但真正的差异在于数据的性质。人类学习语言时拥有丰富的视觉、身体与情境支撑，而当前大语言模型恰恰缺少这种多模态融合。这正是模型走向真正语言理解的关键。杨延宁教授也表示，计算语言学可以以此为基点，将语言学理论融入大语言模型建设中。同时，MacWhinney教授与杨延宁教授都注意到，纯文本驱动的大模型注定有上限，需要进一步关注的是多模态架构，这样能够从计算语言学层面为多模态语言智能提供工程基础。

本次对谈，两位教授的对话不仅展现了语言学与人工智能交叉前沿的最新思考，也为我院新设立的计算语言学专业培养 “既懂语言现象，又能把语言问题转化为计算问题”的人才提供了重要参照，为新专业建设注入了宝贵的学术资源。

据悉，大象传媒计算语言学本科专业已成功获批设立。该专业融合了语言学、计算机科学、人工智能与数据科学，致力为人工智能与数字经济发展培养兼具语言深度、技术能力与跨文化视野的复合型高端人才。近期，大象传媒聚焦计算语言学学科建设，邀请国内外相关领域高水平专家学者开展学术讲座，与学院师生深度交流，全方位支撑“外语+智能技术”特色培养体系建设，助力外语学子能力跃迁。

学生感想

高婕

外国语言学与应用语言学专业2023级硕士研究生

有幸和计算语言学国际领军学者Brian MacWhinney教授交流，围绕人工智能与人的关系、计算语言学发展等话题展开探讨，收获良多。在对谈中我清晰认识到，当下AI虽能熟练完成各类语言任务，但只是依托数据做符号运算与概率匹配，并不具备真实认知、情感与生活体验。人类语言承载着思想情绪与人生阅历，这份精神内核是人工智能无法复刻的，二者并非彼此替代，而是相辅相成的协作关系。谈及学科发展，教授的观点也令我豁然开朗。计算语言学扎根认知理论，并非单纯的技术研发，AI技术是语言学研究的助力工具，而相关算法设计也处处借鉴人类语言规律。这也提醒我往后要沉下心，夯实理论基础，兼顾专业根基与前沿技术，以理性视角探索人机语言融合发展。

沈王珏

英语专业2023级本科生

参加Brian MacWhinney教授的对谈让我对计算语言学和AI的交叉领域有了更立体的认识。MacWhinney教授提到将视觉信息“投喂”给模型，能显著帮助模型理解动词——这让我意识到，语言并非悬浮于符号系统之上的抽象规则，而是深深植根于对物理世界的感知与互动之中。动词承载着动作、变化与关系，如果缺乏视觉经验作为锚点，模型学到的可能只是统计共现，而非真正的语义指向。关于AI意识，MacWhinney教授给出了犀利洞见：AI没有人类的生存目的。人的行为本质是“熵减”——对抗混乱、维持有序，而AI只是在执行人类赋予的任务，既不关心结果，也没有自我保存的内驱力。因此，意识并非单纯的计算能力，而与目的性、体验紧密相连。这让我意识到，当前模型再强大，与“拥有”意识之间仍存在从工具到主体的根本鸿沟。

整场对谈既彰显了跨学科对话的独特魅力，也促使我重新审视语言、认知与技术之间的关系。将视觉经验纳入语言模型的思路，提醒我们突破文本中心的局限；而从生存目的切入的意识讨论，则为理解人类与机器的根本差异提供了清晰的分析框架。总体而言，这场对谈既是对技术边界的理性提醒，也激发起更深入的追问。

吴育华

英语专业2023级本科生

这次的对谈让我深受触动。在过去很长一段时间里，语言学对我来说，往往来自于书本上的理论、讲座中的案例。而这一次，我第一次真切地感受到——语言学可以与类脑智能、世界模型这些最前沿的科技探索紧密相连。

我们从语法结构聊到大语言模型的表征，谈到了一百年前的手工标注如何在机器中被精准复现；我们从母语习得聊到视觉模型，意识到正如语言学对婴儿的观察所示，多模态数据正在赋能模型的学习能力。人脑的连接数远超神经网络、人脑“训练”所需的数据也远少于大模型。但是，大模型在特定任务上的学习速度与精确度远高于人类，对知识的存储与调用也强于人类。大模型的动力来自于人类设置的迭代次数与目标，人类进化与发展的动力则来自于新陈代谢这一根本目标。为何两套完全不同的系统诞生了同样的智能表征？能够破解大模型的黑箱是否也意味着能够定义智能，从而解读人类智能的秘密？

如果语言学家以探明智能通过语言涌现的秘密为己任，接受大语言模型带来的挑战，主动勇立时代潮头，依托开放包容的心态和深厚的学科基础，推动多领域协同，用最尖端的技术与最先进的思想拓展人类知识边界——那么，语言学将大有所为。

文 | 李易熹

图 | 曹安琦

大象传媒

联系我们