一个神奇的北大专业同级只有她从开学坚持到了毕业
一个神奇的北大专业:同级只有她从开学坚持到了毕业
文 孙滔 陈雨涵
“吟过诗词文赋,熬过高数线代,品过经史子集,研过算法结构,啃过句法文法,train过神经网络。”
这是林子对自己本科生涯的速写。她的专业过于迷你,是北大中文系4个专业中最没有存在感的应用语言学(中文信息处理)。存在感有多低呢?每年毕业生不过4、5个,一些同学因为无法坚持转了出去,也有同学对中文专业情有独钟而转了进来,而林子是2015级学生中唯一从头到尾读下来的那个。
在这个文理交叉专业,她既要学习古代汉语、理论语言学和现代汉语语法研究,又要学习高等数学、程序设计和数据结构与算法。割裂,成了她的大学关键词。
林子。图源:受访者供图
林子闯出了一条自己的路径。
大二开始,她在信息科学技术学院(下称信科)实验室实习,大三发了两篇AI顶会一作论文;毕业后去了硅谷的谷歌总部,在自然语言处理(NLP)研究部门从事了两年的全职工作,其工作还被收录进谷歌研究科学家Kevin Murphy的机器学习教科书;2021年,她回到了学术界,在美国加州大学圣地亚哥分校开始攻读计算机科学博士,3年来的论文被引用次数超过2000次。
这是一个怎样神奇的专业呢?
发蒙的开端
虽然高中是理科生,但林子很喜欢文学,她还拿过新概念作文比赛的一等奖,由此得到了北大中文系自主招生的名额,并通过笔试和面试,最终获得降分录取。
父母其实希望她读经济专业,以后从事金融,至少就业比较好。但林子觉得还是要从心所欲,于是坚定地扎进了中文系。只是没想到因为自己理科生的身份,被自动分到了应用语言学这个文理交叉专业,一个由中文系和信科共建的专业。
刚听闻自己的专业是应用语言学那会儿,林子有点蒙,毕竟之前连语言学都没听说过,更不必提应用语言学和中文信息处理这几个词汇了。
后来大家才认识到,正如毕业证书上英文“ Computational and Applied Linguistics”(计算与应用语言学)所明示的:计算才是更本质的,这是一个计算机科学和语言学交叉的专业。
第一年的课业对大家就有巨大的杀伤力。大一并没有专业课,而是基础课。
林子发现,在上语言学课程的时候,有的同学就对需要背诵且闭卷考试的课程不适应,尤其是写满繁体字的古代汉语课,不仅需要去理解还要溯源那些字;计算语言学模块的课程需要他们学编程语言和算法;至于数学,更是需要学习微积分、线性代数和概率统计。
有的同学无法接受这份割裂,就申请转到自己的初衷文学专业或者纯语言学专业,而有的同学发现自己更热爱数学专业和计算机科学专业,于是也转走了。
在文理交叉中碰撞一段时间后,他们依然在这个专业带来的割裂感中云里雾里。再打听,师兄师姐的毕业去向五花八门,有人去了大厂,有人做了教授,也有人去做中小学数学教育,似乎没有一个明确的指路明灯。就这样,林子像盲人开夜车一样摸索了一年。
只依靠上课,她实在没办法将语言学和计算融合起来。好在,林子从大二开始找到了科研的乐趣,这在很大程度上帮助她体会到了这个专业的魅力所在。
她终于看到,这个专业可以接触文学又能训练逻辑思维,原来鱼和熊掌真能兼得。
“学着学着都偏计算了”
据这个迷你专业的负责人、中文系教授兼计算语言研究所副所长詹卫东介绍,以2005年为界,之前应用语言学的专业课程体系是“ 以文为主,以理为辅”,之后则过渡到“ 文理并重,融会贯通”的轨道上。不过,这些学生大部分“学着学着都偏计算了”。
詹卫东是这个专业从无到有的见证者和建设者。他讲授“自然语言处理导论”(现在改为“自然语言处理”)和“语言工程与中文信息处理”两门课。其中后者是应用语言学专业的必修课,但因为学生太少,两年才开一次。
林子发现,这个专业适合对语言文字有很大兴趣且打算继续理科课程训练的理科生,或者对计算语言学和自然语言处理感兴趣并想培养理科思维的文科生。
林子就是学着学着偏向了计算。
她从大二就参与到计算语言所的一些科研工作中,其中有两项工作分别发表在自然语言处理领域很有影响力的两个国际会议上:一项工作是探索了汉语中介语语料库的语义角色自动标注;另一项工作是提出一种新的方法,将人工构建的关于汉语语素的语言学知识库跟深度神经网络中的词向量表示结合起来,改进了词向量表示在词义相似度计算任务上的效果。
走到今天,林子觉得虽然对这个专业有了一定理解,但还不够。
她说,交叉学科的魅力就在于它是一个并集,而不是一个交集,它需要同时掌握两方面的知识,但就像做菜一样,哪个调料多放一点,其实是你可以自己决定的。
“想得更清楚了”
说起做菜,2009级的北京女孩艾琦才是专业人士,她在应用语言学专业毕业后学习了西方餐饮,如今在芝加哥从事餐饮工作。
而2007级顾森,就是那个在本科毕业后从事中小学数学教育的。他给詹卫东的印象是,知识储备、思维方式“远远超出平均水平”。詹卫东曾建议他出国深造,在人工智能领域发展,但他同时看到,顾森确实擅长教师的角色,他曾在课堂上作过一次演讲,能将某个问题剥洋葱般讲解得酣畅淋漓,那是“一种与生俱来的思维习惯”。
孙薇薇是应用语言学专业的2002级暨第一届毕业生,也是林子的另一位大学老师,讲授形式语法导论。她在2020年去了英国剑桥大学任教。
2006年6月,北京大学中文系应用语言学本科专业第一届学生毕业。左四为詹卫东,右一为孙薇薇。图源:北大中文系
除了孙薇薇,2005级本科生彭楠赟在北大计算语言所硕士毕业后去了美国约翰斯·霍普金斯大学计算机系攻读博士,现在加州大学洛杉矶分校计算机科学系任职。
林子也找到了自己的路径。
当被问及假如当初直接进入计算机系是否会做得更好,她的思考是:因为没有人告诉自己应该怎么前行,所以她一直在不断优化自己的选择,如果学了其他专业反而“可能就没有那么有趣了”,毕竟其他专业学子的成长路径相对成熟。
林子说,因为应用语言学的规模过于小,大家的成长没有一个固定的可以借鉴的范式,这样你反而“更能够理解自己,探索自己的需求是什么,也能想明白自己为什么最终会选择继续读博士”。
林子还参加了北大信科本科生的科研评比,她和另外两个信科的同学拿到了一等奖。“我记得当时老师还挺惊讶的”,她说。这时候信科的同学才知道一个来自中文系的林子的存在。
如今林子正在做的课题与自然语言大模型相关,涉及大模型安全性和可解释性的深度测评。但她更感兴趣的是,大模型跟人类语言学习的机制之间有没有相似度?这是一个深刻的科学问题:小孩子每天听父母很少量的语言熏陶就能学会说话,这跟大语言模型的训练过程是非常不一样的。
大模型来袭
跟林子相比,詹卫东已然将自己视作“前浪”。当大模型时代来临,詹卫东对这个专业也有了新的认识。
詹卫东自1993年9月进入北大攻读硕士和博士。至今,他已经在语言与计算的交叉中碰撞了超过30年时间。
为了开发机器翻译系统,詹卫东曾自学C++语言,程序中的很多问题都由他亲自解决。他的博士论文《面向中文信息处理的现代汉语短语结构规则研究》正是出自他在机器翻译中的工作总结与提炼,并获得了2001年全国百篇优秀博士论文奖。
入门计算语言学30年来,詹卫东一直在试图拆解语言,提炼语言规律,然后再组装回去应用。就像一直以来的还原论,这个过程是透明清晰的。
然而,横空出世的大模型动摇了计算语言学家们的信念,语言知识的提炼在大模型这里毫无用武之地——只需要投喂足够的数据,辅以强大算力,就能得到鲜活的语言输出。
詹卫东说,最近领域内专家经常讨论这一情况,但并无明确应对之道。同行们对大模型还是了解得太少了,“去年一年大家都处在一种懵的状态,我们内部其实还缺乏更加深入的、更多的交流”。
詹卫东的导师、语言学家陆俭明并没有那么悲观。他在去年的一篇文章中谈到,人工智能是靠数据、算力、算法这“三驾马车”驱动,如果“语言知识”能加入到数据中,将肯定会大大推进人工智能事业。陆俭明也是应用语言学专业创建的主要倡议者。
詹卫东说,当语言学家把这些知识归纳之后,或许就可以变成计算机可以用的更有效的知识。
不过,让詹卫东尤为忧虑的是,一批老学者正在纷纷退休,留下的职位空缺却迟迟找不到新人填充。
一方面,好的自然语言模型人才已经被工业界垄断,那里有更高的薪水和更好的资源(算力和数据);另一方面,既熟悉语言学,又懂大模型技术的人才少之又少。
就在2023年年末,受詹卫东邀请,林子回到母校给学弟学妹们作了专业学习的经验分享。他们这些“后浪”也被詹卫东寄予了厚望:万一哪天回来报效母校呢?
图为2023年12月27日,林子回北大讲座后合影。前排中间是林子,后排左二为詹卫东。受访者供图。