我是1985年作为语言应用研究所(以下简称语用所)第一批硕士研究生走进语用所开始学习的。我的专业是应用语言学,研究方向是中文信息处理。我记得当时信息处理研究方向是招收了四个学生,而我们四个人本科都是学计算机专业的。在当时信息处理方向这种跨学科的设计还是很少的,我觉得当时语用所具有一种战略的眼光。从那时开始,中文信息处理在国内进入了一个蓬勃发展的时期。
在语用所,我第一个认识的是厉兵老师。厉老师工作非常认真负责。厉老师是语言文字的专家,但做了很多具体的事务性工作,对我们帮助非常大。当时语用所建所不久,科研力量非常强大。我的导师陈原先生是著名的社会语言学家。他的《社会语言学》是我国第一部社会语言学专著。他当时是国家语委的副主任、语用所的第一任所长,同时还兼任商务印书馆的顾问。我的导师冯志伟先生是一个跨学科的奇才,他精通语言学、数学、计算机科学等,还掌握多种外语。他之前在法国格勒诺布尔理科医科大学应用数学研究所自动翻译中心,师从法国著名数学家、国际计算语言学委员会主席沃古瓦教授,专门研究数理语言学和计算机翻译问题,研制了第一个汉语对多种语言的FAJRA机器翻译系统。冯老师是站在国际前沿的一个科学家。所以说,我能够到这样的一个环境中学习是非常荣幸的。当时我们是住在中国社会科学院研究生院,离语用所比较远。每周要多次回到所里来听课,多数是在晚上,白天回来听课的时候也有。吕叔湘先生、陈章太先生等多位老师都给我们上过课。每次上课,四五十人的教室坐得满满的。除了我们18个研究生之外,所里的青年老师或者来进修的老师,都跟着一起听课。那种感觉真的不一样。老师们的教学都有自己的特色,记得于根元老师讲过一堂关于语言学界一批学者的研究动向的课。语用所的学习氛围当时非常活跃,时常有学术沙龙活动。作为研究生,我们有时间的时候,也去旁听。
1988年毕业后就分到语用所计算语言学研究室工作(当时叫信息处理研究室)。当时整个语用所工作热情很高,好像大家都没有什么物质上的要求,但是在所里边我能感觉到一种相互尊重,一种温暖。不论是从学术上、科研上还是生活上,都能感觉到这种关怀和温暖。我记得我刚到研究所工作没多久,好像是刚拿了第一个月的工资的时候,我揣着一个月的工资出去想买贺卡,还要买什么东西。出去就被小偷偷了,第一个月的工资全部被小偷给偷走了。回到研究室,正好方世增老师在。方老师察觉了我情绪有问题,问我怎么回事儿,我跟方老师一说,方老师马上拿出50块钱来给我,说:“这一个月的工资都没有了,快拿上吧!”当时的感觉真是说不出来。再比如说,我孩子满月的时候,佟乐泉老师代表语用所提着鸡蛋呀什么的,和同事一块来看望我。我产假后上班,赶上单位搞大扫除。那时候没有保洁人员,在计算语言学研究室里边,大家都是爬上爬下的,自己打扫。陈章太老师还特别关心我:“李竹啊,你刚坐完月子,这些活儿不能干。”真的,虽然只是一句话,我感觉非常的温暖。语用所的这些老师,都是学术成就很高的学者,但都没有架子,特别的平易近人。回忆起来,仍然感到温馨。
老师们更关心青年学者的成长。我举一个冯志伟老师的例子。冯老师研究工作很忙,还有国外的科研教学任务,但是他对所里边的工作也是非常关心的。比如说科研、立项,他都有一些具体的指导。如我们搞的那个信息处理现代汉语词类及标记集规范(征求意见稿),这是国家语委“九五”科研规划的一个重大项目。当时我是这个信息室的主任,也是这个课题的负责人,但是毕竟经验不足,冯老师这方面的经验非常丰富。然后他就跟我聊,说这个课题的难点在哪儿、可能会出现什么问题,方方面面都给以指导。他特别指出,难点可能就是因为在语法系统上有不同的学术观点,所以可能会有专家质疑,这会不会妨碍词类问题的进一步研究。事实证明,这个课题开始之后就确实有专家老是质疑,老是有疑问。比如说,他们会质疑,在这么短的时间内,做这种词类的规范会不会不负责任,会不会影响词类的研究?所以我们就和这个方面的专家去沟通、协调,通过书信,到家里拜访等,跟他们讲我们这个做的是词类标记集的规范,这个标记集的规范是什么呢?标记集的规范是具有开放性、灵活性的,它要适用于持不同语言学观点的中文信息处理系统。经过这些沟通以后,慢慢这些专家也了解这项研究的工作情况及必要性,知道它是不妨碍语言研究的。当然我们同时也做了大量的调查研究。最主要的是做了词类系统的调查研究,不同学术观点对词类是怎么划分的,当时那些中文信息处理系统的现状是什么样子的,我们都做了大量的研究。所以,最后在专家的审议会上得到了所有专家的支持,通过了鉴定。当然这个规范是一个前期的工作,但它为后期的工作打下了坚实的基础。
从毕业到我离开,我在语用所一共生活了12年。回想了一下这12年来计算语言学室做的工作。当然只是我印象比较深刻的几项,不是室内全面的工作。就是这几项可能也会有不少遗漏。
当时做过以应用为目的的一些基础的研究。比如说,汉语的短语结构、句法结构是很相似的,所以我们从术语的结构入手研究过句法、构词。做过歧义结构的分析,还建立过术语数据库,同时还做过平行语料库的实验性研究。那时候也建立了国家语委的很著名的平衡语料库。在规范化方面,术语数据库应该也算是为规范化服务的一个方面了。还做了术语数据库技术评价指南。还有就是刚才提到的这个词类标记集规范。
对外合作也不少,比如说跟德国特里尔大学的合作,我们去德国做了计算语言学的一个术语数据库。还有跟北京大学的合作。我现在能记住的一个项目就是,当时北京大学的俞士汶老师他们搞了一个语法信息辞典,我们参加了其中的一小部分工作。还有方世增老师当时跟北大合作搞了一个ABC的输入法。我们跟一个叫通字的公司也有合作,它是搞一个国际通用图形系统吧,主要是机器翻译的中介语方面的工作。我记得方世增老师还跟盲文出版社有合作。我提到这些是我印象比较深的,这些都是当时那几年做的部分比较重要的工作。我提到的这些只是对外合作的一部分。
回忆这些往事,让我联想到这些年中文信息处理的发展。这些年我一直没有离开中文信息处理产业,工作中经常遇到一些值得思考的问题。这里我想说说我想到的几个问题。
我觉得现在跟我在所里工作的那个时候是完全不一样了。目前信息处理技术正处在突飞猛进的时代。云计算、大数据、移动,还有社交网络,这是现在这个时代的四大特征。云计算,是指在网络上的一组服务器把数据、存储、计算以服务的方式提供给请求者,以完成信息处理的方式和过程。大数据,是指具有数量巨大(无统一标准,一般认为在T级或P级以上)、类型多样(既包括数值型数据,也包括文字、图像、音频、视频等非数值型数据)、处理的时效性非常的紧、数据源的可靠性保证度低等综合属性的数据集合。移动,我们的生活中大量使用移动设备。社交,社交网络繁多。
在这个时代特征之下,我觉得语言研究特别要注重语言现实的研究,研究语言的现状,语言在新设备、快节奏的生活中的应用是当务之急。如在移动设备上,或在各种流行的APP上,语言是怎么应用的?词汇、语法上有什么特点?这个是现在研究的重点,而不是简单地把原理、理论套到应用上去。那样是不合实际的。所以,对信息处理方面来说,现在其实最大的趋势就是统计语言学,统计语言学是应用语言研究的利器,现实生活中的语言,有许多需要借助统计语言学研究的素材。比如说语料库建设,语料库过去可能不是很注重这种实时性的。现在呢,实时性非常重要。你有一个语料库,要是两年前的呢,可能意义就不是特别大了(用于特定时点的语言研究除外),所以一定要关注这个实时性,也就是说更新要快。再一个就是语料库的覆盖面儿。一般来说,它应该有一个比较广的覆盖面儿。你比如说,不同的领域,像体育、新闻、政治、财经等等都要有覆盖。在不同的应用上,你像现在的微博、微信、淘宝等,在这些应用上人们是怎么使用语言的,然后再加上不同的文体,比如说人们的公文怎么写、广告是什么样的、口语是什么样的,甚至于写微博的时候,人们的用语也不一样,所以都需要收集,都会很有用的。一个平衡语料库,要求覆盖面广,并且所有领域、文体的内容是均衡的。加工处理也是,你把语料搜集来了,这些语料可能大部分都是从网页上直接扒下来的。这就像刚才说的,数据源的可靠性非常低,因此去除噪音、提高数据的可靠性是一个必不可少的过程。你有什么办法,能从这可靠性很低的数据里把你要关注的东西找出来,如它的正文部分,去掉广告等等。广告之所以成为噪音,是因为穿插在语料中的大量广告,破坏了语料的平衡,会影响最终的统计结果。这就是一个语料的后处理问题,你要把你需要的东西找出来。再有一个就是利用机器学习的问题,词性的标注或者是语义的标注等,都属语料库加工利用的范畴。自动抽词是快速发现新词、热词的有效方法。也会对词汇研究有帮助。
还有就是其他的统计研究,你比如说汉字部件,像偏旁部首什么的,比如说统计研究哪个部首用得最多。现在新设备,像一般的手机,屏幕都比较小,它上面的输入法键盘如何布局,可能需要参考类似的统计数据。这是部首方面的统计。还有笔顺,有关汉字的笔顺是有规范的,但是实际应用中很多人都是倒插笔的。哪些倒插笔用的频率比较高呢。从规范角度看,我们不提倡倒插笔,但是从应用角度来看,我们希望无论你怎么写都能得到你想要的字。所以这种倒插笔的笔顺统计研究也是很重要的。还有一个就是读音方面,有很多字,现在读白字的非常多。哪些字常被读错,又都读成了什么音,也需要一个统计方面的研究。这些研究成果对于语言教学和语言类流行应用的设计都是有益的。
词汇的研究,由于社交网络比较活跃,现在新词产生和语言演化的速度较以往更快,词汇研究与获取变得更加重要。关注新词新语,研究新设备及各种流行应用(微博,微信,淘宝等App)上人们的用词特点,是现实的需求。如“喜大普奔”“长姿势”这样的新词或者流行词非常多,需要收集整理,研究这些词的使用人群、场合、使用频度等。非汉字词语也越来越多,如00后、AA制、B族维生素等,也需要收集整理。
什么是词的问题。虽然语言学上有对词的定义,但就一般人来说,每个人对词的认识是不完全相同的。随着时代的发展,语言的发展,在应用中语言的变化,对大众来说,汉语中词的概念是什么,其实也是一个需要探求的问题。清楚了解大众对词的认识,有助于设计出用户体验好的中文信息处理系统。因为好多应用我们是以用户为目的。
还有,像我们有时候发布一些文字方面的规范,如果某个字列入了规范,但是国际标准化组织没有收这个字,或者是字库方面没有这个字,用户还是敲不出来。这些就是要跟国际标准化组织等各方面协调的工作。
再有,现在两岸的交流也是非常的多了,不少繁体字大陆跟台湾用的就不一样,包括香港特区。用字也是值得研究的。我认为,规范是普及教育和宣传工作中应该坚持的。但在更大的范围,文字的使用还是要更包容。