京学网-日博365投注网最新网址
走在文理结合的道路上
冯志伟

语用所成立于1984年,当时全名为中国社会科学院语言文字应用研究所,当时社科院还有一个语言所,语言所主要任务是研究语言本体问题、理论问题,但是还有许多实际问题需要解决,像文字规范化、语音规范化、各种规范标准以及随着信息时代的到来计算机的语言文字处理问题等,语用所就是为此而生。当时也成立了国家语委,因此,语用所在行政上受到国家语委的领导,在业务上、人员上,则由中国社会科学院管理,这是1984年的基本情况。1985年,我从中国科技信息研究所计算中心调过来从事计算语言学方面的工作。

为了讲清楚这个问题,我先说明一下我的背景。我个人的背景比较复杂。1957年,我考入北大地球化学专业,这个专业的任务是为国家寻找铀矿,因为国家要发展原子弹,所以是做原子方面工作的,属于保密工作,我对这个专业很感兴趣,而且确实也很难考,当时云南省仅有两人考入北大,我是以云南省理科第一名考进去的。但经过两年的学习,我发现元素周期表后面长长的一段元素都是跟铀矿有关系的,这些元素我们在日常生活中是见不到的,在光谱上能看到,我们需要通过在光谱上找到这个颜色来判断它是什么东西。这些元素的光谱主要是程度不同的黄色,不同的黄色代表不同的东西,但当时我发现我没有办法通过眼睛辨认出元素周期表中的元素,我看这些元素都是一样的。当时北大招生名额非常有限,学生和岗位都是一个对一个的,毕业后都要到岗位上为国家找铀矿的,颜色看不见就无法工作,这种情况很快被反映到学校。学校老师找我谈话,向我说明:高科技的要求需要从业者有极好的视力和极强的辨别能力,所以你将来有两条路可以走:第一条路就是好好学习,将来留校做老师,但是因为视力问题,要想成为很好的老师可能性很小;另外一条就是考虑改行。当时我思想上比较紧张,因为我们确实任务重,国家也确实需要发展高科技、原子工业,我得考虑能不能继续为国家做贡献。但有一条,我知道我数学很好,但是学数学的人太多了,我觉得不太容易做出成绩来。当时北大的条件比较好,有丰富的外文杂志,都向学生开放,有一次我在图书馆看书的时候,无意间看到了乔姆斯基在1955年发表的一篇文章《语言描写的三个模型》(Three models for the description of language),这个文章写得非常抽象化,都是数学方面的内容,但因为我有数学基础,所以我看懂了。文章认为传统的结构语言学描述语言没有一整套的理论与方法。他用马尔科夫链(Markov Chain Model)来描写一个语言的生成过程,形成三个模型。第一个是有限状态模型,即存在一个马尔科夫链;第二个是短语结构模型,后来叫上下文无关语法,改进了马尔科夫链;第三个是转换模型,他认为第二个模型很大程度上改进了马尔科夫链,使马尔科夫链具有递归性,因此可以用来描述语言。我没有想到一个人文学科现象竟然能用到数学模型,所以当时我就想,既然要改行,那是否可以学习语言学。我就去找中文系的老师说明情况,向他们说我在看过乔姆斯基的论文后想转入中文系学习语言学。他们当时虽然不知道乔姆斯基,但是觉得我说的论文内容属于语言学范围。因此提出要考试。因为我当时是以理科生的身份进入北大的,要考我的地理、历史,我提出能不能换一种方式考察我。经过讨论,中文系老师决定让我写一份申请,看看我的表达能力及思想怎么样。在看到我的申请之后,老师们觉得我的中文水平还可以,决定接收我,但是提出一个要求:我虽然是大二的学生,但中文底子等于零,所以转入中文系后不能继续读大三,而是需要从大一读起。就这样我开始了在中文系的学习。就这样,我就变成一个语言工作者,其实我是一个理科的人,我的思想也是理科的,数学比一般人要好得多,转入中文系后,有点不适应,周边的同学大部分都是想当诗人、文学家等等,而我想用数学的方法处理语言,大二时分文学和语言学时,我自愿报名学语言学,周围同学都觉得不可思议。当时语言学专业开设的课程有古汉语、汉语史、方言学、中国语言学史、外国语言学史等,跟我要搞的这个东西也没什么关系,但我经常关注乔姆斯基,后来他又写了一些文章如《语法的形式特性》《语法的某些形式特性》,都在数学或计算机的杂志上发表,因此我常关注这类杂志。我平常想问题跟别人也不一样,别人总是想如何不写错别字、如何将文章写得更生动,而我总是想怎样将语言抽象成一个数学模型,这样我在中文系就变成了一个比较奇特的人。当时北大政治风气不好,对有思想的、学习好的学生有仇视看法,认为这种人必定有资产阶级思想,像外文很难,那么难学的东西都能学会,要检查这个人脑子里是否有脏东西,肯定有个人想法。而我这个人,外文确实很好,又成天做数学题,跟数学系的人经常来往。我原来上过私塾,中文系的内容很多东西都背过,所以中文也很好,导致周围的人对我有很多看法,怀疑我是否有卑鄙的想法,那么难的事情他都能做,是不是有什么资产阶级思想,想当教授什么的,同学们也不敢接近我,怕被戴上“白专”道路的帽子,因此我被同学们冷落,当时心情很不好。

1961年,胡耀邦同志被中央任命为团中央总书记。当时团中央有个规定就是中央级的领导要跟共青团团员做朋友,胡耀邦同志就询问北大是否有学习很好但很另类的学生,学校推出了我。胡耀邦同志要接见我,我感觉受宠若惊。但当时我的家庭很穷,我的衣服上面都有补丁,我就从我所有衣服里找出最好的一身,就是裤子上有补丁,但是很整齐的在两个膝盖处,我就穿着这一身衣服去见胡耀邦跟他合影。至今那张照片还在昆明一中保存着。胡耀邦接见我们的时候,问了我的情况,我把我的大体情况讲了一下。当时一起去的时候还有其他同学,也有人当时已经入了党。他们是学校的正面榜样,而我是反面例子,是要去受批评的,但是事实是胡耀邦并没有批评我,还建议其他同学向我学习,不应该过早入党,而是应该好好学习,多学外语。当时北大校刊也有人跟着一起去,想要记录这个事情并在校报上发表,没想到胡耀邦没有批评我反而表扬了我。他们认为胡耀邦对这件事情的思想倾向性不对、不够积极,对青年学生的影响不好,所以北大学报没有报道此事。即便如此,胡耀邦表扬我的事情还是在学校传开了,这么大的人物说我是好人,自此,我在北大中文系的日子好过了很多。

接着我在1964年考上北大研究生,考上研究生之后呢,就离实现我的理想更进一步了。我的理想是用数学的方法来研究语言。计算机时代到来以后,我知道美国搞过机器翻译,我推测将来中国可能也会出现这种趋势。一旦做机器翻译,语言形式化、数学化就会立马被提出来,因此毕业论文选题时,我就向我的导师岑麒祥提出想用《数学方法在语言学中的应用》作为我的研究生论文题目。经过一番讨论,导师同意了我的想法,同时,我的想法也得到了王力和朱德熙的支持。1966年,我的论文基本写完了,当时研究生要读三年,但是我想两年毕业,因为家庭负担过重,还有弟弟妹妹要上大学,因此我想早点毕业挣钱养家。当时跟导师商量的是1966年9月毕业,导师也同意了。1966年5月,论文快要写完了,论文中还有一些法文的例子不太清楚,我当时已经学会了法文,可以看法文书,但是查《法汉词典》时,发现它收录的单词太少,我认识的词它有,我不认识的词它也没有。因为我也懂日文,导师就建议我买本《仏和词典》,就是《法日词典》,用日文解释法文的词典。我就去五道口买了这本词典,买了词典回去的路上,也就是5月25号中午,发现好多人聚集在门口,我走近一看是张攻击陆平和彭佩云的大字报。当时陆平是北大的校长,彭佩云是北大的党委书记,说他们两个人是执行反动路线,压制无产阶级革命派,是黑帮,是人民的敌人,号召大家把他们打倒。当时我就预感我提前毕业的事情要泡汤了。果然,第二天毛泽东发表声明支持大字报,并发表社论说这张大字报相当于巴黎公社的宣言,标志着一个新时代的到来,我们要支持大字报。我作为普通老百姓,也就不读书了,响应毛主席号召开始参加革命,变成了红卫兵。就这样,我不但没有提前毕业,而且还在北大多呆了几年,到1968年9月才毕业,相当于研究生读了四年。但其中有两年读书了,有两年没有读书。在文化大革命过程中,我最初是比较积极的,但后来发现总是攻击领导,就感觉有点怀疑,担心会不会搞错了。特别有一次事情让我感到害怕,当时我是北大公社的成员,我的任务是抄大字报。就是抄大字报把我的眼睛抄坏了。当时我是一个普通成员,不是积极分子,后来同学晚上两点左右让我跟他们一起向资产阶级夺权,去教育部拿公章,我托词没有参加,但这件事情使我害怕,之后就很少参加这类运动,变成一个半逍遥派,潜心学习外语,法语、德语水平都达到了专业水平。到1978年运动结束分配工作的时候,我们那一届的研究生遭到处罚,被分配到连地图上都找不到的小村庄。因为运动后期我基本不怎么参加,大家认为我是书呆子,没有什么危险性,所以就把我分配到了天津去教书。当时我整个梦想都破灭了,我们这批学生就是“三品人员”,即“旧教育制度的牺牲品,新教育制度的实验品,社会上的处理品”。我是北大中文系毕业的,本该教语文,但到了天津后,被安排教外语,因为其他都有资产阶级的味道,所以我就教了两年的“毛主席万岁”。当时中苏关系紧张,林彪号召大城市的职工朝边疆转,以便发生战乱时不致损失太大。为响应国家号召,我主动申请到云南,支援边疆建设。

1971年,绕了一圈后,我又回到了云南,被安排在昆明五中教物理,从此我北大中文系学生的身份就被隐藏住了。我在云南省是以一个物理教师出现的,而且是以一个物理改革者的身份出现的。我是一个极端的实践主义者,我教力学,就教学生骑自行车,懂得齿轮链条传递原理就算过关;教热学,给学生几张纸、一点柴,只要学生能很快地在石头中把火生起来就算过关;教电学,只要学生在接电时不被电死就算过关。当时的整个思想就是理论结合实际,我的这种教学方法很快在省里传开。我被评为模范教师,并参与云南省物理教材的编写。在这里我开始了一段稳定的生活。

1976年,文化大革命结束,社会局势发生了很大的变化,大学开始招生。我想继续进入北大进行我的研究,并跟北大的老师联系。但是毛主席去世时讲过一句话:“大学还是要办的,我这里说的是理工科大学还要办。”但是北大是文科,还不确定什么时候正式开始办学,于是在1978年,我就通过文革后的第一次高考,弃文学理考入中国科技大学学习计算机,开始新一轮的学习。进入大学后,国家选派出国人员,我也以很高的成绩通过了考试,但因为年龄太大的问题没有被派到美国。因为会法语,所以1978年我被派到法国格勒诺布尔大学应用数学研究所(IMAG)学习,师从法国著名数学家沃古瓦学习数理语言学,从事机器翻译工作,具体研究汉外机器翻译,刚开始时做汉法,后来加入英文、俄文、德文、日文等一共五种语言,做出了可以把汉语翻译成这五种语言的一个FAJRA系统。在做机器翻译系统过程中,也就是在1978~1979年左右,我在世界上第一次提出了“多叉多标记树模型”(Multiple-labeled and Multiple-branched Tree Model,简称MMT模型),用这个模型来做机器翻译。另外,在这个过程中,我还对乔姆斯基短语结构语法进行研究,发现短语结构语法S→NP+VP中,没有说NP、VP哪个是中心词,没有重点,而是并列的,基本上采用二分法,生成二叉树,但对汉语处理来说,如果中心词不清楚、无法定义中心词,那么整个句子是无法得到正确处理的。这时,沃古瓦向我推荐了泰尼埃的《结构句法基础》,这本书中强调句子中支配词、被支配词应该是标注清楚的,因此我决定用此方法来改进乔姆斯基的语法,提高了机器处理的效果。另外,乔姆斯基语法比较简单,标注只有noun和verb,如“读书了”“吃饭了”,都是VP+NP的结构,中文中二者同样可以说成“书读了”“饭吃了”,意思不变,但这在英文中动词却是要变被动式的。很显然,同样的意思在乔姆斯基的语法中有不同的结构。又如:“饭吃了”“人吃了”两句通过乔姆斯基短语结构语法分析得出的树形图是一样的,都是S→NP+VP,但使用汉语的人都知道二者实际上是不一样的。“饭吃了”是“饭”被吃了,“人吃了”是“人”吃某种食品了。因此我提出了多标记,“饭吃了”中“饭”是食品,是行为的被动者,具有“NP|食品”两个特征,翻译时要变成被动式;“人吃了”中“人”是生物,是行为的主动者,具有“NP|生物”两个特征,这样一来,就可以在计算上把它们区分开了。我改进了当时最时髦的语法,将语言处理方法由单标记变成多标记,由二叉变成多叉,在法国得到了很高的评价。经过三年的苦战,我终于在1981年初,在年近40岁的时候完成了中文到五种语言的转换,做出了世界上第一个把汉语翻译成多种外语的机器翻译系统。

这也引起了大使馆的注意,被使馆多次敦促回国。1981年回国后,在中国科学技术信息研究所计算中心担任机器翻译研究组组长,领导大家做英汉机器翻译系统,把英文的title(即科技论文的题目)通过计算机自动翻译成中文,但当时有一个最大的问题就是,1981年国内的汉字处理系统还没有,所以机器是没法处理中文的,所以英语翻译成中文时,输出的结果并不是汉字而是一个个的代码。因此,当时面临的主要任务就是如何让计算机输出汉字。但是国内还没有这种技术,后来经过调研,我查到日本的高千穗公司有T4100生成系统,可以把代码变成汉字,这里的汉字是日本使用的汉字。知道这种情况后,我就向领导反映,他们用高价从日本买来一个这样的系统,终于在1983年,在中国大地上第一次用计算机打出了汉字。

当时中国文字改革委员会的人可能从文献上知道了语言信息处理这个学科,1984年语用所成立时领导们也意识到应该做语言信息处理,但是当时找不到这方面的人才。当时我在信息所,没人知道我曾在北大中文系学过语言,大家都以为我是数学家,是搞计算机的。但是吕叔湘先生的秘书詹开第向陈章太推荐了我,说:“我的北大老同学冯志伟中文系毕业后,到法国学数学,做机器翻译,现在他隐藏在中国信息研究所”。他们听到这个消息后就去调查,发现果然有这个人。陈章太就想让我调到语用所。我语言学研究的道路太坎坷了,所以当时并不是很想来,但是章太多次打电话说服我来,并任命我为计算语言学研究室主任。但是到职之后,发现这个计算语言学研究室只有计算语言学的牌子,连台计算机都没有,工作条件比较差。没有工作需要的设备,也没有人手,做机器翻译系统的宏伟想法无法实现,我意识到必须得转变工作思路。当时想到的工作有:多抓标准工作,另外,想到一些与国家科技发展有关的工作,如术语研究等。这些不需要设备。这是我研究工作的战略大调整,不能再按照以前数学、程序的思路走。在我调到语用所做助理研究员的时候,已经是中国软件所的兼职研究员了。1986年,软件所跟德国夫琅禾费研究院合作,需要派一个懂欧洲语言并懂软件系统的人到德国做一个热力学数据库,但软件所现有人员大部分只懂英文,少数懂法文但又不懂英文。软件所所长许孔时教授想到了我。科学院看了我的材料后,了解到我懂中英法德等多种语言同时又懂软件系统,决定派我过去。当时我在国家科委的话就没问题,因为科委与科学院是一家,但是因为我是在语用所,属于社科院,这样就有难度,所以软件所就想调我过去,但是陈章太不同意。又鉴于它是国家任务,经过科学院领导与陈章太所长的讨论决定,我被中国科学院和中国社会科学院共同派出。因此,在语用所呆了一年后,也就是1986年,身兼语用所和软件所双重研究任务,我被派到了德国。

在德国做的是热力学数据库,在做的同时我知道了术语问题,同时我还做另外一个事情,即数据处理用的数据处理专业的术语数据库,这是世界上第一个中文数据库,是中英文双语数据库,用UNIX操作系统和INGRES软件做,这个系统做起来很困难,需要我自造中文字,两年后,终于做出了中英双语术语数据库。

1988年我完成任务回国,回国后主要做了以下几个方面的工作:

第一是推进术语学建设。在德国的研究工作使我获益很多,这些工作为我术语学研究奠定了基础,同时我也了解到术语学在国外被认为是应用语言学的一部分。因此,我回国之后第一个工作就是与国家标准委联系,请他们支持一机部做一个关于汽车机械的五种语言的术语数据库,这个数据库后来成为全国的一个标准。我也鼓励农业部、化工部做一些相关领域的术语数据库。另外我们还做一些跟国际标准化ISO/TC37组织合作的工作,制定术语标准,如:建立术语数据库的一般原则和方法、术语数据库评测规范、术语数据库的磁带交换格式。这三个国家标准都是语用所做的,这个工作也受到所里一些老师的支持,我们推进国家标准委做的一些术语数据库标准还得奖了,获得国家科技进步二等奖,其实这些术语标准的起草、审稿、定稿都有我参与,但是申报成果时因为我不是他们单位的人而没有上报我的名字。另外,我也参与中国科学院科学技术名词审定委员会的一些工作,还参与科学院下属的物理所、数学所、计算机所等术语委员会组织的术语编写,至今已编写70多本。我参与的这些工作都是以语用所工作人员的身份参与的,因此,我认为语用所在中国术语方面具有开创之功,在术语数据库建设方面有很大贡献。语用所领导应该改变传统思维方式、拓宽视野,关注、重视这方面的工作,在总结成果时,应该把这项成果写到语用所的历史上。术语统一关系国家科技发展,国家也很重视这方面的研究工作,我建议语用所领导在推广普通话的同时抓一下术语方面的工作。我觉得我们所还是有力量的,近些年进来的博士外语水平都很好,适当增加些自然科学知识,就可以在语用所原有工作基础上继续从事术语学、术语学理论及术语数据库建设等工作,而且术语方面确实还有一些问题是值得去探讨的。另外,我担任过中国术语网的副秘书长,是TC37-SC3术语标准化技术委员会的秘书长,在国内外术语领域有很好的资源可以利用,因此我希望我们所可以鼓励一两个人继续做这方面的工作,继续将语用所在术语方面所取得的成绩发扬光大。

第二是文献工作标准化的问题。这个工作包括世界各地的档案馆、图书馆、公共服务事业的这些文献的标准化问题。如这个人写几本书,这个书的目录怎么编,这些书的中文怎么表达,汉语拼音怎么注,这都是很实际的问题,所以国际标准化组织就成立TC46,就是要将世界各种的文献工作标准化,如:护照,中国护照用拼音转写人名时遇到的大小写问题、连写与否问题等。这些都是具有国际影响的大事,这些工作本来都是在语用所的,但后来放弃了,目前此项工作由国家信息研究所承担。我建议我们所继续做,可以跟信息所合作做这项工作。

第三是规范、标准化的工作。我做了信息处理系统的一些平台标准,如机器翻译的标准、语音识别和语音合成的标准、信息检索系统的标准,这些标准也都是教育部的课题,在国内也有很大的影响,所以规范化、标准化方面的工作我们是不是也可以考虑做。我们也不是完全不管国家标准,如文字规范标准ISO16046我们有专人负责,但我们的规范标准不应只是这些,不应只是文字的,还应包括术语的、文献工作的。

第四是在自然语言处理基础理论建设方面出了一些专著和译著。1985年我来语用所时没有设备,也没有人员,相当于我自己一个人独干,比较孤独。虽然与自动化所、软件所有一些协作关系,但成果是他们的,不算语用所的课题。语用所方面的工作,因为没有资金也没有人力,作为一个老人,也是中国机器翻译的早期研究人员,我主要从事一些总结性工作,写了《自然语言机器翻译新论》和《机器翻译研究》两本书,成为机器翻译研究者的必读书。同时,我也很关注国内外自然语言处理的发展情况,写了《自然语言处理简明教程》和《自然语言处理形式模型》等书,成为计算语言学专业学生的必读书。另外,我还做了一些翻译工作。2001年9月到2004年8月在韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)担任访问教授期间,我跟软件所孙乐合作翻译《自然语言处理综论》一书,也成为自然语言处理专业学生出国留学的必读书。

语用所成立30年来,很多人工作还是很努力的,整个语用所的发展还是很好的,语用所在发展过程也经历过非常困难的时期,在1998~1999年间,国家机构大调整,语用所归属不清,处于风雨飘摇的状态。当时我来语用所上班就只有两三个人来上班,当时语用所就快散掉了,但最终语用所成功克服难关,李宇明来了之后做了一些整顿,申请了一些课题,特别是抓了普通话培训、测试后,逐渐改变了语用所的困境,其实也很不容易。但是我想,除了现有工作之外,适当关注规范标准问题,特别是关注术语的标准、文献工作的标准化问题,从而扩大语用所在国内外的影响,也更好地体现我们所应用研究的性质。

我觉得语用所应该走向世界,从1985年来了之后就一直在做这个事情。当时领导也比较支持,我邀请国际应用语言学协会副主席、德国应用语言学会主席居尔畹(Wolfgang Kühlwein)教授来做讲座,目的是希望语用所能够参加国际应用语言学协会,但后来就不提了。我们不仅应该参加而且还应积极组织国际应用语言学学术会议,应该往高处看,向国际看齐,提高标准,号召大家多朝国际一些重要的应用语言学杂志投稿,如SSCI检索的刊物等,可以对发表文章的作者进行一些奖励等。向国际看齐,这样,不仅可以提高我们所在国内的地位,还可以在国际语言学领域拥有自己的一席之地。

  2016 年第 1 期 总第 35 期(双月刊) 主 编:于根元 编辑部邮箱:yuyanshenghuo@163.com
  2016 年 1 月 10 日出刊 副主编:刘艳春  
  指 导:教育部语言文字信息管理司
  主 办:商务印书馆 北京开放大学 中国语言资源开发应用中心 北京市民终身学习远程服务中心