顾森顾森,疯狂的数学爱好者,中学时即开办著名数学博客matrix67.com,大学就读北京大学中文系,通过选择应用语言学专业将对数学的兴趣与语言专业完美结合。

追逐语言的规律

2012-12-01北京
这种所谓的规律的规律,或者这种所谓的终极规律,是不是就是人脑去解读语言的基本的方法呢?会不会我们所谓的终极规律,就是人脑和其他动物的区别呢?
  • 1887
  • 8

已有8条评论

加载中...
分享到微信 如果您需要分享到微信,请用微信扫一扫,扫描下方二维码,再进行分享
查看完整演讲稿
TOP
© 2014 一席. 京ICP备13001689号-1
Τ¸Τ 您还没有登录哦 登录后才能使用喜爱、评论和收藏的功能 请在导航栏处登录或注册 感谢! 关闭
oops,这里有点问题 关闭

追逐语言的规律

顾森 2012-12-01

我是一个理性的人,一旦来了一个什么事儿,我就想去找它的规律。但是一旦涉及到汉语语言的时候,我总会有一种挫败感,比如曾经有一个老外对我说:“顾森啊,你的身体很优秀。”我说:“不行不行不行,身体是不能说优秀的。”那个老外反问我:“为啥呢?”我也反问我自己:“这是为啥呢?”

所以我发现语言中的很多规律,可能是很难找的。后来我开始慢慢地关注一些奇怪的语言学现象,在这里我想用一种特别的方式,跟大家分享一些。

大家来看屏幕上的这十个词,我按照某一种方式把它们分为了上下两组,上面五个词具有某一种公共属性是下面五个词所不具有的,大家能看出是什么吗?

「反复 高兴 磨蹭 说笑 许多」上面这五个词都可以用AABB这种重复的方式来说,比如说反反复复、高高兴兴、磨磨蹭蹭、说说笑笑和许许多多。「地震 动静 金黄 巨大 雕刻」但是偏偏下面这五个词就不行,你不能说地地震震、动动静静、金金黄黄。这个区别究竟在哪儿呢?这个规律我到现在还没找着。

再来试一下上面这五个词,又有一种新的共同属性是下面五个词不具有的,这一次更好玩了,它们都是名词,答案很简单。「鱼 路 船 裙子 短信」上面这五个词的量词都是条,我们说一条鱼、一条路、一条船、一条裙子、一条短信。「山 剑 伞 文章 水母」为什么偏偏下面五个词就不能用量词「条」呢?

有的人可能会误以为,说量词条肯定是形状细长的东西,这个说法是有问题的一条路、一条蛇好像有道理,一条鱼怎么办?一条短信怎么办?一条政策怎么办?一条人命怎么办?一条好汉怎么办?这个规律太难找了。

我们再来试一下,上面这五个词某一种公共的属性是下面五个词不具有的,这个答案非常巧妙。「腿 门 气味 鱼刺 笔记本」上面这五个词都可以儿化,我可以说腿儿、门儿、气味儿、鱼刺儿、笔记本儿。「手 电 建筑 铅笔 地球仪」偏偏下面这五个词就不行。

问题就来了,哪些词能儿化,哪些词不能儿化呢?虽然大家可能会觉得,好像儿化一般表示爱称或者小称吧,这个说法不靠谱。两个非常相关的东西,可能一个就能儿化一个就不能儿化,比如我们刚才已经看到了,笔记本可以说笔记本儿,偏偏铅笔就不能说铅笔儿。

有人说,估计是「笔」这个韵母「i」本来就不能儿化,这个说法也有问题。因为铅笔不能说铅笔儿,但是小鸡能说小鸡儿。人马上修正理论,是不是要声母韵母结合起来,整个读音决定能不能儿化呢?也有问题。小鸡能说小鸡儿,但是手机不能说手机儿。

再次修改理论,是不是就是精确地看每个词最后那一个字呢?还是有问题,为什么呢?因为同样的一个字,有时候它要儿化,有时候它不儿化,儿不儿化意思还不一样。比如说「盖」是动词,「盖儿」是物体,再比如说「头」指的是脑袋,「头儿」指的是上司。

所以说大家可以想一下,我们学外语、学英语的时候,需要背英语的不规则动词表,想想老外学汉语得有多惨,他得背哪些词能儿化,哪些词不能儿化。这仅仅是因为,这个完全没有规律可循。

实际上词和词的区别还可能导致一些更诡异的变化。大家很可能会觉得「别」和「甭」应该是一样的,我们很多时候都可以换着说,「别理他」我们可以说「甭理他」,「别吃了」我们可以说「甭吃了」,「别讨论了」可以说「甭讨论了」。

有没有什么词,前面只能加「别」不能加「甭」呢?还真有这样的词,比如说天冷了,你说别感冒了,你就不能说天冷了「甭感冒了」。「别忘了」你不能说「甭忘了」,「别饿了」你不能说「甭饿了」。

问题就来了,这个区别在什么地方?哪一些词它前面既能加「别」又能加「甭」,哪一些词前面只能加「别」不能加「甭」呢?为了去研究这种规律,我们现在把所有这样的词都列出来。上面这一行词就表示「别」和「甭」都能用的,下面这一列词就表示只能用「别」不能用「甭」的。

大家很容易看出来,「走 吃 买 洗 讨论 打扫 参加」上面这一行词有个公共的特点,从语义上,它是一个人能自己控制自己发出的动作。「病 忘 饿 怕 感冒 看见 知道」下面这一行,是人不能自己控制的。所以上面这一行,语言学家管它们叫作自主动词,下面这一行就叫作非自主动词。

这种动词类别一分,很多其他的语言学现象也都解释清楚了。比如说哪些动词能够单说用作祈使句,比如说「走」,或者说「吃」,你买不买,「买」。但是呢绝对不能指着人说「病」,或者说「看见」,或者说「感冒」。

另外动词重叠也和这有关系,我们可以说「我们出去走走」,「我们去参厅里吃吃」,但是绝对不能说冬天到了我们「感冒感冒」,或者说我们「病病」今天学习学习,明天「忘忘」,这是不行的。

我们为什么要去研究这些东西呢?其实我觉得主要的目的是两个,首先我们得教老外怎么说这个东西,如果你不总结出规律来,老外怎么知道什么东西前能加什么,什么东西前面不能加什么呢。但是我觉得更关键的,更重要的,也是更难的一点,就是我们得教会计算机怎样去灵活地处理中文。

但是现在,我们好像找到了一些方案,我们把刚才所有提到的那些词,可能影响到句法的那些语法功能全部列出来,包括每一个词它是什么词性,它有多少个字,它能不能儿化,它是不是自助动词等等。

然后我们加上规则,我们规定不能儿化的词后面是不能够加「儿」的,非自主动词是不能单独成句的,非自主动词是不能够重叠的。那这样一来我是不是就能够把汉语的规则全部刻画出来了呢?

其实有一些小问题,为什么呢?看着这些规则好像比较合理,但是反例遍地都是。谁说不能儿化的词后面就一定不能接「儿」了,「这种铅笔儿童不宜使用」;谁说非自主动词就不能重叠了,我可以说「看了又忘忘了又看」,「不知道知道了会怎么样」。

有人说:“你这些例子不是赖皮例子吗?”为什么呢?因为我造的这些词它根本就不在一个层次上。汉语构词方法其实包括很多其他语言,它都是分层次去进行构造的。

我们的句子其实就是从最简单的句子开始,一层一层地扩展,通过扩句的方式变成一些复杂的句子,这就体现出来一些层次性。比如说,一般一个句子的通常结构,就是一个名词性短语加上一个动词性短语,就是什么怎么样。

比如说「学生学习」,这个「学生」还可以扩展,我可以把「学生」变成一个形容词加上一个名词,比如说「聪明的学生」也可以把它变成一个名词加上「的」再加上一个名词,构成一个新的大的名词,比如说「王老师的学生」等等。

用这种方式不断地扩句,就能够得到一些非常复杂的句子。比如说「老师逗乐了」,老师怎么逗乐了?「老师被学生逗乐了」。被什么样的学生逗乐了?「老师被迟到的学生逗乐了」。

这就是我们用扩展的模式去生成一个复杂句子的原理,那我们就可以规定,刚才我们找到的那些规律,只限定用于每一个扩展规则的内部。比如说我约定如果名词性短语变成了名词加「儿」,那么要求这个名词必须是能儿化的。

如果句子直接由一个动词构成,这个动词一定是自主的动词。另外,如果动词性短语是由两个动词重叠得到的,那么我们要求它们一定都是自主动词,这样就能够避免刚才我们看到的跨层的赖皮范例。

这样一来,好像我们有了一种通用的方法,去描述我们汉语中千奇百怪的现象。这样就已经足够了吗?其实并不是这样,因为我们只是解决了现代汉语的语法当中比较小的一类问题,就是一句话能不能说。

还有很多其他的问题呢,还有包括语义的问题,比如说,汉语就麻烦在这儿,「我吃完了」这是可以说的,「苹果吃完了」这也可以说。计算机就晕了,这两个句子它们的句法结构是完全一样的,它们的词语的顺序也是完全一样的,但是一个表示的是吃的人,一个表示的是被吃的东西。

而且还有更麻烦的句子,如果我来一句「孩子吃完了」,大家想想,这句话就有歧义了,有可能指的是孩子把东西吃完了,有可能指的某一种非常罕见的情况,比如说某一个食人部落吃孩子,孩子被吃完了。

作为一个聪明的计算机,它应该能够分析出来,实际上这里「我吃完了」和「孩子吃完了」往往都应该指的是吃的人,而「苹果吃完了」应该指的是被吃的对象。

人是怎么去分析这个问题呢?其实人的直觉很简单呐,这不废话吗?因为「我」和「孩子」是人呐,只有人才能够发出吃的这个动作,苹果只能是被吃的,它怎么能发出吃的动作呢。

换句话说,在人的大脑知识库里边,我们保存了这么一个信息,就是每一个词它从语义上来讲是属于哪一种大类,有了这个信息之后,我们还需要知道每一个动词和名词之间的关系。

汉语学界通常把这种动词和名词的关系分成下面这十七种,大家可以发现这分得是非常的细的,即使是动作发出者也被分成了四种,包括施事、感事、当事和动力。

施事就是真实地发出这个动作的东西,比如说「我吃苹果」,这个「我」就是真实发出「吃」这个动作的,那么我就是施事。

感事是什么意思呢?他没有发出这个动作,他只是某一个动作的经验者,比如说「我喜欢她」,或者是「我知道了」当中的我。

当事呢?这根本就和动作没关系了,这是物体所发生的一种性状的改变,比如说「老王病了」里面的「老王」。

动力的例子更奇怪了,它实际上算是发出了动作,但是不是一个东西主动发出动作的,比如说「洪水淹没了房屋」里面的「洪水」。

一个很有意思的事情是什么呢?在汉语当中一旦给出了一个动词,那么这个动词可以加多少个名词,这些名词和这个动词的语义关系基本上已经确定了。

我们举些例子,比如说「下雨」,我们说下雨就是「下雨」。一旦说到「休息」这个词,大家一定会马上想,它差一个施事,换句话说就是谁休息,而且不差别的了。我们只会说「老王休息」,我们不会说「老王休息手」,或者「老王休息休息腿」,这是不行的。

再比如说「洗」洗衣服的「洗」,一旦出了这个词,大家马上会想到,它差一个施事和受事,它差洗的那个人和洗的对象。更麻烦的比如说「去」,它差的是施事和目标。

「淹没」可以带两个名词,分别是动力和受事。还有能带三个名词的动词,我们叫作三元动词,一旦出现「送」这个词,我们通常会想到的是谁把什么东西送给了什么人,那么这个里边会出现三样东西,就是送的人、送的东西和送的对象。

现在我们就又有一种高科技的方法,来描述我们汉语当中相关的一些语法的构造,比如说「吃」,它缺少施事和受事,我们就规定「吃」的施事一定是人或者动物,「吃」的受事一定是食物或者药物。

这就解决了我们刚才「我吃完了」「苹果吃完了」和「孩子吃完了」的问题,「孩子」它的语义类别是人,而吃的施事通常是人,受事不大可能是人,只有可能是食物。

因此我发现,「孩子吃完了」通常应该把孩子放在施事的位置上,再比如说「淹没」这个词,「洪水淹没了房屋」它的动力为自然事物,受事呢就是被淹没的,应该是建筑物。

有人可能马上举个反例,那要是「洪水淹没了村庄」或者「洪水淹没了城市」,这不是建筑物了怎么办呢?没事修改一下,我们把受事上加一个建筑物和空间。

有人又举反例了,还不对呀,那要是「悲伤淹没了我」或者「黑暗淹没了我」怎么办呢?

没关系我们再加,我们加上动力可能是抽象事物,受事有可能是人,这样一来大家可能就相信了,这个模型真正地解决了很多汉语当中的词该怎么用,表示什么意思这么一种方式了。

我们汉语的所有现象就能够用刚才两个模型完全解决掉了吗?远远还没有,我们还有很多非常怪异的一些现象需要一些新的模型去解决它。比如说大家看这四个句子「砍光了」「砍累了」「砍钝了」「砍快了」,这意思更不一样。

「砍光了」指的是树砍光了,「砍钝了」指的是斧子砍钝了,「砍累了」指的是人砍累了,「砍快了」指的是什么呢?指的是「砍」快了,对不对?

所以你发现,我们之前的所有模型都不能够用来区别这四个句子,还有更麻烦的现象,「我答应他明天去」指的是我去,「我说服他明天去」指的是他去,那么这个区别在什么地方?我们需要什么样的模型去解决它?

还有更麻烦的现象,如果说两个动词连用,他们之间可能有些隐含的语义关系。比如说「抓住不放」,这个地方我们认为,它是一个反复的关系「抓住」就等于「不放」。

「说起来气人」也是两个动词连用,我们认为它是一个条件的关系,就是每当发生「说起来」这件事情,都会产生一个「气人」的结果。有的人可能不理解了,这两个东西真的是两种不同的语义关系吗?

是的,而且我们可以证明这一点。我们造一个句子「留着没用」,你会发现这句话就有歧义了,因为它既可以指第一种关系,也可以指第二种关系。

当指反复的时候是什么意思呢?比如说收拾家里的时候,突然发现有一个古董放在家里放了很久了,说这个东西留在家里一直没用,它留着没用。

还有一个什么意思呢?就是后面这种条件的解读方法,比如说搬家的时候,这个东西要不要扔掉呢?把它扔掉吧,因为如果把它留下来的话,它会没有用,留着没有用。

所以你发现这样的一些问题,又需要一些新的模型去解决它了。当然我们需要新模型的东西,远远不止这么几个。大家可能会去想了,这些千奇百怪的模型,有没有一种万能的模型去产生这些新的模型呢?换句话说,我们找到的这些语言的规律的形式,有没有某种形式的总的规律呢?

再进一步想,这种所谓的规律的规律,或者这种所谓的终极规律,是不是就是人脑去解读语言的基本的方法呢?会不会我们所谓的终极规律,就是人脑和其他动物的区别呢?

我想,在所有人类还没有解决的疑难问题中,这个问题,一定是最激动人心的问题之一。谢谢大家。