`
poson
  • 浏览: 348348 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Zipf与省力原则[1] 【转载】

阅读更多

 

Zipf与省力原则(一)
作者:行者无疆Jerome 2006-12-16 20:33:05
标签:
 

Zipf与省力原则[1]

北京大学姜望琪

摘要:本文首先介绍Zipf的生平及以其名字命名的定律,然后讨论了省力原则与Zipf定律的关系:即,省力原则是单一化力量跟多样化力量之间的妥协,Zipf定律是省力原则的体现。并指出,省力原则与语言冗余现象不矛盾。在后半部分,我们讨论了省力原则与语用学的关系。Grice (1978)曾提出修订版奥卡姆剃刀(Occam’s Razor),这跟省力原则有明显的联系。Horn (1984)则进一步把Zipf的省力原则跟Grice的准则结合起来,提出了Q原则和R原则。Sperber和Wilson (1986/1995)的关联原则也谈到了省力问题,但他们的理论的解释力不如Horn的两原则大。最后,我们通过具体讨论如何理解an X,论证了我们的论点。

关键词:Zipf定律;省力原则;Q原则和R原则;

省力原则(the Principle of Least Effort),又称经济原则(the Economy Principle),可以概括为:以最小的代价换取最大的收益。这是指导人类行为的一条根本性原则。在现代学术界,第一个明确提出这条原则的是美国学者George Kingsley Zipf。他为什么要提出这条原则?这条原则到底应该怎么理解?这是本文要探讨的问题。

 

1. Zipf其人 George Kingsley Zipf 1902年1月出生于一个德裔家庭(其祖父十九世纪中叶移居美国)。

 

1924年,他以优异成绩毕业于哈佛学院。

1925年在德国波恩、柏林学习。

1929年完成Relative Frequency as a Determinant of Phonetic Change,获得哈佛比较语文学博士学位。然后,他开始在哈佛教授德语。

1931年与Joyce Waters Brown结婚。

1932年出版Selected Studies of the Principle of Relative Frequency in Language。

1935年出版The Psycho- Biology of Language:An Introduction to Dynamic Philology。

1939年被聘为讲师。1949年出版Human Behavior and the Principle of Least Effort:An Introduction to Human Ecology。

1950年9月因患癌症病逝。(Prün & Zipf 2002)

 

2. Zipf定律

 

Zipf的专业是比较语文学,但是,以其名字命名的定律却早已走出语言学,进入了信息学、计算机科学、经济学、社会学、生物学、地理学、物理学等众多研究领域[2],在学术界享有极高的声誉。什么是Zipf定律?为什么它有如此巨大的影响?这一节我们讨论这个问题。简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C。例如,他根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。 I Rank (r)II Frequency (f)III Product of I and II (r × f = C)IV Theoretical Length of Ulysses (C × 10) 102,65326,530265,300 201,31126,220262,200 3092627,780277,800 4071728,680286,800 5055626,500278,000 10026526,500265,000 20013326,600266,000 3008425,200252,000 4006224,800248,000 5005025,000250,000 1,0002626,000260,000 2,0001224,000240,000 3,000824,000240,000 4,000624,000240,000 5,000525,000250,000 10,000220,000200,000 20,000120,000200,000 29,899129,899298,990 表1 (Zipf 1949:24) r × f = C这个公式还说明,一个词的出现次数跟它的等级序号成反比。出现次数越多,序号越小。出现次数最多的排第一,出现次数最少的排最后。这原本没有什么特别的:序号就是根据出现次数排的。但它们的乘积是常数这一点,却使得分别以词的序号和出现次数为轴线的双对数表(doubly logarithmic chart)呈现极大的规律性——它几乎是一条45度的直线。[3] 例如,Zipf为Ulysses的用词制作的双对数表如下:

图1(原载Zipf 1949:24,本简化图来自Ha, Sicilia-Garcia, Ming, & Smith 2003: 315)

 

Zipf关于r与f关系的论述被称为“Zipf’s law”。展示两者关系的双对数表被称为“Zipf plots”,或“Zipf curves”。某种现象的出现次数如果符合Zipf 定律,这种现象就被认为具备“Zipf distribution”,或“the Zipfian distribution”。[4] 类似的观点其实早就有人提出过。如,美国人口统计学家Alfred Lotka(1880 – 1949)在1926年发现,一个文献目录中有n个文献被提及的作者的数量(设为x)是常数(C)除以na所得的商(其中的幂a常常接近2)。用公式表示,就是x = C / na,称为“the inverse square law(平方反比律)”,或“the power function distribution(幂函数分布)”。Lotka还证明,当a确实等于2时,C约等于0.61。这就是说,在一个文献目录中大约61%的作者只有一篇文献被提及。(A Short Biography of Alfred James Lotka) Zipf在1929年写作Relative Frequency as a Determinant of Phonetic Change的时候,已经对这个问题有了一些初步的认识。在1932年出版的Selected Studies of the Principle of Relative Frequency in Language[5]中,他提到了上述平方反比律,虽然没有提及Lotka的名字。但是,在1935年出版的The Psycho-Biology of Language:An Introduction to Dynamic Philology中,他在引用了Lotka定律后说:然而,另外还有一种观察、标示这种出现次数的方法。它不太依赖语料的容量,却揭示出另一个特征。就像一位朋友向我建议的,我们可以把词汇表中的词按出现次数排列,如,第一个多的,第二个多的,第三个多的,第五百个多的,第一千个多的,等。我们可以在以顺序为横轴,以出现次数为竖轴的双对数表上把它显示出来。(译自Rousseau & Zhang 1992:204)这是Zipf第一次明确表述自己的发现。在该书中,Zipf还讨论了词频与词长的关系。他认为,“语言中的短词很明显地比长词更受到人们的欢迎”。“总的来说,词的长度跟它的出现次数成反比,尽管其比例不一定很严格”(译自Catriona & Hurford 2003: 2)。这种说法跟注4提到的说法——少数词经常出现,多数词偶然出现——结合起来,就变成:少数几个短词经常被人们使用,而其他词则极少使用。除了语言以外,Zipf还把自己发现的规律应用于城市人口、企业收入等现象,研究这些数量跟等级的关系。在1949年出版的Human Behavior and the Principle of Least Effort:An Introduction to Human Ecology中,他进一步扩展了视野,讨论了人类社会的众多社会、文化现象,甚至自然现象。

 

3. 省力原则但是,跟其他著述更大的不同是,Zipf在1949年的书里提出了一条指导人类行为的基本原则——省力原则。他是怎么提出这条原则的呢?该书正题的第一个词是“人类行为”,副题是“人类生态学导论”,很明显Zipf在此要讨论的不只是人类语言,而是人类的所有行为。Zipf在序言里指出,如果我们把人类行为纯粹看作一种自然现象,如果我们像研究蜜蜂的社会行为、鸟类的筑巢习惯一样研究人类行为,那么,我们就有可能揭示其背后的基本原则。这是他提出“省力原则”的大背景。当Zipf在众多互不相干的现象里都发现类似Zipf定律的规律性以后,他就开始思考造成这种规律性的原因。这是导致他提出“省力原则”的直接因素。在开始正式论证以前,Zipf首先澄清了“省力原则”的字面意义。第一,这是一种平均量。一个人一生要经历很多事情,他在一件事情上的省力可能导致在另一件事情上的费力。反过来,在一件事情上的费力,又可能导致在另一件事情上的省力。第二,这是一种概率。一个人很难在事先百分之百地肯定某种方法一定能让他省力,他只能有一个大概的估计。(p. 6)因为用词研究是理解整个言语过程的关键,而后者又是理解整个人类生态学的关键,他的具体论证从用词经济开始。(p. 19) Zipf认为,用词经济可以从两个角度来讨论:说话人的角度和听话人的角度。从说话人的角度看,用一个词表达所有的意义是最经济的。这样,说话人不需要花费气力去掌握更多的词汇,也不需要考虑如何从一堆词汇中选择一个合适的词。这种“单一词词汇量”就像木工的一种多用工具,集锯刨钻锤于一身,可以满足多种用途。但是,从听话人角度看,这种“单一词词汇量”是最费力的。他要决定这个词在某个特定场合到底是什么意思,而这几乎是不可能的。[6] 相反,对听话人来说,最省力的是每个词都只有一个意义,词汇的形式和意义之间完全一一对应。(pp. 20-21)这两种经济原则是互相冲突、互相矛盾的。Zipf把它们叫做一条言语流中的两股对立的力量:“单一化力量”(the Force of Unification)和“多样化力量”(the Force of Diversification)。他认为,这两股力量只有达成妥协,达成一种平衡,才能实现真正的省力。(pp. 21-22)事实正像预计的那样。请看Zipf的论证:假如只有单一化力量,那么任何语篇的单词数量(number)都会是1,而它的出现次数(frequency)会是100%。另一方面,假如只有多样化力量,那么每个单词的出现次数都会接近1,而单词总数量则由语篇的长度决定。这就是说,number和frequency是衡量词汇平衡程度的两个参数。(pp. 22-23)这时候,Zipf研究过的词频数据派上了用处。如我们在前面引用过的,James Joyce的 Ulysses总单词量是260,430,不同单词数是29,899。其中频率排行第10的单词出现了2,653次,排行第100的单词出现了265次,排行第1000的单词出现了26次。呈现了相当强的规律性。这是为什么? Zipf的解释是,根据r × f = C这个公式,我们可以推导出f = C / r。因为C是常数,我们可以把它设为1,而不影响各个单词之间的f / r比值。也就是说,我们可以进一步推导出f = 1 / r。这样一来,如果频率最高的单词的出现次数是1,第二个高的单词的出现次数就是1 / 2。依此类推,我们就得到了一个如下的简单调和级数(the harmonic series): 1,1/2,1/3,… 1/n (p. 35)如果我们把上述比值加起来,就会得到一个有n个单词的调和级数的合计S(sum),写作Sn。如果用F表示频率最高的单词的出现次数,那么我们就可以得到一个如下的调和级数方程式(the equation of the harmonic series): F " Sn = F/1 + F/2 + F/3 + … + F/n (p. 36)而如果用坐标图把这个方程式显示出来,它几乎跟图1一样,是一条45度的斜线。这当然是因为这个坐标图的基础也是r × f = C。问题是:为什么是45度?概括起来,Zipf的回答是:这是因为有省力原则在起作用。前文已说明,如果一种语言只有一个单词,它的出现率会是100%。相反,如果每个单词都只有一个意义,那么,一个语篇的不同单词数会跟总词数一样,而且各个单词的出现次数都会是1。(严格地说,没有完完全全相同的同义词。)如果用坐标表示,前者是一条竖线,后者是一条横线。把它们合在一起,正好构成一个90度直角。现在的45度斜线,恰恰是前两种情况的中和、妥协。既然前两种情况分别只考虑了说话人利益,或听话人利益,那么,中和前两种情况的第三种情况就既考虑了说话人利益,又考虑了听话人利益,就是“单一化力量”和“多样化力量”之间平衡、妥协的结果。

 

(Poosala n.d.: 4)这样,Zipf就既为省力原则是“单一化力量”和“多样化力量”之间的平衡、妥协找到了佐证,又解释了为什么会出现Zipf定律这样的现象。

 

[1] 本文在写作过程中得到了很多朋友的帮助,特别是清华大学的封宗信博士在美国为我复印了Zipf(1949)和Martinet(1962),耶鲁大学的Horn教授向我提供了有关Zipf的网站等信息,国际应用生物科学中心的张巧巧博士给我寄来了她跟Rousseau教授合写的文章等,特此致谢。

 

[2] 中国科学院上海原子核研究所的马余刚等人近几年提出,原子核碎裂中可能也存在Zipf定律。他们发现,在热发射体的破碎过程中,液汽相变温度处的碎片,其以碎片等级排序的平均电荷(或质量)正好反比于碎片从小到大的排列次序。(韩定定、马余刚2000,马余刚2001)。

 

[3] 这个45度角有特别重要的意义,我们下文再讨论。

 

[4] 如图1所示,实际数据跟理论数据是有差距的,特别是在最大和最小的两头。它们都偏离了那条45度线。这说明,Zipf定律描述的只是一种大致情况。如果Zipf定律完全成立,出现次数最多的一个词就会占全文的10%。这跟事实并非完全一致。尽管如此,少数几个词,比如说20%的词,其使用频率占全文的80%,却可能是事实。这跟近年人们谈论很多的2/8现象是一致的,也是Zipf定律被认为广泛存在于各种领域的一个重要原因。

 

[5] 其中包括他对古罗马作家Plautus(普劳图斯,公元前254-184)作品的词汇出现情况进行的研究。他还跟两个中国人 Mr. Kan Yu Wang和Mr. H. Y. Chang一起研究了孙中山、章太炎、梁启超、陈独秀、胡适等人写作的20个汉语语篇中的词汇出现规律。Rousseau & Zhang (1992)复查了Zipf等人关于汉语的研究,在细节上提出了一些异议,但承认Zipf他们的总的结论是对的。

 

[6] 如果沿用上述比喻,这等于说,木工的这种多用工具实际上不存在。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics