上存储视频文件。一开始的方案极其简单,就是把一帧一帧图像全部都存储下来。但是这无疑是低效的。因为这里面的冗余信息太多。举个简单的例子。一个夜晚的场景,画面上很多地方都是黑的。何必把每一个点的色彩反复记录呢?所以接下来的一个思路就是,不再存储每一帧图像的完整信息,而存储下一帧图像与上一帧图像之间的差异之处。两幅图像中颜色一样的部分全部跳过。
分析语恰恰就具有这样的效果。举个简单的例子。一个人在用汉语谈论昨天发生的事情时,只需要一开始提及“下面这些事情都发生在昨天”,后面就再也不必提及时态了。而英文,则需要反复使用时态来表明这事情发生在过去。在交流时你需要时刻考虑时间、主格/宾格、数量、主动/被动。这对交流是有影响的。当然熟练使用这种语言之后会大大降低考虑这些的时间,但是即便熟练的综合语使用者还是会在这方面犯错。在上下文的帮助下,这些变化都可以省掉。时间变形,可以依靠在第一句中加入时间状语完成描述,其后描述相同时间段的句子就再也不用考虑描述时间了。这就是分析语的数据压缩能力。
当然,这并不是说分析语就一定优于综合语。在缺乏上下文的情况下,一句综合语可以用比较简单的形式传递比较多的信息。但是随着人类社会交流量的上升,一次交流的上下文就变得丰富起来,很多在单词、单句的条件下很有效率的信息交流方式,也就显得越来越冗余了。因此世界上的各个主要语言纷纷向分析语靠拢。
另外,有的人认为分析语劣于综合语,他们是这样说的“综合语只用几个字母组成一个词缀就能表示一个特定含义,而汉语做不到”。这就是没有看到,在当今世界上的实际交流中,上下文总是很丰富。这种变形的方式在单句下很有价值,但在实际交流中就没有什么意义了。
关于各个语言的表意效率,也就是信息密度,2011年法国里昂大学做了一个实验。http://www。time。com/time/health/article/0,8599,2091477,00。htmlhttp://ohll。ish-lyon。cnrs。fr/ful.o_2011_Language。pdf
这个实验里,研究者找了59位不同语言使用者,其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字,这些文字都翻译成各自的语言。然后请这些人分别用正常语速朗读。研究者全程录音。
然后研究者计算所有音节数量,计算朗读中表现的义项(表意的基本单位)的数量,然后得出结论。当然,这个实验并不能完全准确地表现各个语言的差异,但是还是可以用来定性的。
其中,汉语信息密度为0。94,位居第一。英语信息密度为0。91,位居第二。另外值得注意的是,距离分析语更远的法语(0。74)、德语(0。79)、意大利语(0。72)、西班牙语(0。63)的信息密度,都比到英语低。而日语信息密度为0。49,有人认为这是因为日语的表意方式与其他语言不同。
此处信息密度是通过计算每个音节所包含的义项数量来获得的。由于义项的数量是从原始文本——英文版里统计的。而翻译之后有可能会增加或减少义项。为了防止翻译过程中的扭曲造成数据标准不统一。各个语言的文本都被单独翻译为越南语,然后与各自越南语文本中每个音节所包含的义项数量相除,最终得到比较公平的数据。
这让我不由地想到,经过大规模注水的现代汉语信息密度还是这么高,那么文言文究竟已经高到了何种地步?很遗憾没有这方面的研究。不过,根据使用频率进行加权平均,现代汉语平均每个词中的字数差不多是1。5左右。在文言文中,其中很多都是用单音节词表达的。折中一下,我猜想文言文的信息密度达到现代汉语的1。25倍应该是不成问题的。这在古代更是个恐怖的数字。因为拉丁语可不是比现代欧洲各主要语言简单。受到古代文字记录空间的限制,汉语的显然在文字记录方面更加占优。这也许就是我国古代文字记录非常丰富的原因所在。
有人质疑说,有时候一个很长的音节意思很简单,而一个很短的单词意思却很复杂。这种情况当然是存在的。我需要说明的是,所有复杂事物的优劣都是一个统计概念,“高”并不是绝对在任何条件下都高,而是在大多数情况下高。如果一种语言平实交流平均下来就是比另一种语言多用一个音节,那么很显然其表意效率都是很低的。
还有人说,音节不能作为衡量信息密度的单位,因为不同的音节,发音长度很不一样。这个问题提的非常好。事实上我下一节就要讲到英语与汉语发音长度的问题。英语单音节平均发音长度比汉语长。因此在口语的信息密度方面,汉语的优势更大。
值得注意的是,可能由于汉字与读音是分离的,理解和朗读无法同步进行,所以用汉语朗读,就会比较慢。里昂大学的这个实验中,汉语朗读者每秒朗读5。18个音节。大大