多语言 Etaoin

书接上回, “Etaoin”这个名字来自英语中最常用的六个字母按顺序排列,我们可以把这种现象称为 frequogram。我们当然可以对其他的语言进行类似的字母频率统计排列,得到类似的名字;不过英语的这个已经极为难念,因其元音占比过高(元音本就比辅音种类少,而常见音节结构中总得有一个元音,故此),不知道别的语言能不能给我们带来一些惊喜。

互联网上已有一些网站()为我们列举好了字母顺序。最容易想到的问题就是,到底什么算作字母。我们先忽视这个问题,考虑「字母」概念良定义的语言,先从使用拉丁字母的语言开始:

  • 法语:eastirnul,来源。是比较工整的 VVC CVC CVC,比较容易念出来。
  • 德语:enirstad,来源。按德语的读法也可以读出来,只是 irst 放一起听起来比较凶(德语刻板印象)。
  • 意大利语:eaiontr,来源。除掉辅音序列构成 meme 这个问题之外,四个元音连在一起比英语的还要灾难。加之意语的双元音等本来就是 glide,会很折磨。
  • 拉丁语:ieautsr,来源。爷俩凑一对。
  • 荷兰语:enatordi,来源。应该是目前最好念的一个。
  • 世界语:aieonlsr,来源。半斤八两。
  • 丹麦语:erntdais,来源。放在这里纯粹是因为它辅音很靠前比较奇妙。
  • 挪威语:entrais,来源。凑一对。
  • 他加禄语:angistm,来源。读成类似 angistan 的话押「成吉思汗」韵。目前刻板印象最像人名的一个。
  • 威尔士语:dayeniro,来源。非常好的 CV 结构,日本人名。比较惊喜的是我翻了这么多印欧语言这个是唯一一个辅音占最高频率的语言。
  • 越南语:nhctiagð,来源。源站统计的时候把每个标不同声调的字母都分开统计,因此元音被摊开了,所以看起来很异 域 风 情。

注意我读过去之后筛选掉了很多比较没意思的三个元音开头然后几个随机辅音的,只是呈现了我觉得比较好玩的。

之后是西里尔字母和希腊字母。

  • 白罗斯语:анірсык,anіrsyk,来源。勉强能念。
  • 俄语:оеаинтс,oeaints,来源。典型而无聊的元音开头。
  • 希腊语:ατοεσιν,atoesin,来源。我忘了希腊语怎么双元音,但是看起来也比较好念。

对于辅音文字,我们可以只考虑其字符序列,但是它能不能念出来取决于这门语言怎么补元音。

  • 阿拉伯语:النميوهب,按顺序是alnmywhb,谷歌的自动补全觉得它念alnimyuhib。来源
  • 希伯来语:יהולארת,按顺序是yhulars,谷歌补全觉得它念Yeholaret。来源

接下来我们就会进入不良定义时间:

对于元音附标文字,我们无法很好地区分出哪些是「字母」、哪些是「辅助符号」,如果将它们拆开的话按序排列不一定有意义,将它们合并成一个、按音节排序的话就又会失之种类太多、即使是出现率最高的出现率也太低,容易受到语料库偏差影响。反正我也不认识什么元音附标文字,这节跳过。

音节文字则更为受限,只有后面这一种选择。不过好在日语五十音不是很多。

  • 日语(平假名):のてかたと,notekatato,其中每个塞音清浊都被合并统计。看起来比较能念。
  • 日语(片假名):ントスルイ,nntosurui,塞音和擦音都是合并统计。

来源均为这里(不可靠)。别的音节文字我都网上找不到靠谱来源又懒得自己找数据集。

那么我们回到本文的写作语言汉语,这一位则更是重量级,我一想竟有考虑字形、音节+声调、音节、声韵分开四种不同的统计方法。

  • 汉字(字级别):「的一是不了在」。来源
  • 汉字(带声调音节级别):「de shi4 yi1 ta1 bu2 zai4 you4」,猜测一下是「的是一它不在又」。来源
  • 汉字(音节级别):「de shi yi zhi ji bu you zhe」,我的输入法第一反应是「的是一只即不又这」。来源

这些都完全不是名字。

声韵分开比较难以处理,主要是因为我们不太好定义什么是声母(gkh是不是jqx?)、什么是韵母(zhi、yi、ji是否押韵?)。懒了。

What about digrams? Here comes Inaneron…