您现在的位置:首页 > 科技科学 >

数学家追星技能:用统计学找出歌曲真正的作者

2020-12-10 09:21 来源:杨园三居 浏览:

  图片来源:  计量文体学(stylometry)是一种使用统计学技术来确定作者的方法,最著名的案例就是确定“大学炸弹客”的真身是泰德·卡辛斯基(Theodor Kaczynski),还发现莎士比亚和克里斯托弗·马洛(Christopher Marlowe)合作完成了《亨利四世》的剧本。

  在文本分析的过程中,暴露“幕后主笔”的并非那些不寻常的用词,而是最常用的词汇——常用词汇(如介词)的反复出现,标志了一个人可能的身份。

  在爱德华王子岛的某次科学大会上,哈佛大学的统计学高级讲师马克·格利克曼(Mark Glickman)和戴尔豪斯大学的数学教授杰森·布朗(Jason Brown)意外发现对方也是披头士乐队(Beatles)的“真爱粉”,他们都想知道计量文体学的方法能否回答那个争议不休的问题:这些歌到底是谁写的,是列侬还是麦卡特尼?

  格利克曼解释说,对于大部分标着“列侬-麦卡特尼”的歌曲,大家都清楚,也白纸黑字地写明,这是两人中的谁写的歌。然而,有数量惊人的歌曲(或者歌曲中某些段落)的作者尚存争议。例如,没人知道是谁创作了《In my Life》,这首歌出自 1965 年的专辑《橡皮灵魂》(Rubber Soul),在《滚石》(Rolling Stone)评选的“史上最伟大的 500首 歌曲”中排名第 23 位。列侬和麦卡特尼对这首歌的记忆完全不同。

  “所以,我们想知道是否能够使用数据分析技术,试图解开这首歌的创作之谜,看看它到底出自哪位之手。”格利克曼讲道。

  

数学家追星技能:用统计学找出歌曲真正的作者

  约翰·列侬(左)和保罗·麦卡特尼(右),1964 年。| 图片来自维基百科  在哈佛统计学专业学生宋瑞安(音译,Ryan Song)的帮助下,格利克曼和布朗按照五个特征维度“解构”了披头士从 1962 年到 1966 年的所有歌曲。每个特征维度统计表示歌曲中某一音乐性特征出现的频率。

  “因为很难通过任何直接的方式将歌曲的音乐内容量化出来,所以我们方法背后的主要思想就是将歌曲转为一套不同的数据结构,通过定量方法给歌曲打上‘标签’,从而进行检验。”格利克曼继续说道,“试想一下,我们可以将某一种颜色解构成红、绿、蓝三种颜色按一定权重的组合。我们用同样的方法来处理披头士的歌,当然其中的成分不止三种。总之,我们的方法将歌曲分解为 149 种成分。”

  “歌曲的第一类特征就是不同常用和弦的使用频率,以及不常用和弦的集合,”格利克曼解释说,“我们确定了 11 种和弦类别。”然后,他们将旋律音符的特征提取出来,也就是主唱所唱的音符。接下来,他们记录下和弦转换的频率,即一个和弦接着另一个和弦出现的频率。在这里,他们再次将不常用的和弦转换归入单独的分类中。第四步,他们记录连续旋律音符对出现的频率。

  最后,他们将歌曲分解为由四个旋律音符组成的“等高线”。格利克曼介绍,“等高线”就是四个旋音符旋律走向的排列顺序,分为“上升”、“下降”和“保持不变”。换言之,如果四个音符的走向是音调逐渐上升,那么其“等高线”就是“上升-上升-上升”,即每两个连续音符之间的音调是上升关系。格利克曼说,通过研究四音符等高线,能够获得额外的细节,有助于区分旋律创作的风格。

  

数学家追星技能:用统计学找出歌曲真正的作者

  约翰·列侬 | 图片来自   在这里,格利克曼指出,这五个分类维度之所以能够作为不同音乐创作风格的“标签”,是因为大家都非常熟悉披头士的作曲风格:列侬写的歌通常旋律线起伏变化不大。

  “想想列侬的《Help!》,它基本上是这样,‘当我更年轻的时候,比今天要年轻得多的时候’(When I was younger, so much younger than today),音调的变化不大。旋律会重复停留在同一个音符上,只在某些短乐句中出现变化。而保罗·麦卡特尼的歌,比如《Michelle》,‘蜜雪儿,我的美人,这几个字母组合起来多么动听’(‘Michelle, ma belle。 Sont les mots qui vont très bien ensemble。),这一句的音调真是迂回曲折。”

  

数学家追星技能:用统计学找出歌曲真正的作者

  保罗·麦卡特尼 | 图片来自 Wiki Commons  通过音乐性特征来解决未知或者争议作者问题,我们可以从以下三个步骤了解他们的方法: