揭秘比特币创始人中本聪:天才、亿万富翁与隐秘身份的真相
最近,据称世界上最神秘的富翁终于被揭开面纱,这一切都是因为他的写作风格。
2014年,英国阿斯顿大学的一群学生在法医语言学家Jack 的带领下,分析了中本聪2008年发表的一篇关于比特币的学术论文。他们统计了“still”和“only”等小词的出现频率并分析了文本中的标点符号模式,例如“and”和“but”。 ),发现了作者身份的线索。他们指出,该论文的写作风格符合加密货币领域的博学者 Nick Szabo 的风格。
Nick Szabo 刚刚开发出一种通过无线电传输比特币的方法。图片来源:.co
就在今年早些时候,美国企业家兼政治评论员 Muse也声称美国国家安全局使用类似技术破解了中本聪的身份,但没有宣布他们的分析是否也指向中本聪。博。
寻找中本聪的过程提出了几个有趣的问题:每次我们写下文字时,我们的身份是如何被揭露的。我们可以从一个作家的写作风格中了解多少?随着数字通信变得越来越普遍,我们的推文、电子邮件和短信中隐藏着多少可能背叛我们的线索?新兴软件已经可以分析大量数据来寻找模式。我们能在他们面前保持隐形吗?
每次我们说话或写作时,我们都会透露很多关于我们是谁、我们的职业以及我们来自哪里的信息。数千年来,侦探一直使用文字来破案,但近几十年来,计算机已经接管了一些繁重的工作,分析我们产生的大量数字信息中的模式。
这种类型的定量文体分析 ( ) 是本科计算机科学课程的常见部分,也是大学和出版商每天使用的抄袭监控软件的核心功能。此外,刑侦专家还利用犯罪分子在网上留下的文字来确认其身份。
有些软件可以分析文本的作者。图片来源:
此类分析最常见的用途是,首先,准确识别某个文本的作者,其次,总结未知作者的写作特征:他的年龄、性别、教育水平和母语。分析的第一步通常是列出可能的作者及其文本样本,专家或软件可以从中提取显着特征。然后将待确认的文本与这些段落进行比较,任何匹配的作者身份都表示为概率而不是绝对的“是”或“否”。最后,这些结果必须与案件涉及的其他证据一起审查,例如提交人当时是否有不在场证据。伊利诺伊理工学院计算语言学家什洛莫·阿加蒙 ( ) 表示:“如果所有证据都指向同一个方向,你就可以相当肯定地判断作者是谁。”
路边草丛透露的消息
所谓“显着语言特征”在不同情况下可能有所不同。这方面有一个著名的例子:绑匪写了一封赎金信,要求人质的家人将赎金放在“魔鬼地带”上。警方向华盛顿特区乔治城大学的语言学家罗杰·舒伊寻求帮助。舒伊碰巧知道“魔鬼地带”指的是人行道和车道之间的那片草地,这个术语非常罕见,只有俄亥俄州阿克伦市的居民使用它。他询问警方是否有嫌疑人来自阿克伦,他们都惊呆了。果然,他们有这样的嫌疑,后来他也承认了。
著名的“魔鬼地带”赎金信中包含许多揭露作者身份的线索。勒索信的主要信息是:你还想见你的宝贝女儿吗?然后将1万美元现金装进尿布袋,扔进18街和卡尔森街拐角处草地上的绿色垃圾桶里。不要带其他人。不要报警! !一个人来吧!我会留意你的。如果你带了其他人,交易就结束了,你的女儿就会死! ! !图片来源:
如果你不想被自己的言语所背叛,仅仅避免使用方言或其他特殊词汇是不够的。因为揭示你身份的线索往往是我们不自觉控制的容易被忽视的文本特征,比如哪些单词大写、标点符号后面留多少个空格、段落前是否缩进等等。 ’是极其罕见的,”阿加蒙说。 “那一次真是太幸运了。”
比文本特征揭示更多信息的是将句子连接在一起的所谓“功能词”的相对频率。阿加蒙指出:“虚词是介词、连词和人称代词。这些词本身没有意义,只执行语法功能。”这些单词之所以对分析(至少在英语中)有如此大的贡献,是因为它们数量如此之多:加起来,它们占了我们所写单词的一半以上。
德克萨斯大学奥斯汀分校的詹姆斯·彭尼贝克在研究中指出,这些看似无意义的语言成分可以表明一个人的性格类型、健康状况,甚至未来的行为,比如是否会自杀。
其他人则使用能够泄露身份的特殊语言特征来渗透到互联网上的犯罪网络。同样来自阿斯顿大学的蒂姆·格兰特训练卧底警察在网上假装被捕的恋童癖者,以引诱其他罪犯,有时冒充潜在的受害者。格兰特磨练了这些罪犯的写作风格,并训练警官改进他们的模仿技巧。 “那些人是在相互不信任的环境中交流的,如果你说错话,他们会非常警惕。”他说,“如果你在言语选择或沟通行为上犯了错误,与他们的互动就会变得非常困难。”
这些引人注目的模式,无论是在词语选择、句子结构上,还是作者无意中使用功能词的频率上,都表明语言具有高度的灵活性。语言学家曾经认为,我们都首先学习一套标准的语法,然后偏离这个标准来表达我们的个性。然而,现在更普遍的观点是,我们从一开始就对母语有自己的心理模型。我们习得母语的社会和情感环境不同,使得这种模式与其他模式略有不同。重要的区别。
亚利桑那大学计算机科学家陈新军(Chen)指出,正是这种差异造就了独特的写作风格。他还首先提出了“笔画模式”的概念()。所谓笔纹,就是语言的指纹。这是我们写作风格上的细微差别,包括词汇、句子长度和段落布局的差异。
使用看似无意义的语言成分(例如所谓的“功能词”)来揭示作者身份的分析方法已经存在了一段时间。 2013年,宾夕法尼亚州杜肯大学的 Juola用类似的方法指出JK罗琳是小说《布谷鸟的呼唤》的作者,将这项技术带入了公众的视野。
但如果作者死了,那就更难说服公众了。例如,一首十九世纪的诗《Twas the Night》一直被认为是克拉克·摩尔的作品。但在2016年,新西兰文学学者麦克唐纳·杰克逊( )发表了详细的分析,通过使用“that”和“the”等词以及几对音素,确定这首诗的作者是亨利·莱文(Henry )。亨利.
这个结论并没有被所有人接受。梅尔维尔专家斯科特·诺斯沃西嘲笑杰克逊(和他的计算机)对“无意义元素”的分析,称这些元素“无关紧要,可能分布在文本中”。完全是随机的。”
隐形风格
那么,当有人想要获取你的口头指纹时,你该如何逃脱呢?阿加蒙说,从某种意义上说,这很容易做到。假设有 100 位作者,每人提交一段文本。作为其中一员,你不想让别人知道哪一段是你写的。然后“你所要做的就是让你的文字看起来像其中的 99 个。”
这种方法有时效果很好。现供职于加州大学伯克利分校国际计算科学研究所的萨迪亚·阿夫龙兹 (Sadia ) 在宾夕法尼亚州德雷克塞尔大学 ( ) 期间与同事进行了一项研究。他们要求参与者写下你那天早上的经历,并模仿美国作家科马克·麦卡锡( )的写作风格。事实证明,这些话愚弄了一个研究麦卡锡作品的定量文体分析程序:它相信这些是麦卡锡的原创作品。
可惜大多数人在这一点上总是显得业余,很少有人能通过适当的修饰来伪装自己。例如,在“魔鬼脱衣”案中,勒索者故意将一些单词拼错(“cop”拼成“kop”,“can”拼成“kan”),目的是冒充一个没受过良好教育的人。人们。但这种文学伎俩并没有奏效,因为他反而把一些难读的单词拼写正确,这一矛盾暴露了他的伪装。
图片来自:
阿加蒙指出:“当一个人想要掩盖自己的写作风格、模仿别人的写作风格时,他往往会无意中透露出更多表明他身份的特征。”蒂姆·格兰特回忆起2003年与同事杰克·格里夫会面时调查杰米·斯塔巴克案件的经历。星巴克花了近三年的时间环游世界,通过他妻子黛比的电子邮件地址发送电子邮件,而他实际上在 31 个月前(即他们结婚后一周)删除了该地址。直到黛比的亲戚开始怀疑,他才开始模仿她的风格。 “黛比非常喜欢使用分号,而且她使用分号的方式很奇怪,”格兰特说。 “吉米突然开始大量使用分号,但方式与他的妻子不同。”他最终在返回英国后被捕并被判处终身监禁。
那么,我们可以利用计算机本身来修改文本并欺骗定量文体分析程序吗?是的,您只需上传自己的文本,然后根据程序的说明进行修改即可。现在这是一个蓬勃发展的领域,被称为“逆向计量文体学”( ),而 是推动该领域的研究人员之一。她说,因为她在这个项目上的工作,人们不断要求她透露中本聪的真实身份。最后,她在自己的网站上发布了一条声明,表示拒绝。她写道:“我研究计量文体学的目的首先是指出它对人们的危险,其次是检查机器学习的弱点,第三是开发提高匿名性的工具。”
在网上保持匿名并不容易。图片来源:.co
代码是否也暴露了程序员的身份?
保护匿名可以符合合法的专业利益,例如当学者希望保持匿名以获得资助和论文同行评审时。对于举报人甚至程序员来说,匿名可能同样重要。
您可能认为计算机源代码纯粹是功能性的,但它们也可以揭示很多有关编写它们的个人或团体的信息。就像作家有“笔纹”一样,程序员也有独特的“代码印记”,因为同一个程序可以有多种编写方式。
加州大学伯克利分校国际计算科学中心的 Sadia 表示:“程序员根据自己的舒适程度和编程技能选择不同的编程方法。”
代码模式可能包括看似微不足道的选择,例如使用空格键而不是 Tab 键来缩进代码,这会留下独特的数字痕迹。即使是给予计算机的低级指令也会因作者而异。
2015年,谷歌举办了一年一度的编程大赛(Code Jam),来自宾夕法尼亚州德雷克塞尔大学的一组计算机科学家也使用软件对1600名参赛者的编程风格进行了分析。该软件检查了代码中的关键字和语法等特征,最终成功地将近 93% 的代码与其作者进行了匹配。
通过分析程序员随时间的工作情况,团队还发现程序员的编程风格多年来一直保持不变。代码模式的这种稳定性有时很有价值,因为程序员的已知代码示例可能是几年前获得的。
但为什么程序员要保持匿名呢?我们可能会立即想到恶意软件作者逃避正义的例子,但实际上有一些正派的程序员想要隐藏自己的身份,并且出于完全合法的原因。例如,如果开源软件在某些地区被视为非法,那么这些软件的开发者可能不想透露自己的身份。
因此,自然有人呼吁开发软件来对文本进行匿名化。
问题是,这种软件真的有用吗?
截至目前,唯一向公众发布的匿名工具是“”,由德雷塞尔大学隐私、安全和自动化实验室开发。该工具于 2012 年发布,旨在将定量文体分析的准确性降低到随机猜测的水平。为此,使用了一种名为“”的风格分析软件,该软件可以通过获取几篇文章样本并评估诸如句子长度、单词选择和某些字母的使用频率等特征来描绘作者的形象。肖像。然后指导作者会修改文本并告诉他如何使作品与自己的肖像不一致,例如将时态从过去时改为现在时,或者少用人称代词等。
开发者声称,通过收集 6500 个单词的样本,它可以将一段文本与它研究过的多名作者进行比较和筛选,准确率达到 80% 到 85%。今年早些时候,另一位开发商宣布了一个名为“Emma”的人工智能项目,声称能够仅用 8000 字创建一个作者的肖像。与匿名文本相比,准确率更高。达到85%。
这些成功率远非完美,但比随机猜测要高得多。成功率如此之高的原因是分析是在类似实验室的环境中进行的,并且对于软件应该寻找哪些定量风格特征有明确的说明。然而,现实世界却不同。用于训练Emma或Emma的样本可能只是一篇短文或一封匆忙打出的电子邮件,而需要筛选的匿名文本可能是一封精心撰写的信件或一篇科学文章。纸。
未来,我们还可能会看到“反向作者分析”()技术。一方面是识别作者的技术,另一方面是掩盖作者的技术。双方军备竞赛不断加速。北卡罗来纳州立农业技术大学正在开发一种名为“作者网络”的工具,可用于帮助作者规避定量文体分析。它为作者设定风格目标,并通过可视化仪表板提供实时反馈,了解他们的书面文本与某些功能的匹配程度。这应该可以帮助作家在很长一段时间内轻松、统一地隐藏自己的风格。
同时,阿伽门农指出,避免定量文体分析的最好方法仍然是联合写作:一个人写文本,另一个人编辑文本。您不必依靠机器帮助或自己动手来修改您的写作风格;你只需要有人合作,两个或更多作者的语言指纹自然会相互抵消。
这或许也是让中本聪躲藏了这么久的策略:有人推测,躲在比特币背后的人不是一个人,而是一个群体。由于他们的语言指纹互相覆盖,他们也许仍然能够安全地潜伏在阴影中,并继续监视那些追捕他们的人。