很多人宣布2020年为有史以来最糟糕的一年。尽管这样的描述似乎是主观的,但根据一项衡量标准,它的确是正确的。

衡量标准是Hedonometer,它是一种计算机化的评估我们幸福和绝望的方式。它在佛蒙特大学(UVM)的计算机上日复一日地运行,每天在Twitter上刮掉大约5000万条推文,然后快速而简明地读取公众的情绪。根据Hedonometer的数据,2020年是自2008年开始追踪以来最恐怖的一年。

该Hedonometer是一个相对较新的任务计算机科学家一直在努力为超过50年的化身:使用计算机来评估的话的情感基调。为了制造Hedonometer,UVM计算机科学家Chris Danforth必须教一台机器来了解这些推文背后的情绪-没有人可能会全部阅读它们。近年来,这一过程称为情感分析,取得了重大进展,并且正在发现越来越多的用途。

除了获取Twitter用户的情绪温度外,研究人员还使用情绪分析来衡量人们对气候变化的看法,并测试传统知识,例如音乐中的小和弦是否比大和弦更难听(以及多少)。渴望获得有关客户感受信息的企业正在利用情感分析来评估Yelp等平台上的评论。一些人正在使用它来衡量员工在工作中内部社交网络上的情绪。该技术还可能具有医疗用途,例如识别需要帮助的抑郁症患者。

Danforth说,情感分析使研究人员能够检查大量以前费时且难以收集的数据,更不用说研究了。“在社会科学领域,我们倾向于衡量容易完成的事情,例如国内生产总值。幸福是一件很难衡量的重要事情。”

 

解构“炖汤”

您可能会认为,情感分析的第一步是教计算机了解人类在说什么。但这是计算机科学家无法做的一件事。理解语言是人工智能中最臭名昭著的难题之一。然而,关于书面文字背后的情感有很多线索,即使不理解单词的含义,计算机也可以识别出来。

情绪分析的最早方法是字数统计。这个想法很简单:计算肯定词的数量,然后减去否定词的数量。可以通过加权以下词语来获得更好的度量:例如,“优秀”传达的情感要强于“良好”。这些权重通常是由人类专家分配的,并且是创建情感分析词典经常使用的单词到情感词典(称为词典)的一部分。

但是字数统计有固有的问题。一种是它忽略单词顺序,将句子视为一种单词炖煮。字数统计可能会漏掉上下文相关的提示。考虑一下此产品评论:“我很高兴我的iPhone像我的旧丑陋Droid。” 该句子有三个否定词(“无”,“老”,“丑陋”),只有一个肯定的词(“ happy”)。当人们立即意识到“旧的”和“丑陋的”指的是另一部手机时,对于计算机而言,它看起来却是负面的。比较带来了更多的困难:“什么都不像”是什么意思?这是否意味着演讲者没有将iPhone与Android进行比较?英语可能会令人困惑。

为了解决这些问题,计算机科学家越来越多地转向更复杂的方法,这些方法使人类完全脱离了循环。他们使用机器学习算法来教计算机程序识别模式,例如单词之间的有意义的关系。例如,计算机可以学习到单词对(例如“ bank”和“ river”)经常一起出现。这些联系可以为意义或情感提供线索。如果“ bank”和“ money”在同一句子中,则可能是另一种银行。

这种方法的重要一步是在2013年,当时Google Brain的Tomas Mikolov应用机器学习构建了一种称为单词嵌入的工具。这些将每个单词转换为50到300个数字的列表,称为向量。数字就像是描述一个单词的指纹,尤其是其他容易与之搭配的单词。

为了获得这些描述符,米科洛夫的程序查看了报纸文章中的数百万个单词,并尝试根据给定的前一个单词来预测文本的下一个单词。Mikolov的嵌入识别同义词:“ money”和“ cash”之类的词具有非常相似的向量。更巧妙地,单词嵌入捕获了基本的类比-例如,国王是王后,而男孩是女孩,尽管它不能定义这些词(鉴于此类比喻是SAT考试评估成绩的一部分,所以是一项了不起的壮举)。

Mikolov的单词嵌入是由具有一个隐藏层的神经网络生成的。松散地模仿人脑的神经网络已经使机器学习取得了惊人的进步,其中包括AlphaGo(学会了玩Go的游戏要比世界冠军更好)。Mikolov的网络是一个故意较浅的网络,因此它对于各种任务(例如翻译和主题分析)很有用。

带有更多“皮质”层的更深层的神经网络可以在特定句子或文档的上下文中提取有关单词情感的更多信息。常见的参考任务是计算机读取Internet电影数据库上的电影评论并预测评论者是赞成还是反对。最早的词典方法达到了约74%的准确性。最老练的人上升了87%。2011年,第一批神经网络得分为89%。如今,它们的准确率高达94%,已接近人类。(幽默和讽刺仍然是绊脚石,因为书面文字可能从字面上表达出与预期情绪相反的意思。)

尽管神经网络有很多好处,但是基于词典的方法仍然很流行。例如,Hedonometer使用词典,而Danforth无意更改它。尽管神经网络在某些问题上可能更准确,但它们是有代价的。仅培训阶段就是您可以要求计算机执行的计算量最大的任务之一。

沃顿商学院的罗伯特·斯汀(Robert Stine)说:“基本上,您受到的电量有限。”他在《 2019年统计与应用年度评论》中涵盖了情绪分析的演变。“谷歌用来训练AlphaGo的电量是多少?我听到的这个笑话足以使海洋沸腾。

除了电力需求之外,神经网络还需要昂贵的硬件和技术专业知识,并且缺乏透明度,因为计算机正在寻找如何解决任务的方法,而不是遵循程序员的明确指令。“用词典来纠正错误更容易,”芝加哥伊利诺伊大学的刘冰说,他是情感分析的先驱之一。

 

衡量心理健康

尽管情感分析通常属于计算机科学家的职权范围,但它在心理学中具有深厚的渊源。1962年,哈佛大学心理学家菲利普·斯通(Philip Stone)开发了通用询问器(General Inquirer),这是第一个用于心理学的计算机通用文本分析程序。在1990年代,社会心理学家詹姆斯·潘纳贝克(James Pennebaker)制定了早期的情感分析程序(语言查询和字数统计),以期了解人们的心理世界。这些较早的评估揭示并证实了专家长期以来观察到的模式:被诊断为抑郁症的患者具有独特的写作风格,例如更频繁地使用代词“ I”和“ me”。他们使用了更多带有负面影响的词,有时使用了更多与死亡有关的词。

现在,研究人员正在通过分析社交媒体帖子来探讨言语和写作中心理健康的表现。丹福思和哈佛大学心理学家安德鲁·里斯,例如,分析人与写抑郁症或创伤后应激障碍的诊断正式的Twitter的职位之前诊断(参与者的同意)到。多达九个月前开始出现抑郁的迹象。Facebook拥有一种算法来检测似乎有自杀风险的用户。人类专家会审查这些案例,并在有必要的情况下向用户发送提示或热线电话号码。

然而,社交网络数据距离用于患者护理还有很长的路要走。隐私问题是显而易见的问题。此外,仍有工作要做以证明这些分析的实用性:许多评估心理健康的研究未能正确定义其术语,或者没有提供足够的信息来复制结果,美国人类中心计算专家Stevie Chancellor说西北大学,并合着了75篇此类研究的最新评论。但她仍然认为,情绪分析可能对诊所有用,例如,在对新患者进行分类时。即使没有个人数据,情绪分析也可以识别趋势,例如大流行期间大学生的总体压力水平,或引发饮食失调患者复发的社交媒体互动类型。

 

读心情

情绪分析还解决了一些更轻松的问题,例如天气对情绪的影响。2016年,现任柏林马克斯·普朗克人类发展研究所的尼克·奥伯拉多维奇(Nick Obradovich)分析了Facebook的约20亿条帖子和Twitter的10亿篇帖子。一英寸的降雨使人们表达的幸福感降低了大约1%。低于冰点的温度将其降低约两倍。在一项后续研究(更令人沮丧的是)中,Obradovich和同事们通过Twitter来了解有关气候变化的感受。他们发现,在发热量增加约五年之后,Twitter用户的“正常”感觉发生了变化,他们不再发布有关热浪的推文。数据显示,尽管如此,用户的幸福感仍然受到影响。“这就像煮青蛙一样,”奥布拉多维奇说。“这是我做过的任何论文中最令人困扰的经验发现之一。”

周一被认为是一周中最糟糕的一天的声誉也已成熟,可以进行调查。Danforth的Hedonometer对推文的早期分析发现,尽管“ Monday”是引起最负面反应的工作日名称,但周二实际上是人们最难过的一天。当然,星期五和星期六是最快乐的日子。但在2016年美国总统大选后,每周模式发生了变化。丹佛斯说,尽管可能仍然每周发出信号,但“叠加在这些事件上引起了我们的注意,并且所谈论的不仅仅是生活的基础。” 翻译:在Twitter上,政治永无止境。他说:“一周中的任何一天都是最难过的。”

测试中的另一个不言而喻的是,在音乐中,大和弦比小和弦更快乐。印第安纳大学计算社会科学专家Yong-Yeol Ahn通过分析123,000首歌曲的每个和弦所伴随的歌词情感来验证了这一概念。大和弦的确与更快乐的单词相关联,而小和弦则为6.2(1-9)。尽管差异看起来很小,但大约是圣诞节和Hedonometer正常工作日之间情感差异的一半。安还比较了流派,发现1960年代的岩石是最幸福的。重金属是最不利的。

 

商业敏锐度

商业界也正在使用该工具。情感分析已被公司广泛使用,但是许多人都没有谈论它,因此很难准确地评估它的受欢迎程度。“每个人都在这样做:微软,谷歌,亚马逊,每个人。其中一些有多个研究小组,”刘说。一种容易获得的兴趣度量是可公开获得的大量商业和学术情绪分析软件程序:2018年基准比较详细介绍了28个此类程序。

一些公司使用情绪分析来了解客户在社交媒体上的讲话。作为一个可能是伪造的例子,Expedia Canada于2013年开展了一项营销活动,但由于人们讨厌摇摇欲坠的背景小提琴音乐,它以错误的方式进行了病毒式传播。Expedia很快就用新的视频取代了烦人的广告,这些视频取而代之,例如,他们邀请了一个心怀不满的Twitter用户砸小提琴。人们经常声称,情绪分析使Expedia意识到了社交媒体的强烈反对。尽管这很难确定,但肯定是情感分析可以完成的事情。

其他公司使用情绪分析来监控员工满意度,例如,通过监控公司内部社交网络。例如,IBM开发了一个名为Social Pulse的程序,该程序监视公司的Intranet以查看员工的抱怨。出于隐私方面的考虑,该软件仅查看与整个公司共享的帖子。即便如此,这种趋势仍使Danforth感到困扰,他说:“我担心的是员工的隐私与公司的底线不相称。这在道德上是粗略的。”

随着情感分析变得越来越普遍,道德可能会继续成为一个问题。公司,精神卫生专业人员和考虑使用此方法的任何其他领域都应牢记,尽管情感分析无穷无尽,但兑现这一诺言仍然充满挑战。作为分析基础的数学是简单的部分。困难的部分是了解人类。正如刘所说,“我们什至都不了解什么是了解。”