为了让计算机读懂人类情感，全世界都是蛮拼的

发布时间：2017-09-14 14:34:41 阅读：4801+ 来源：新浪科技 作者：金素梅

　　2012年，西班牙政府面临财政危机，全面加税。一家名为 Teatreneu 的巴塞罗那喜剧俱乐部因此流失了三分之一的夜场观众，无奈之下只得接受麦肯广告的建议，门票免费但按照看时的笑容数收费。即使 80 个笑容封顶，客源还是提高了 35%，收入也提升不少。

　　负责识别、计数笑容的设备与技术来自一家叫做 Affectiva 的公司，这家公司上月刚刚完成 1400 万美元 D 轮融资。在 “情感计算”（Affective Computing）这条赛道上，他们并不孤单，近几年来全球已经涌现出了几十家创业公司。而随着移动终端普及、计算性能提升，素材库不断丰富，或许这条赛道上还会涌现出更多惊艳的产品与公司。连 Google 的前副总裁、卡耐基梅隆大学计算机科学学院院长 Andrew Moore 都表示，2016年是机器情绪识别的分水岭。

　　本文是情感经济系列文章的第一篇，系统梳理了国内外情绪识别领域的进展。如果你也在从事该领域的研究与创业，欢迎与我交流讨论（：2479422239；邮箱：syq@36kr.com）。

　　以下为正文。

　　6月12日，奥兰多枪击案，50 人死亡，53 人受伤，涉及到控枪、种族、同性恋、反恐等敏感话题。在一个摄像头遍布的世界里，我们存储了大量的影响数据，却未加利用。如果机器能帮我们自动阅读这些监控数据，分析出来对这些敏感问题极为反感甚至愤怒的人群，加以、预警，这样的悲剧是否能避免呢？

　　仅从技术的角度考虑，这并非天方夜谭、不可实现。让机器懂得人类情绪，已有多年的研究。而自 1997年MIT 媒体实验室的 Rosalind Picard 教授提出 “情感计算” 一词，帮助计算机识别、理解、表达和适应人的情感，赋予机器更高的、全面的智能，还成就了不少初创公司。

　　或许几年之后，当我们回放《Lie to Me》这部美剧时，都要吐槽 “为什么还有博士要做这个，让计算机做不就好了么？”

　　喜怒不形于色，是中国人追求的境界之一。但这可能仅仅是一种理想状态。心理学家 Paul Ekman（Lie to me 的主人公原型）的研究已经证明，无论人的性别、年龄、文化背景，都具有六种基本的情感，即愤怒、厌恶、恐惧、快乐、悲伤和惊讶，且都会在每个人了脸上无差别的呈现出来。就像《Lie to Me》里演的那样，如果一个人对你笑的时候只牵动了颧大肌，那么这八成是假笑，因为一个真诚的笑容除了颧大肌以外眼轮匝肌也会被牵动。

　　致力于解析这些情绪，Ekman 博士将他们分解成 46 个独立动作，汇编了一套面部动作编码系统，就是举世闻名的 FACS 系统。这也奠定了机器表情识别领域研究和应用的基础。Lie to me 里的故事，总是扣人心弦，但真实的世界里，这种 “读心术” 被广泛应用，从商业到安防、医疗。不同的是，这里没有 Dr。 Cal Lightman，只有一台台高速运转的计算机，和一行行已经被验证过的代码。代码的提供方则是在这个领域有所积累的创业公司。

　　让计算机像 Dr。 Cal Lightman 一样，通过表情识别用户的情绪，是最常用的一种实现路径。毕竟人类 90%的信息是通过视觉获得。表情识别领域最知名的两家公司非 Affectiva 和 Emotient 两家公司莫属。前者是由情感计算概念的提出者 Rosalind Picard 教授和她的埃及学生 Ranael Kaliouby 一起创办，已经完成 D 轮融资。后者的团队中则有 Paul Ekman 博士本人坐镇，2016年年初被苹果收购。

　　不论是 Affectiva 、Emotient，还是这个领域其他有名的初创公司，诸如 Realeyes 、Eyeris、Nviso 、 Kairos，都是建立在 Ekman 博士的研究基础之上，实现逻辑基本都是捕捉并识别表情特征，常用的实现方法主要有四种：形变特征提取法（将人脸面部的一些特殊形变信息，如纹理变化或几何形变提取出来）、统计特征提取法（用统计法对人脸表情图像的特点来进行描述）、运动特征提取法（将某些特征区或特征点的运动信息，如特征区的光流变化或特征点的运动距离提取出来）、模型特征提取法（以人脸为基础上，构建二维或三维模型，通过调节模型参数的变化来匹配人脸图像当中的人脸部分确定表情）。

　　这一领域的研究自 20 世纪 90年代就已开始，国外一些著名的研究机构，如麻省理工、卡内基梅隆、ATR 研究所等都异常活跃，但直到最近五六年来才开始逐渐商业化。一是因为人脸数据库的丰富及完善，二是因为市场个性化需求的不断涌现。互联网在其中功不可没，每天有大量的照片上传至网络，提供了可供学习、研究、训练的素材。随着智能手机的普及，拍照效果优质的摄像头更加廉价易得，几乎成了人们的标配。企业对于个性化精准运营的需求，日益强烈。

　　相比国外，国内研究起步要晚一些，中科院、清华等院校在 20 世纪 90年代末开始了相关研究。人脸表情数据库也在逐渐完善和丰富，除了单一表情数据库，也出现了复杂表情数据库。近年来也出现了阅面、Facethink 、海妖等要做情绪识别的创业公司。

　　相比于表情，语音是人们表达情感最直接、最有效、最自然的方式，通常包括语义信息（文本）和非语义的的声学信息（语音），在学界、商业领域均有研究与应用，代表性公司 AlchemyAPI（文本）、Beyond Verbal（语音）、EI Technologies（语音）也频频获得资本和大公司青睐。

　　声学方面，最早的语音情感研究始于 20 世纪 80年代，当时已经有学者研究如何使用统计特征法进行情感分类了。90年代初，MIT 多媒体实验室构建了一个 “情感编辑器”，收集人的语音信号，结合面部表情、生理信号，识别人类情绪。直到进几年来，IEEE 推出专门的期刊，筹办专业竞赛，学界的研究才大幅增加。中文的语音情感研究指导近十年来才开始，比较资深的研究人员主要集中在清华、浙大、东南大学以及中国科学院语言研究所等。

　　这一领域的创业公司也要晚于表情识别出现。直到 2012年，全球才出现了第一家这个领域的创业公司——Beyond Verbal 。这家公司于 2013年5月和7月获得两笔投资，2014年9月再度获得330 万美元融资。目前，已经有 161 万样本，API 产品可提示 11 个不同情绪组，包括愤怒、孤独感、自制、快乐和兴奋等。这个领域的其他知名公司还包括了英国 EI Technologies、美国 MIT 的 Cogito。

　　这些公司语音情感识别的实现路径也是提取特征，这些特征主要包括韵律特征、音质特征（共振峰、频谱能量分布，谐波噪声比等）、谱特征。其中，韵律特征包括基频、语速、发音持续时间等，基本能够体现说话人的大部分情感信息，是最为广泛使用的方法。近年来，也出现了将韵律特征与音质特征结合的识别方法。

　　在生理信号情绪识别方面，国内外已经有不少研究。这些信号主要有心电信号ECG、脑电信号EEG、皮肤电信号GSR、呼吸信号RSP、血流量脉冲信号BVP、肌电信号EMG、皮肤温度信号等。近年来，随着可穿戴设备的普及，应用也随之增加。从卖萌的日本 Neocomimi 猫耳朵，到知性的芬兰 “情绪花瓣” Moodmetric 智能手环，从服务企业的 Q Sensor 腕带，到治疗相关疾病的 SHORE 智能眼镜（与 Google Glass 结合），层出不穷。

　　不过，对大多数普通人来说，上面这些都还是陌生的术语。事实上，除了少数用于情绪识别的可穿戴设备以外，这个领域的应用，尤其是表情识别应用，大多服务 B 端客户，或帮助商业客户精准了解用户情绪，提升广告投放的效果；或帮助医院客户管理、治愈自闭症；或帮助政府客户进行安全监控。

　　情绪识别技术最早被应用于帮助自闭症患者适应社会，所以不少初创公司还有 “情怀” 的一面。Affectiva 就是起源于一个帮助自闭症患者的项目，创业前期创始团队就与前 CEO 因为这一问题发生过争论，最终前 CEO 黯然离场。英国公司Realeyes 不仅热衷于帮助自闭症患者，联手 Google Glass 开发应用，技术团队还表示很希望未来能做出帮助人变快乐的产品。Eyeris等公司，则在研究将情绪识别与自动驾驶技术结合，减少不必要的交通事故。

　　“情怀” 之外，这还是一个赚钱的生意。细看 Affectiva 、Emotient、Realeyes 、Nviso 、Kairos、 Sightcorp 、 Imotions等公司的合伙伙伴，已经包括了宝洁、联合利华、可口可乐等零售大厂。Affectiva 公司更是为 “根据心情推送广告” 申请了专利。情绪影响消费，毋庸置疑。或许在未来，还有哪家 “丧心病狂” 的公司会想法设法识别并影响用户情绪，促进消费吧，就像现在基于情绪识别的自适应游戏和教育应用那样。

　　正因为其中巨大的潜力，大公司对情绪识别日益看中。Facebook 早在 2012年开始就在进行对用户的情绪试验。微软在去年底推出了牛津计划，帮助用户识别照片中的情绪，近期还在新加坡展示了名为 “Magic Mirror”（魔镜）的产品，“看心情” 推送新闻。IBM 不仅收购了 AlchemyAPI，还与软银合作赋予 Pepper 机器人 Waston 的能力。在 AI 上进展稍慢的苹果也收购了 Emotient

　　这也决定了行业中大多数创业公司的商业轨迹——提升技术、做现金流、被收购。这个领域的创业公司少有拿到大额融资的，即使最知名的 Affectiva D 轮融资也只拿到了 1400 万美元，Emotient 也是因为一直没有能够以合理的价格获得 C 轮融资，才决定接受苹果收购的。这是因为作为技术提供商，这些公司只要拥有了客户，就差不多能拥有现金流，所以这个领域过 C 轮的公司寥寥无几，大部分公司基本都只融了很少的钱。此外，作为一项敏感技术的提供商，如果主动用来积累用户数据，必须也会遭受道德的质疑，几乎没有做成大平台的可能。 CBInsight 的数据也基本证明了这一点，过去三年，超过 20 家研 AI 公司被行业巨头收购，买房包括 Google、Amazon、Apple、IBM、Yahoo、Facebook、Intel、Salesforce 等，而收购还在加速，仅在 2016年第一季度就有四次收购。

　　相比于国外，国内这个领域的创业都还是处于起步阶段。比如海妖在 2015年发布了情绪识别的 API，阅面推出了国内第一款情感认知引擎 ReadFace，另一家创业公司 Facethink 也刚刚完成新一轮融资。但起步较晚，不仅要面临国外公司产品的竞争，还要面对诸如微软这些大玩家，或许这些公司还要更好地找到市场痛点，推出更优质的解决方案、服务甚至应用。

　（加入新浪创业社群，直通新浪创业专属活动，对接一线投资机构。号sinavc）

上一篇：毒快递事件续:死者系

下一篇：美团被曝拖欠工资 30

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！