获取过多的数据已经改变了学术研究的方法,也可能改变了研究本身的基本原则。
——2020年3月20日,Dylan Walsh(迪伦·沃尔什)
“我们看到生活被酗酒、残暴和邪恶所诅咒,被无知和贫穷所压垮,而工业却被自己盲目的斗争所扼杀,教育仍在痛苦地上升,而且常常从阶梯的第一级滑落。”
1903年,英国航运大亨查尔斯·布斯(Charles Booth)在严肃地总结伦敦人民的生活和劳动时如是写道,伦敦是他对当时世界最大城市生活条件的里程碑式研究。
该出版物被认为是最早对社会问题进行的重要调查之一,其目的和方法在整个20世纪都对政府和学术研究人员产生了影响。布思通过亲自采访收集了报告的数据,他经常在晚上和周末,在时间允许的情况下亲自进行采访。
这个项目花了他15年才完成。
对于那些在布斯之后,以了解人们生活的文化和经济细节为己任的人来说,数据收集的挑战依然存在。例如,在大萧条和新政期间,美国政府派出采访者蜂拥全国各地,通过与城市、城镇和乡村居民的面对面会议收集有关经济的信息。这不是一件小事。第二次世界大战见证了一个类似的时间和资源密集型过程,尽管调查有时是通过邮件进行的。
与所有这些相比,今天的研究人员很容易做到。当斯坦福大学商学院(Stanford Graduate School of Business)劳工经济学家兼高级副院长保罗•奥耶(Paul Oyer)想要研究家族史如何影响企业家的发展轨迹时,他和一位同事只需下载每一位挪威劳动年龄公民的数据(这一人口与1900年的伦敦相当)就可以进行分类,以符合他们的问题,然后深入分析。
奥耶说:“我们研究了他们从事的工作,他们父亲从事的工作,他们挣了多少钱,等等。”。“挪威有人收集了这些信息以便我们使用,这是社会科学研究的一大进步。”
一个好的、丰富的记录
确实是大进步。数据的过剩已经成为我们这个时代的一个决定性特征。现在漂浮的数字信息字节比可观测宇宙中的恒星还要多。我们生活中广阔的数字足迹提供了我们行为的精细记录,无论是琐碎的还是重要的。所有这些信息都可以用机器学习算法来解释,如果设计得当的话,这些算法可以在堆积如山的非结构化数据中发现模式和关系——这是一项完全不能由人类单独管理的任务。
奥耶说:“这些工具开辟了一系列我们以前无法提出的全新问题。”。“人们总是对某些事情感到好奇,但在过去,我们会举手说,‘没办法知道。’现在我们可以知道了。”
除了能够以惊人的规模通过直接的数据处理来回答新问题之外,一个更深刻的变化可能正在进行,不仅改变了旧的调查方法,而且可能改变了调查本身的基本原理。
斯坦福大学商学院组织行为学副教授阿米尔·戈德伯格(Amir Goldberg)说:“在某些方面,机器学习方法和数据的可用性使我们能够重新思考科学是如何完成的。”。
几个世纪以来,科学的标准方法一直是发展一个假设,对一个特定的样本进行测试,然后查看结果。如果你找到了你的假设,那么一点统计分析可以证实这些结果在面对随机机会时的可靠性。
戈德伯格在2015年发表的论文《为法医社会科学辩护》中指出,这一过程很容易出错,他将其比喻为侦探在犯罪现场出现时,脑子里想着一个嫌疑人,然后只寻找能证实他们预感的证据。在一些学科中,对科学方法的漫不经心,再加上对统计数据的复杂运用,导致了一场复制危机,大量过去的结果没有受到审查——这相当于侦探们被抓到将罪行归咎于无辜者。
戈德伯格说,机器学习使研究人员能够采取一种更类似于适当取证的调查方法:检查所有可用的证据,然后权衡不同假设的可能性,找到最可能的假设。
戈德伯格说:“你不需要期待什么,也不需要检验这个假设,你只需要分析所有的数据,生成数百万个假设,然后找出哪些与数据最一致。”。“这不是一个防失败的方法,有很多缺陷和挑战需要考虑,但如果走到极端,它可以从根本上改变我们做科学的方式。”
“在管理方面,我们试图建立一个引擎,使斯坦福成为进行这种面向数据的研究的最佳场所。”
——Jonathan Levin(斯坦福大学商学院院长)
越来越接近现实
过去,很多研究,特别是行为研究,都停留在技巧的必要基础上。斯坦福大学商学院组织行为学副教授Michal Kosinski说:“记录世界上的行为是极其困难的,因此我们在实验室里用少数人进行了精心控制的实验,我们重新创造了我们想要研究的条件。”。
但这一过程代价高昂,缺乏学术界所称的“生态有效性”,或现实中细微的细微差别。实践和伦理的考虑也排除了许多重要现象的研究,如抑郁症和极端主义,不能在研究参与者中进行诱导。
Kosinski说:“但现在我们都随身携带着这些小设备,基本上可以全天候记录我们的生活。”。智能手机和电脑为研究人员打开了一扇窗户,通过它,研究人员可以更不显眼地观察和测试人类心理和行为中先前被掩盖的方面。
这些技术也不能提供微不足道的见解。Kosinski和两位合著者在2015年进行的一项研究中,只使用了Facebook的喜好来分析个人性格特征,如内向、认真和神经质。科辛斯基发现,只要分析10个“喜欢”,电脑就能比同事更准确地确定某人的个性。有了70个“赞”,这台电脑可以比亲密的朋友做得更好;有了150个“赞”,它可以和配偶竞争。
这片浩瀚的信息海洋得到了机器学习解释文本、音频和图像等新型数据的能力的补充,这一能力为学术研究提供了更全面的世界图景。
考虑一下戈德伯格最近的工作。在招聘网站Glassdoor的许可下,他用电脑“读取”了50万份员工对所在公司的评价。该算法能够利用主题建模,基于周围词的星座来识别词义,从而推断出不同企业的文化特征。
A公司重视合作和B公司的竞争力吗?短期目标和长期目标呢?一个特殊的人?多元化的人?
该算法梳理了大量的非结构化文本,并从每一篇评论中提取了这些微妙之处。(戈德伯格发现,重视多样性会降低企业的效率,但会增加企业的创新能力。)
戈德伯格说,在机器学习之前的日子里,要获得50万条评论的忠实度是不可能的(见相关文章)。有两种选择。要么选择一个小得多的样本,然后人类(即本科生和研究生)将每个评论与一组预先设想的文化类型进行手动匹配,要么使用“非常、非常、非常粗糙的关键词分析,每提到一个词都只指一件事。”
第二种可能性有明显的缺陷,因为一个词的含义往往因上下文而异:“射击”在谈论医学时是指一种东西,在谈论篮球时是指另一种东西,在谈论犯罪时是指另一种东西,在谈论酒吧时是指另一种东西。这样的理解深度在简单地使用关键字时就被洗掉了。
以戈德伯格的研究为例,员工对公司的评价可能包括“多样性”一词,但从基本的关键词分析来看,不清楚他们是在谈论公司是喜欢它还是讨厌它。
“这些机器学习算法不如人类理解语言的方式,”戈德伯格说,“但它们的可伸缩性要高得多,而且远远优于基于这个或那个关键字的文本暴力还原。”
机器人作为研究者
在大数据集上使用机器学习的好处并不总是显而易见的。六年来,斯坦福大学商学院教授Susan Athey一直担任微软咨询首席经济学家,与搜索工程师一起工作,涉足机器学习领域。
她回到校园,鼓吹这一工具的威力,但她在社会科学领域的同事起初不屑一顾,理由是这项技术无法回答他们感兴趣的那种因果“如果”问题:如果有更多的创新,会发生什么?如果我们提高了最低工资,或者纽约市对通勤者实行拥堵收费,或者提高了企业税率,那又如何呢?
相反,机器学习擅长于所谓的后向预测。Athey用一家酒店来说明这一点:假设你想要一个基于房价预测酒店入住率的算法。如果你用历史数据来训练它,一个基本的趋势就会出现:高房价与高入住率相关。这是一个成功的预测模型,但这将是一个糟糕的因果模型。如果你问,“如果我提高价格会怎么样?“这个算法可能错误地认为,提高入住率的最佳方法是提高房价。
这就是为什么Athey的同事没有立即加入。“在过去20年的社会科学中,我们的实证研究80%到90%是关于因果关系的,只有10%到20%是关于预测和描述的,”Athey说。“因此,现成的机器学习看起来并不立即适用。”
然而,预测模型通常是回答假设问题的一个组成部分,因此,Athey把把机器学习的好处与因果社会科学研究的核心实践相结合作为她的使命。
例如,她想研究如果价格发生变化,消费者对特定产品或产品类别的需求会发生什么变化。回答这个问题首先需要了解消费者需求随时间的变化:除了价格以外的其他变量是如何影响它的?它随季节波动吗?一周中的哪一天?按天气类型?需求与政治气候或天然气价格等更不寻常的变量之间是否存在关系?
在过去,Athey会考虑哪些变量最重要,然后设计一个模型来控制他们-一个有限的努力,给定的变量的数量和关系的复杂性,人类可以合理地考虑。
机器学习算法是另一回事。
在过去的几年里,Athey和她志同道合的同事们用机器学习算法对一个又一个计量经济模型进行了改进。结果是他们的预测能力普遍提高。
她说:“我喜欢把它想象成一个机器人研究分析员,可以测试成千上万个变量的数十亿个函数关系,找到最有效的一个。”。“我们还没有弄清楚如何用机器学习在概念上做任何深入的工作,但我们已经找到了制作一个工作非常好的机器人助手的方法。”
黑箱困境
这种机器人辅助的一个中心问题是机器学习算法作为黑匣子运行。研究人员往往无法最终解释算法是如何得到结果的。人工开发的预测模型对人类来说仍然清晰可见,齿轮清晰可见。当计算机承担这项任务时就不是这样了。
对Athey来说,这是一个重要的学术挑战。“假设我想运行这些算法中的一个,但我的目标是最终发现,”Athey问道。“如果我不只是想要最好的答案,还想获得理解呢?”
当机器学习不能表现出它的工作时,这样的努力就会受到阻碍——这种担忧与中学数学教师的要求相呼应。Athey议程的一部分是通过使机器学习的结果不仅仅作为解决方案,而是作为导致解决方案的过程来理解来解决这个问题。
这项工作具有深刻的实际意义。Mohsen Bayati是斯坦福商学院的一位运营、信息和技术领域的副教授,专门研究医疗保健,他看到算法在从疾病诊断到医院人员配置水平的各个学科中给出了极其精确的建议。
在许多这样的应用中,机器学习经常比有经验的医生表现得更好。但在医疗保健行业,决策可能会带来直接的生死攸关的后果,人们在不知道为什么建议采取行动的情况下,会犹豫是否采取行动。
“这对行为研究者来说是一个新的有趣的挑战,”Bayati说。“我们需要找到一种方法,将这个黑匣子建议的复杂性呈现给医院经理或临床人员,这样她才能做出最明智的决定。”
孵化“新大事”
这些新工具不仅重塑了提问的种类和寻求答案的方法,而且重塑了斯坦福大学商学院等机构的基本研究基础。
例如,教师们正在重新设想他们作为导师和顾问的方式,并逐渐摆脱一次只与少数学生密切合作的传统模式。获取、组织、清理,然后对庞大数据集的深度进行分析,需要一种不同的方法,与主要研究人员管理的实验室的硬科学模型相当。
例如,Golub Capital社会影响实验室(Social Impact Lab)在Athey的指导下,帮助社会部门组织通过机器学习找到效率,它依靠广泛的专业知识来完成使命。这里有8名博士后、24名博士生和24名硕士生。来自市场营销、金融、经济、工程、计算机科学、教育和社会学的教员都隶属于该小组。
“许多社会科学家正朝着这个方向发展,在他们的指导下建立实验室式的结构,由一群人组成,”斯坦福大学商学院院长乔纳森·莱文(Jonathan Levin)说,他在任期内优先推进这类研究。“由于这些团体需要更多的资源来获取数据,并与公司和政府机构合作,我们在行政方面已经尝试建立一个引擎,使斯坦福成为进行这种以数据为导向的研究的最佳场所。”
就像一棵树的根系统,莱文和斯坦福大学商学院的工作人员建立了后台基础设施,帮助大数据研究蓬勃发展。这包括一个用于校园实验的行为实验室,一个扩展的图书馆研究中心,以及访问数据、分析和研究计算团队,该团队提供一系列支持服务,从代码优化到基于云的超级计算机上的时隙。
研究基金也有更大的灵活性,允许教师与大学各系的博士生和博士后合作。一个数据采集小组帮助学生和教授与数据提供商、私营部门和政府机构谈判许可证和合同,这是大数据研究的一个新组成部分。
莱文说:“有一些重要的问题必须得到承认,例如,当你与使用专有数据的公司合作时,要确保研究的完整性和可信度。”,“当我们与外部组织合作时,我们仍在研究框架应该是什么样的,以确保研究是可复制的,保密性得到很好的保护,学术自由得到维护。”
尽管面临着这些挑战,但鉴于很少出现革命性的新研究工具扰乱学术界,普遍的情绪还是令人兴奋的。莱文指出,二战后社会科学界采用了形式化建模。四十年后,因果推理方法发展起来。现在,他说,我们正在见证社会科学领域大数据和机器学习的曙光。
“每隔一段时间就会有一件新的大事发生,”莱文说,“这就是新的大事。”
原载:https://www.gsb.stanford.edu/insights/research-revolution