人工智能之殇——AI项目为何屡战屡败?

“时代在进步,科技在发展,人工智能这项先进技术已经渗透到了人力资源、供应链、多层次营销等各个领域。整体发展前景和态势似乎很不错,一片光明。”

时代在进步,科技在发展,人工智能这项先进技术已经渗透到了人力资源、供应链、多层次营销等各个领域。整体发展前景和态势似乎很不错,一片光明。

但,对于开展自己的人工智能项目,人们的态度通常喜忧参半。

一开始听到“人工智能”这个词,大家一定会觉得很棒,很神奇。的确,人工智能的“成功故事”常年在坊间流传,应用人工智能来提高销量和营业额的例子也比比皆是。因此,人们可能会认为人工智能项目成功的机会一定非常多。然而另一方面,人们却从未想过项目失败后该怎么办?如何来化解风险,避免浪费时间和金钱在某个根本不可行的项目上?诸如此类的问题还有很多,但是面对这些问题我们也并非束手无策,解决的办法还是有的。

目前,人工智能项目为何屡屡受挫?

本文将就这一问题展开讨论,探究其失败背后的原因,比如数据不足等因素。

人工智能的前景一片光明,对吗?

人工智能之殇——AI项目为何屡战屡败?

然而,最近发布的一项研究表明,近年来约有85%的人工智能项目都以失败告终。

这个时候人们可能会说,“放心!我不会失败的,我将是那成功的15%。”负责任地说,可能会成功,也可能会失败,毕竟目前一切还尚未可知。现在人们需要做的就是期待最好的结果,并且同时进行策略性思考。总而言之,最重要的就是要提前熟悉相关材料,准备充分,并且谨慎对待每一步。

失败的原因千万种

人工智能项目失败的原因有千万种,即使没有千万种也不止一种。

人工智能给人类带来了无限可能,当然其中也包括失败的可能,而且还不少。某个人工智能项目之所以会失败,可能是由于数据策略出错了,业务与技术的对接出了问题,也可能是某些人为因素。当然,除了以上列举的这些,可能出问题的地方还有很多,笔者并不是为了吓唬大家。现在,正好趁着新年到来的火热气氛,笔者在这里给各位讲个“鬼故事”(让气氛更火热)——人工智能之殇,是为了提醒大家未来在处理人工智能时务必多加小心。

切记,未雨绸缪,才能防患于未然。

1.“大数据”不够“大”

近年来,“大数据”一词的热度有增无减,然而,大众同时也对其抱有种种疑惑。所谓的“大”到底是多“大”呢?又需要多少“数据”呢?的确,“数据”确实是问题的关键,这不仅仅体现在数据量的不足上,而且也反映在数据标记和训练数据等诸多方面。

一个人工智能系统的成与败,主要还是取决于输入数据的质量。因此,如果背后没有足够的数据支持,又怎么能够得到实质性的结果呢?但具体来说,数据本身到底会出什么问题呢?

首先,数据不足就是一大问题。如果正在运行一个小型项目,并且相关数据也很有限,则需要提前与经验丰富的人工智能顾问或者数据科学家进行商讨,从而了解自己对数据集的期待以及现状。那需要多少数据才够呢?

说实话,这个问题不好回答,因为要视具体情况而定。所需数据量的多少主要取决于使用案例、数据类型,以及预期结果。然而,有时经常会听到人们说“当然是越多越好了”。反正就数据科学项目而言,的确如此。

人工智能之殇——AI项目为何屡战屡败?

2.数据的选择

虽然有时候的确收集到了很多数据,但是这些数据都是合适的吗?人们可能会觉得既然所有需要的数据都有了,那项目一定会成功的!

且慢,有时候数据看起来似乎很多,但却不一定合适。如果你是做电商的,可能有很多关于你的客户的信息,比如他们的姓名、住址、发票,甚至还有他们的银行卡信息。因此,你知道他们买了什么,什么时候买的,也知道他们浏览了哪些东西,并且什么时候通过什么方式联系过你。

但是,这其中哪些数据是必需的呢?简单来说,解决不同的问题需要不同的信息。比如,当你要执行一个推荐系统时,就没必要使用所有的人口数据,反而必须收集客户的购买记录。但是,如果要用于预测客户流失,则需要考虑到其他各种因素。

因此,即使全世界的数据都被你收入囊中(事实上这也是不可能的),也要考虑清楚哪些数据是必需的。的确,很多人都非常乐于疯狂地收集各种数据,甚至越多越好,但是,其实根本没有这个必要。总而言之,只选对的,不选多的,因为选得再多也没意义。

3.数据标注

给人类贴标签——当然;给数据贴标签——从不。

在完成某个人工智能项目时,不仅仅需要数据的存在,而且还需要对数据进行标记,才能使其有意义。如果收集到的数据杂乱无章,人类则需要另外花费一定时间来完成数据标记这项枯燥乏味的工作。数据标记任务的确很无趣且繁琐,以至于现在很多公司根本不重视这一项原本很重要的工作。数据科学家JenniferPrendki 曾于亚马逊AWS官方博客上发表一篇文章,其中写到:

“虽然房间里站着一头如此庞大的大象,但是即使是那些最厉害的科技公司好像有也没看到它,或者选择性失明。这头大象就是数据标记。”

对于许多通过监督学习的方式来进行训练的机器学习模型来说,数据的标记尤为重要。模型要求数据必须被标记,否则这些数据就没有任何意义。

由于数据标记工作极其费时费力,因此数据科学家通常会选择使用已经标记好的现成数据。例如,现如今人们在执行机器视觉项目时,虽然能够从各个渠道获取到门类齐全的高质量图像,但是他们通常还是主要选择ImageNet数据库。因为ImageNet数据库是目前最庞大的标记图像数据库,现存有约1400万张图像。

现今,人类每天仍然在继续产生着越来越多的数据。每天上传到脸书的数据量就高达50兆字节,而且能生产数据的源头远不止脸书一个。可想而知,算上所有这些数据,我们人类已经到达了一个尴尬的境地,即根本没有这么多的人手来对数据进行标记。

4.无法完全模仿人类

人工智能之殇——AI项目为何屡战屡败?

 

通常,人们总是期待人工智能在执行某一智能任务时的完成水平能媲美人类,甚至比人类还要更好。这样想也是合情合理的,因为我们都知道,现今人工智能在越来越多的任务上的表现都优于人类。的确如此,不久前人工智能甚至还击败了围棋冠军。然而,就灵活度而言,人工智能系统仍然远不及人类的思维。

为了进一步阐述这一点,“智能推荐”就是一个绝佳例子。假设在某一次创业活动上,你遇到了一个很有趣的人(假设他叫“约翰”)。约翰很喜欢与你交谈,并且非常钦佩你那渊博的商业和技术知识。由于他也很想了解这方面的知识,于是他要你给他推荐一本相关书籍。接着,你可能会在你的头脑中快速检索相关书目,比如有A、B、C、D、E等等。于是你回答说,“约翰!我知道你应该读哪本了!你可以读XX书。”那么问题来了,你是如何知道应该给约翰推荐哪本书的呢?

实际上,首先你的大脑扫描了目前已经储存的相关信息,比如约翰的知识面,他和你谈话时的兴趣点,以及他的个人风格等信息。在这个时候,即使你不知道他对书籍的真实喜好,也能根据以上信息来推荐出最适合的书目,因为你总感觉他会喜欢这本书。的确,人类的感觉常常是准确的。

现在让我们换个场景,约翰这次“遇到”的是一个人工智能系统。约翰打开了一个线上书店网站,于是琳琅满目的畅销书立刻呈现在他眼前。但是约翰一直没有看到自己感兴趣的,于是不断地点击“下一页”。为什么会这样呢?

因为该人工智能系统并没有储存关于约翰的背景信息。从专业角度来说,这是一种典型的“冷启动(ColdStart)”案例,在此类情况中,由于系统未储存约翰的相关信息,因此也无法生成个性化推荐。然而,当约翰点击搜索框并输入“创业”进行搜索,就会弹出一系列与“创业”相关的书目。于是,约翰在这些搜索结果中继续浏览查找。这时,人工智能系统就会了解到“创业”是约翰感兴趣的话题,于是之后将能依据该话题推荐相关内容。

人工智能系统虽然无法彻底了解约翰,但是通过依照其他同样浏览或者购买了“创业”类书籍的用户,人工智能系统也能对他们的个人喜好进行分析。但是,如果根本没有其他人寻找过创业类书籍呢?在这种情况下,约翰将无法得到相关推荐,因为系统没有获取到任何相关数据以供学习。

最后,你和人工智能分别给约翰推荐的书籍可能会有所不同。但是,你们的推荐可能都是对的,也可能都是错的,或者一个对一个错。然而,人类的大脑永远不会抱怨说“数据不足”,并且所有的判断都是临时立刻做出的。相比之下,人工智能却无法做到这一点。因此作为人工智能的“主人”,我们人类也不必杞人忧天,因为人工智能永远也无法完美复刻复杂的人类大脑。

5.何为人工智能偏见

人工智能偏见,或者说算法偏见,指的是计算机中系统性的、可重复的错误,并且该错误会带来不公平的结果,比如表现出性别歧视、种族歧视,或者其他的歧视色彩。虽然从名字上来看,人工智能歧视好像暗示着人工智能的错,然而归根结底,错的还是我们人类自己。

谷歌首席决策科学家CassieKozyrkov曾写到:

“没有如何一项技术能完全脱离它的创造者而存在。虽然人类在科幻小说中表达出了各种最美好的愿景,但是真正独立自主的机器学习或人工智能系统是不存在的。因为我们人类是它的缔造者,并且所有的技术都或多或少地反映着创造者的目的和意愿。”

无论用在什么地方,人工智能偏见通常都会产生一定的负面影响。比如,对于计算机视觉、招聘工具等等来说,人工智能偏见都会让它们有失公正和道德,甚至违反法律。然而更不幸的地方就在于,这并不是人工智能的错,而是我们人类的错。因为怀有偏见的是人类,散播刻板印象的是人类,害怕异己的也是人类。

所以,为了开发出更加公正负责的人工智能系统,人类就必须打破个人观点和信仰的桎梏,从而确保训练数据库里的数据更加丰富多样且公平合理。这听起来似乎很简单,实际上一点也不简单。但是为了达到这一点,人类的努力绝对值得。

人工智能之殇——AI项目为何屡战屡败?

6.算法 VS. 公正

Joy Boulamwini(以下简称乔伊)是麻省理工大学的一名研究员,并牵头创立了算法公正联盟(AlgorithmicJustice League)。2017年,乔伊曾于TED发表一篇关于“算法偏见”的演讲,演讲开始就介绍了以下这个软件实验,具体内容如下:

“嗨!摄像头!我有一张脸,你能看到我的脸吗?没戴眼镜哦?既然你已经看到了,那我的脸长什么样呢?我再戴个面具,你能看到我的面具吗?”

最后,摄像头没能检测到乔伊的脸,只看到乔伊的同事和她戴着的白色面具,而非她的脸。实际上,类似结果已经出现不止一次了。当乔伊还在佐治亚理工学院(GeorgiaTech)读本科的时候,她就在研究社交机器人,并且需要完成一项任务,即“教机器人玩躲猫猫(Peek-a-boo)”。最后,机器人没能识别出她,因为她“借”了一张室友的脸蒙混过关。后来,类似的剧情又一次上演了。在香港举行的一次创业竞赛中,有一家创业公司推出了一款社交机器人。这个机器人使用了同一款面部识别软件,最后同样未能成功识别出乔伊。

为什么会出现这种情况呢?为此,乔伊继续解释到:

“电脑视觉利用机器学习技术来进行面部识别。那具体的工作原理是怎样的呢?首先,需要创建一个关于人脸实例的训练数据集。这是一张人脸,这也是一张人脸,而这个不是……逐渐地,计算机就会学会如何识别其它人脸。然而,如果训练数据集所涵盖的人脸数据不够丰富,那么只要出现任何一张与既定标准偏差过大的人脸,计算机就难以对其进行识别。也就是出于这个原因,那个机器人才没能看到我。”

即便如此,那又有什么问题呢?人们可能会问。

要知道,如果算法偏见的影响范围越来越广,那么就不再是面部识别那么简单了。的确,以下举的这个例子过于极端,但其危险性却仍不容忽视。如果警察利用这样的软件来寻找嫌疑犯,面部识别的偏见就可能会将一小部分人置于不利地位,甚至让他们蒙受不白之冤。要是机器在进行识别的过程中直接出了错,那后果更不可想象。

既然谈到了机器的公正性,那么就有必要在这里再提一次COMPAS。其实在之前一篇关于“信任AI”的文章中,笔者已经有描述过COMPAS。COMPAS其实是一个预测算法,美国用来它来预测某一罪犯再犯的概率,并依此来量刑。

要知道,这样一个完全依靠历史数据的算法,会直接判定黑人罪犯的再犯率更高。

除此之外,亚马逊也曾推出过一款“臭名昭著”的“AI招聘人员”。结果,这一系统表现出对男性的偏爱,因为大部分的上班族都是男性,所以有这样一种选择倾向完全是符合算法逻辑的。

7.部门高管的不重视

目前,人工智能的应用面临着种种挑战,其中之一就是部门高管的不重视。他们不重视这些新兴技术的价值,因此也不愿意投资,也可能是你想用人工智能来“增强(Augment)”的部门对此根本不感兴趣。

的确,这也是人之常情。现今,人工智能仍然被视为一种高风险事物,不仅成本高昂,而且也难以操作和维护。尽管如此,人工智能的热度仍然有增无减。实际上,人们应用人工智能时要用对方法,在初始阶段提出一个人工智能可以解决的商业问题,设计好数据策略,并且记录好合适的指标和投资回报率。

与此同时,团队成员这边也要准备好与人工智能系统“共事”,并且及时确立起成功和失败的标准。

大家可能已经注意到了,笔者在上文谈及人工智能的任务时,用的是“增强(Augment)”这个词。原因很简单,人工智能的主要任务是“辅助”人类工作,支持数据驱动决策,而非完全取代人类的工作角色。当然,现在有一些人工智能项目的确是为了尽可能地实现自动化。但是就普遍情况而言,这并不是人工智能的“主业”,因为人工智能主要还是与人类进行合作。

并且研究表明,人类与人工智能的协作能产生更好的结果。在哈佛商业评论(Harvard Business Review)的一篇文章中,作家詹姆斯•威尔逊(H.James Wilson)与保罗•多尔蒂(Paul R. Daugherty)曾这样写到:

“在一项涉及1500家公司的研究中,我们发现,人类在与机器协同工作时,企业产生的效益最高。”

然而作为领导,其在人工智能项目中的职责在于帮助员工理解为什么要引进人工智能技术,并且教授他们如何利用模型来完成任务。如果不这样,即使再神奇的人工智能系统也只会沦为一堆毫无意义的数字组合。

为了进一步阐述其重要性,让我们来看一个引自CIO首席信息官杂志的例子。有一家叫做Mr.Cooper的公司为了改善客户服务,于是引进了一个对客户问题提供解答的推荐系统。然而在该系统已经运行9个月之后,该公司发现员工们并没有使用这个智能系统。后来又进行了长达6个月的研究,该公司终于发现了其问题所在。最后研究发现,由于训练数据主要是一些企业内部文件资料,并且这些文件对问题的描述充斥着各种专业术语,而普通用户在描述问题时多使用日常用语,因而这就使得算法模型无法理解,最后推荐了一些毫不相干的内容。

上文的例子充分展现了员工理解的重要性,他们必须理解为什么以及如何与人工智能一起工作,并且有权质疑系统的有效性,必要时上报相关问题。除此之外,这个例子还告诉我们,可靠的训练数据是多么的重要啊!

人工智能之殇——AI项目为何屡战屡败?

8.“英年早逝”

在真正执行人工智能项目时,有的人可能还没开始就已经结束了。

毫不夸张地说,真的可能会出现这种情况。之所以会这样,是因为人们还没准备好数据、预算、团队、策略等各种必需资源,就急于着手开始项目。如果没有提前准备好这些要素,一切都将化为不切实际的空想。

也正是因为如此,我们才反复强调策略性方法的重要性。在进行人工智能项目之前,必须确保自己已经准备好各种要素,寻找合适的商业使用案例,构想出恰当的数据策略并建立目标。如果开始时不思考具体策略,之后的步骤将难以进行,并且风险也会大大增加。

在创建人工智能项目,尤其是自己的第一个项目时,应设定一个大的总体目标来指引方向,与此同时也应该要有一些阶段性目标。

这样的话,在证明项目可行性的同时,也能够有效降低失败的风险,从而避免在一个完全没有意义的工具上去浪费公司的金钱。在执行第一个人工智能项目时,不应该立即在整个公司范围内铺开使用,反而可以选择先试验PoC项目,从而让整个组织结构提前适应一下这种未来的“新常态”。

随着时间的推移,整个公司和人工智能系统都会有一定发展:人工智能系统会越来越先进,同时公司团队也会越来越高效,数据驱动性亦会随之提高。

在项目过程中,如果人们能逐步完成阶段性目标,并且时刻把握住总体目标和大方向,那么互利共赢将是必然结果。总而言之,人工智能只是人类用来达到自己目标的工具,而非目标本身。

如何避免失败

当然,失败也不是不可避免的。

既然现在已经有那么多的组织在人工智能上失败过,我们就可以从他们的错误中吸取经验,从而避免自己的公司再重蹈覆辙。

此外,我们还应该遵循市场规律,切忌局限于眼前的竞争,并且放眼于整个科技世界。只有这样,我们才能设定符合实际的目标,找到有发展前景的使用案例,并且及时发现自身的局限性。

人工智能之殇——AI项目为何屡战屡败?

人类的愿景,指导和投入最终成为人工智能项目成功的重要组成部分。既然坚定了人工智能这条路,就请一直坚持到最后,相信终有一天可以实现“屡战屡胜”的完美大局。

觉醒向量专注于为全球人工智能企业提供优质的数据标注服务;我们通过一流的质量控制体系以及优质的服务态度,持续帮助国内外人工智能企业加快产品迭代速度

© 2018 觉醒向量版权所有

Made with ♥ by Awakening Vector

业务咨询