APP下载

企业如何使用机器学习和数据科学家

2017-05-26TomMacaulay

计算机世界 2017年17期
关键词:机器科学家预测

Tom+Macaulay

与数据科学家合作,逻辑胜过创造力。我们需要采用一些其他的商业方式。

机器学习已成为商业技术的流行词,但其应用的实际意义往往被忽视。

机器学习和数据分析专业公司Yandex Data Factory的首席执行官Jane Zavalishina说:“主要的问题是数据科学本身是科学,而企业在决策时不太习惯使用科学的方法。”

该公司是俄罗斯最大的搜索引擎运营商跨国技术公司Yandex的子公司。2014年12月,Yandex启动了Yandex数据工厂,扩展了自己开发的数据科学的功能,支持其核心产品为行业应用提供基于机器学习的服务。

该公司2014年末成为俄罗斯最大的搜索引擎运营商——跨国公司Yandex的子公司。它提供机器学习和数据科学服务,为广告活动策划和确定商店库存订单等事项建立预测模型。

Yandex数据工厂团队通过实验过程确定其结果,只有在实验结束后才能判断是否成功。

Zavalishina解释说:“当您把一些工作交给您的员工时,理想情况下,您或多或少地总是期望有一个完整的结果。但数据科学家的工作方式完全不一样,因为您不能指望数据科学保证能得到结果。”

失败是任何数据科学项目合理的结果,业务经理以后也得接受这一事实。

是什么让数据科学家与众不同?

逻辑胜过创造力,而现实胜过信念,所以应采用其他的商业方法与数据科学家合作。换句话说,它取决于事实和逻辑,而不是想象会有什么样的结果。

那么就会很难向数据科学家提出一些问题让他们回答,因为他们会认为这些问题根本上是无意义的。

Zavalishina说:“听起来就像零除以零,没有意义。问题是您无法让他们去这样做;您不能让人们去做零除以零的事情。他们会认为您可能是一个白痴,不会与您很好地合作。”

他们要先了解项目,觉得可以试一下。例如,如果他们打算使用机器学习来改进系统,那么他们要有足够的数据才能评估结果是否有意义。

Yandex数据工厂首席运营官Alexander Khaytin说:“很多业务决策都是凭直觉做出的,这就是为什么不需要评估所有常规业务的原因。但是当面对数据科学项目,或者与数据科学家沟通时,您不能只告诉他们,‘这样做,我觉得会很好。这样是不行的。”

提出合适的问题

预测分析建模所采用的算法比传统的统计系统更复杂。这可能很难解释。

零售业经常使用数据科学来更好地预测每周订单的库存补货需求。结果可能令人惊讶,但是这个过程涉及的因素太多,通常很难理解。

Zavalishina说:“对于不能理解数据复杂性的人来说,很难向他们解释,但由于无法解释,您无法根据常识或者商业智能来决定它的好坏。您需要确定您知道想改进什么,以及如何评估结果。

这不是创造。它是很具体的,知道要预测或者优化什么。这就像和数学家打交道。您提出问题,那么您会得到这个问题的答案。

如果您的问题是错误的,不要指望得到正确的答案。这是一个令人惊讶的常见问题,因为公司往往缺乏对其目标的全面规划和评估。”

Zavalishina回忆说:“我们和一家大型零售公司合作,他们要求我们建立一个模型,预测下周每个商品能有多少销售。我们在一个商品上试了一下,但问题是他们意识到预测实际上对他们没什么用处。”

他们的模型是准确的,但公司正在订购的产品是6个一包,而不是单独分开包装。如果预测的是下周7个商品的销售,那他们要回答的问题就完全不同了。他们应该买一个还是两个?可能会有些小变化,但实际上他们一开始就错了。模型变得完全不同,因为优化参数已经变了。

数据科学需要仔细的进行规划。公司收到了正确的答案,但一开始应该提出不同的问题。

在迈向成功的道路上失败了

向另一家零售商提供的优化模型表明,他们很少售出的昂贵而又不常见的产品根本不值得订购。这个决定在数学上是合乎逻辑的,但这并不能说明在商业上可行。这些商品对于商店名声和客户群都是非常重要的。

Zavalishina说:“可以向您保证的是,通过您的第一个数据科学项目或者机器学习项目,您需要回顾并重新考虑标准是什么,目标是什么。”

Yandex通常建议客户从非常具体和短期的项目开始,以避免对项目进行长期投资带来的风险,因为这些项目可能会产生无意义的结果。这种方法允许公司全面地逐项进行改进。

另一家公司有自己的系统来确定向哪些客户发送报价。Yandex使用由机器学习算法产生的统计模型的建议来确定怎样随机地联系一些客户群。其余客户根据以前的系统进行了联系,然后公司对比了从报价到实现销售的转换率。

唯一的问题是,周五将报价发送给控制组,而在周末向实验组发送报价。不同的联系时间、不同的行为模式使得任何比较都没有意义。

业务经理经常问Yandex是否应该参加机器学习或者数据科学课程,以了解怎样让技术给企业带来好处。

Zavalishina说:“我们通常的回答实际上是‘不,没有任何意义。这不会使您成为数据科学家,所以不会真的对您有所帮助。如果您希望能够将该技术应用于工作中,那么您应该更好地学习科学的方法以及测量和实验。基本上,如果您希望这种技术能带来结果,那么我们需要一种更科学的方法。”

接受不确定性

企业应接受科学文化。负面结果并不意味着工作失败,只是证明优化没有起作用。

企业结构内的责任是另一个挑战。有一家客户曾经希望Yandex能够优化其广告支出。开发的算法实现了当初的承诺,能节省20%的成本。

但要实现这一结果比得出结论更具挑战性。负责这个项目的工作人员的奖金取决于他们应该购买什么以获得最佳效果的计划和决策。

Zavalishina解释说:“所以现在他们有了这个模型,为他们提供了建议,数学上证明这些建议更好,但问题是这是他们的责任。”

数据科学项目承认同一业务中可能存在不同的责任和优先级。该团队将实施一个可能减少奖金的业务模型。

Khaytin补充说:“谈到科学的方法,它更加理性,更具有可衡量性,这可能是一个相当矛盾的情形。

通常的决策目的至少会被颠覆。例如,一位专家可以告诉您‘我有一种直覺,我有一种想法,会是这样。在我们这里,您有一些数据科学工具,一些数据科学项目,它是完全不同的,没有直觉。”

把商业和科学方法整合在一起是一个复杂的过程,需要耐心和理解。Yandex还与钢铁制造商合作,优化了生产过程中使用的材料混合物的配比。通过增加某种材料量来提高质量,但这种材料越多,产品就越贵。

Yandex使用历史数据做出了让混合物质量和成本达到最佳平衡的准确模型,得到了由机器学习算法提供的配方。

Zavalishina说:“这个配方对他们来说往往没有任何意义。他们看着说‘不行,我不能这样做,我不接受这个,我做的不一样。

有趣的是它虽然能带来更好的优化,但另一方面,他们有自己的经验,那么应如何处理呢?有80%的建议他们基本上都没有采用。

我们想出了一个解决方案,这是获得我们提供的配方的另一种算法,在此基础上,还建立了预测,预测被客户接受的可能性。从严格的数学角度来看,优化后的配方好像不是最优的,但更有可能被接受。”

长期以来人们一直恐惧人工智能可能会毁灭人类,但人与机器学习之间的结合仍然是数据科学的基础。

原文网址:

http://www.computerworlduk.com/data/how-use-data-scientists-machine-learning-in-enterprise-3656051/

猜你喜欢

机器科学家预测
无可预测
机器狗
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
机器狗
假如我是科学家
未来机器城
不必预测未来,只需把握现在
与科学家面对面
当天才遇上科学家(二)