机器学习操作不适用于云计算运维

为云计算服务团队提供机器学习功能的系统不仅是一个错误,而且也是危险的。

机器学习操作不适用于云计算运维

一家公司的云平台在一个周末发生故障,该公司云计算运营团队试图研究和探讨发生了什么问题。似乎有几个系统与一个先进的新的库存管理系统相关,这个系统启用了机器学习,但出现了问题。对其进行检测之后的结论如下:

  • 将原始数据从运营数据库移动到训练数据库的批处理以及自动恢复过程失败。而在周末工作的运维团队成员试图重新提交,但并不是一次性全部提交,而是进行了四次更新,导致训练数据库处于不稳定状态。
  • 这导致机器学习系统中的知识模型使用错误的数据进行训练,并要求删除知识库中的新信息,并重建模型。
  • 此外,一些外部数据馈送(例如定价和税务数据)同时更新到训练数据库。尽管这些工作正常,但考虑到运营数据不是很好,也需要退出知识库。
  • 该系统两天内无法使用,考虑到生产力下降、客户不满以及公关问题,使该公司损失了400万美元。

随着企业越来越多地使用“物美价廉”的基于云计算的机器学习系统,人们发现利用机器学习的系统操作起来非常复杂。企业运营小组希望降低困难程度和复杂性,但发现面临训练不足、人手不足和资金不足的问题。

云计算运营团队可以通过相当容易的转换来处理基于云计算的数据库、存储、计算。考虑到基于云计算的系统与传统系统类似,大多数情况都是如此。

相关推荐