Imperva创新机器学习:领先威胁一步

在过去的两年里,企业生产的数据量超过了之前整个人类历史创造的数据总和。要为如此大规模的数据提供安全保障,专家们不得不重新思考,该以何种方式决定敏感文件的授权与撤销;更加重要的是,该如何识别和追踪不可避免的异常访问,并排查出哪些是真正具有危险的行为。

对于数据安全而言,最为关键的问题就是:“这个行为正常吗?如果不正常,那么它是被允许的吗?”Imperva的机器学习创新技术可以为这一问题提供答案。机器学习把模式识别算法应用在每一位用户的每一次SQL查询上,把内部威胁扼杀在摇篮之中。

数据安全中的机器学习

机器学习作为一种人工智能,可以让计算机检测出各种模式,并使用通过训练或观察而习得的算法来建立行为基线。机器学习可以大规模地处理和分析人力难以把握的大量数据,而提供人类可以理解的分析结果。

传统的安全控制通常基于最小访问特权模型。这个模型在理论上是成立的,但是在实践中却很难得到大规模的实现。要想以人工的方式决定每个用户对每种数据具体的访问权,本身就足够令人望而却步了。而在此基础之上,还要从访问日志中筛选并识别出潜在的不良行为,这就更难以实现了。即使是在一个只有 50 到 200 个数据库的小企业环境中,这个过程也会让 20 人规模的IT部门难以招架。而在更大的企业中,数据库的数量很可能达到 1 万以上。

好消息是,机器学习有望减轻这份负担。对机器学习而言,更多的信息意味着更多的学习燃料。系统学习更多的输入,就能通过学习给出更高质量的结果。

话虽如此,机器学习的有效应用依然要求人类大脑的参与,需要透彻理解他们想要解决的问题并可以把恰当的算法应用在恰当的问题上。算法并不是万能钥匙,而企业结构也不都是一样的。真正创新式的机器学习必须更进一步。

上下文中的机器学习

简单的机器学习可以处理日志文件并解读访问行为模式;可是,仅仅根据何人在何时登录何种资源来生成行为模型,是远远不够的。在数据安全的问题领域中,真正的需求是对潜在的恶意数据滥用提早一步的识别,这就需要机器学习更深地了解被访问的具体数据。

机器学习可以把建立数据访问模式基线的手动进程自动化。使用模式识别,机器学习可以识别对等群组中个体的正常行为,还可以动态地学习真正有效的对等群组,而摆脱对于静态的“组织结构图”的依赖——后者极少能够反映人们的真实工作状态。

过去几年,人工智能与机器学习在模式识别上取得了显著的进展。例如,Facebook的机器学习应用,不仅可以识别图像中有什么,而且还能识别场景的上下文,以及其中是否包含其它已知的实体或地标。同理,Imperva设计师在数据集合上应用了恰当的机器学习算法,创造了一个检查对等群组分支使用模式的系统。这个技术已经超出了识别登录和访问时长的范畴,可以针对性地识别和建立正常的用户数据访问行为,可以轻松过滤出潜在的有危险的行为,避免其损害企业数据。

对于安全团队而言,关键的问题在于:在一次个人访问中,发生了什么,行为是否良好?他们需要制作一份事件清单,以备适当规模的SOC团队调查。出于实用性的考虑,得出的数据必须满足三点要求:有限性,保证团队可以轻松地消化信息:精确性,排除噪音,提高信度;以及上下文的丰富性,让调查无须从零开始。

让机器学习更聪明

Imperva开发者通过把机器学习算法的丰富知识和关于构成不同种类用户不当数据访问行为的特定专业知识相结合,达到了三个目标。

利用模式识别算法处理数据安全信息,与Facebook图像识别相似,只不过识别的对象换成了上下文中的数据访问模式,包括上万名员工的账户,以及每天上百亿次的个人数据访问。基于行为的群组自动识别,可以精确定义每个用户的访问权限,并根据用户与企业文件的交互变化进行动态调整。在对比试验中,Imperva应用机器学习动态对等群组分析算法,发现了大量其他方式无法注意到的问题。

以往,大多数机器学习应用都从很高的视角观测数据访问,比如:王刚在星期二上午 8 点 12 分登入了一个特定的数据库,并在 8 点 39 分登出。可是它们无法确定王刚在那 27 分钟内真正做了些什么,所以很难判定行为模式是否正常,是否存在潜在的数据滥用。

而Imperva机器学习在理解模式识别算法的基础上,可以更加聪明地识别威胁数据的用户行为模式。检查每个用户的每次SQL查询,意味着机器学习不仅可以识别王刚在何时登录了多长时间,而且更为重要的是,还可以学习到他访问了什么。然后,我们可以参照他的对等群组,比较他的行为与其他人的行为,最终判定数据访问到底是正常的,还是不正常的。

大规模、动态化、结合上下文与专业知识的机器学习,能够提早适应新兴的威胁形态,永远领先一步,提早预防数据违规。

相关推荐