机器学习促进大数据分析走向繁荣

网友投稿 590 2023-04-26

机器学习促进大数据分析走向繁荣

机器学习促进大数据分析走向繁荣

【独家特稿】机器生成的日志数据可以说是大数据宇宙当中的暗物质。它由分布式信息技术生态系统当中的每一层、每个节点乃至每种组件所产生,其范畴从智能手机到物联网终端可谓无所不包。它无穷无尽、无处不在,我们能够对其进行收集、处理、分析以及使用,但整个过程大多在幕后进行。

仅凭人类的能力根本无法跟上机器记录数据的产生速度。绝大部分这类数据在设计思路或者实际使用上都完全不会考虑人为分析的可能性。除非以粗暴的方式进行直接过滤,否则日志数据那极端的体积、可怕的积累速度以及丰富的具体类别将迅速击溃人类的认知能力。Accenture公司在最近的一篇文章中对此作出了简洁的解释:

随着日志文件在体积与种类方面的不断攀升,日志管理方案解析日志文件、追踪潜在问题乃至切实发现错误的难度也在随之提升——特别是交叉日志间存在关联性时,这种情况就变得更为突出。即使在最理想的状况下,也需要由经验丰富的管理员来捋顺事件链、过滤干扰信息并最终诊断出根本原因——这实在是个相当复杂的过程。

很明显,自动化已经成为在日志数据当中找到分析结论的关键所在,这一点在大数据领域体现得尤为突出。自动化机制能够确保数据收集、分析处理以及规则与事件驱动响应能够切实与数据中的信息相匹配,并在数据流的传输过程中完成任务执行。而要实现日志分析机制的自动化扩展,关键因素则包括机器数据集成中间件、业务规则管理系统、语义分析、流计算平台以及机器学习算法。

在以上因素当中,机器学习是自动化流程以及日志数据规模化分析的重中之重。不过机器学习对于日志数据分析工作而言并不是一套能够以不变应万变的固定解决方案。不同的机器学习技术适合不同类型的日志数据以及不同的分析挑战。利用相关性与其它现有模式为机器学习机制构建先验性监督方案才是正确的处理方式。不过监督性学习人为为其编写一套源自日志参考性“培训数据”集,只有这样才能准确定义机器学习算法的辨别能力、从而选择与实际最为相符的处理能力。

不过如果日志数据模式无法以预告方式作出精确定义,那么非监督性强化学习机制可能更为适合。这些由机器学习技术支持的日志数据分析方案可谓自动化处理的最理想场景,因为此类方案会自主选择匹配程度较高的处理模式并进行优先级排序,从而在无法人为提供培训数据集的前提下完成既定任务。

多日志关联性属于非监督性强化学习方案所针对的核心日志数据分析用例。由于异构式日志数据集在结合过程中会衍生出更高程度的异构性、复杂性以及不可预测性,分析过程当中数据变量以及数据关系将始终混乱而模糊。有鉴于此,如果我们仅仅利用简单的查询、预先设定好的报告与仪表板乃至其它标准化分析机制对其进行查看,隐藏在数据中的信息模式根本不会现身。在这类情况下,机器学习能够利用各类定量方法——例如聚类、马尔科夫模型以及自组织映射等等——提取出最值得注意的关系模式。

无监督性强化学习机制的另一大关键性使用场景在于确定某种特定关系模式此前从未出现过——或者确实曾经出现,但却被人为分析方案标记为“干扰因素”。有作者曾撰文探讨过将机器学习机制应用在安全日志分析当中,从而“立即为用户提供一种典型的访问模式——即使这种特定方式模式此前从未出现过——并防止个人信息丢失所引发的高风险。”

大多数藏身于海量日志数据中的分析结论都拥有几大共同特征:复杂、隐蔽而且此前从未出现过。相较于先验性知识,从日志数据本身着手进行学习已经成为众多数据科学家们投入大量时间与精力的研发重点。他们正不断对自己的机器学习算法作出调整,希望能够从日志中找到就连最出色的人类专家也往往会忽视的重要“信号”。

原文链接:

核子可乐译

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:想从事大数据工作,如何自学打基础
下一篇:机器学习中的数学(1)-回归和梯度下降
相关文章