机器学习促进大数据分析走向繁荣-PingCAP

机器学习促进大数据分析走向繁荣

网友投稿 710 2023-04-26

机器学习促进大数据分析走向繁荣

【独家特稿】机器生成的日志数据可以说是大数据宇宙当中的暗物质。它由分布式信息技术生态系统当中的每一层、每个节点乃至每种组件所产生，其范畴从智能手机到物联网终端可谓无所不包。它无穷无尽、无处不在，我们能够对其进行收集、处理、分析以及使用，但整个过程大多在幕后进行。

仅凭人类的能力根本无法跟上机器记录数据的产生速度。绝大部分这类数据在设计思路或者实际使用上都完全不会考虑人为分析的可能性。除非以粗暴的方式进行直接过滤，否则日志数据那极端的体积、可怕的积累速度以及丰富的具体类别将迅速击溃人类的认知能力。Accenture公司在最近的一篇文章中对此作出了简洁的解释：

随着日志文件在体积与种类方面的不断攀升，日志管理方案解析日志文件、追踪潜在问题乃至切实发现错误的难度也在随之提升——特别是交叉日志间存在关联性时，这种情况就变得更为突出。即使在最理想的状况下，也需要由经验丰富的管理员来捋顺事件链、过滤干扰信息并最终诊断出根本原因——这实在是个相当复杂的过程。

很明显，自动化已经成为在日志数据当中找到分析结论的关键所在，这一点在大数据领域体现得尤为突出。自动化机制能够确保数据收集、分析处理以及规则与事件驱动响应能够切实与数据中的信息相匹配，并在数据流的传输过程中完成任务执行。而要实现日志分析机制的自动化扩展，关键因素则包括机器数据集成中间件、业务规则管理系统、语义分析、流计算平台以及机器学习算法。

在以上因素当中，机器学习是自动化流程以及日志数据规模化分析的重中之重。不过机器学习对于日志数据分析工作而言并不是一套能够以不变应万变的固定解决方案。不同的机器学习技术适合不同类型的日志数据以及不同的分析挑战。利用相关性与其它现有模式为机器学习机制构建先验性监督方案才是正确的处理方式。不过监督性学习人为为其编写一套源自日志参考性“培训数据”集，只有这样才能准确定义机器学习算法的辨别能力、从而选择与实际最为相符的处理能力。

不过如果日志数据模式无法以预告方式作出精确定义，那么非监督性强化学习机制可能更为适合。这些由机器学习技术支持的日志数据分析方案可谓自动化处理的最理想场景，因为此类方案会自主选择匹配程度较高的处理模式并进行优先级排序，从而在无法人为提供培训数据集的前提下完成既定任务。

多日志关联性属于非监督性强化学习方案所针对的核心日志数据分析用例。由于异构式日志数据集在结合过程中会衍生出更高程度的异构性、复杂性以及不可预测性，分析过程当中数据变量以及数据关系将始终混乱而模糊。有鉴于此，如果我们仅仅利用简单的查询、预先设定好的报告与仪表板乃至其它标准化分析机制对其进行查看，隐藏在数据中的信息模式根本不会现身。在这类情况下，机器学习能够利用各类定量方法——例如聚类、马尔科夫模型以及自组织映射等等——提取出最值得注意的关系模式。

无监督性强化学习机制的另一大关键性使用场景在于确定某种特定关系模式此前从未出现过——或者确实曾经出现，但却被人为分析方案标记为“干扰因素”。有作者曾撰文探讨过将机器学习机制应用在安全日志分析当中，从而“立即为用户提供一种典型的访问模式——即使这种特定方式模式此前从未出现过——并防止个人信息丢失所引发的高风险。”

大多数藏身于海量日志数据中的分析结论都拥有几大共同特征：复杂、隐蔽而且此前从未出现过。相较于先验性知识，从日志数据本身着手进行学习已经成为众多数据科学家们投入大量时间与精力的研发重点。他们正不断对自己的机器学习算法作出调整，希望能够从日志中找到就连最出色的人类专家也往往会忽视的重要“信号”。

原文链接：

核子可乐译

百TB级 TiDB 集群在线更换 NVME 磁盘优化案例分享

710 2023-04-26

机器学习促进大数据分析走向繁荣

高成本云服务？TiDB 帮你省钱

百TB级 TiDB 集群在线更换 NVME 磁盘优化案例分享

年轻DBA的TiDB入门必备指南数据库技术学习

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

机器学习促进大数据分析走向繁荣

微信扫一扫：分享

推荐文章

友情链接

热评文章