黄东旭解析 TiDB 的核心优势
945
2023-04-26
众说纷纭 机器学习究竟是什么?
所谓数据科学家,是指那些能够利用最合适的工具与方法完成自身工作的专业人士。最出色的数据科学家能够将自己完整的知识集与模式发现方案充分利用于统计分析工作当中。
我们应该如何对科学技术数据的积累总和进行查阅?通常来讲,这要用到所谓“高级分析”机制。这句话在表述上故意显得比较模糊,其核心在于将一切技术手段纳入其中——包括统计分析、数据挖掘、可预测模型、自然语言处理以及支持向量机等等。
在一般人的印象中,“数据挖掘”的涵盖范围很广、大部分相关工作似乎都能划归其下,包括对于隐私侵犯的关注以及应用程序监控等等。不过在我看来,这相当于所有能在空中飞翔的鸟类都称为“秃鹫”——明显并不准确。究其原因,数据挖掘的指向对象为结构化数据,这类方案通常会涉及到具体的技术机制,例如回归分析、决策树等等,而且一般不会被用于对非结构化数据进行内容分析。
与之类似“机器学习”也被越来越多地提及并成为一种包罗万象的概念。或者机器学习至少已经成为一种针对当前数据的便捷处理手段,科学家们用它来指代从新数据(大部分属于非结构化数据)中自动获取并发现知识与模式的尖端技术范畴。而人们对于机器学习定义的探寻似乎也延伸到了更为广泛且界线模糊的领土之上。
这是我在最近阅读了《了解机器学习:个人探索之路》一文后建立起来的印象。在这篇文章中,来自圣迭戈州立大学与True Bearing Analytics公司的Joseph R. Barr以作者的角度探讨了机器学习的发展历史以及他个人在学习这一课题过程中的感悟。他指出,“将机器学习、数据挖掘、可预测性分析以及高级分析或多或少视为同义词其实并无不妥。” 我不知道将机器学习与前面提到的其它技术相提并论是否具有实际意义。正如前面已经提到,机器学习主要用于非结构化数据,而数据挖掘则专门针对结构化数据集。此外,与数据挖掘类似、机器学习关心的主要是历史数据当中的多样化形式,相比之下预测性分析更侧重于寻找其中适用于未来新数据收集测试机制的可预测模式。然而机器学习、数据挖掘乃至可预测性分析的针对范围较窄,高级分析则是一项更为宽泛的概念、足以将前面几项全部容纳进来。
在我看来,机器学习一只脚立足于数据科学、另一方面则以计算机科学为基础。基于这样的理解,我认同Barr在文章中所言:“机器学习发展自多个彼此不一定存在交集的数学学科,其中最值得注意的子类包括数理统计、计算与算法、信息理论以及数学优化等……在过去,机器学习是与人工智能紧密结合在一起的……大多数与机器学习相关的议题主要关注凸包的理论可能性、组合、凸度与优化、统计、信息以及计算。对于这份名单,我会向其中添加额外的三个条目:启发法、经验与应用。”
这实在是一门相当艰深的学科,值得我们深入探索与了解。通过以上描述,我们可以看到机器学习拥有一条令人心生畏惧的学习曲线,大家需要在大学课堂以及实验室当中耗费多年才能窥探其门径。这实际上也是Barr这篇文章的核心所在:他本人就是一位机器学习教学兼数据科学专家,而他面临的难题在于如何为未来的数据科学家们设置一个正确的机器学习定义。
定义范围的变化表明这些挑战已经给机器学习本身带来影响与反映。在机器学习这一宏观概念之下,不同学科以创新方式不断交叉而又相互促进,而这将拓展每一位数据科学家的思维方式并决定他们在使用这一术语时为机器学习设立的概念定义。
原文标题:What's machine learning? It depends on who you ask
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。