大数据资料之常见的Hadoop十大应用误解学习-PingCAP

大数据资料之常见的Hadoop十大应用误解学习

网友投稿 758 2023-05-11

大数据资料之常见的Hadoop十大应用误解学习

大数据之常见的Hadoop十大应用误解常见的Hadoop十大应用误解。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十大应用误解和正解。

1. (误解) Hadoop什么都可以做

(正解) 当一个新技术出来时，我们都会去思考它在各个不同产业的应用，而对于平台的新技术来说，我们思考之后常会出现这样的结论 “这个好像什么都能做”，然而，更深入的去想，你就会发现“好像什么都需要重头做”。对于Hadoop，我常喜欢举Database来当例子。三十年前数据库(Database)刚出来时，上面并没有什么现成的应用方案(Application)，所以厂商在销售的过程中常需要花很多的时间去告诉客户说，如果今天你有了这个数据库，你就可以做什么什么的应用，而看起来的确好像数据库什么应用都可以做，因为毕竟大部分的应用都会需要一个数据库。只是三十年前所有的应用都得重头打造，我们今天习以为常的ERP、CRM等应用系统，当时并不存在的，那都是后来的事了。今天的Hadoop，正好有点像当年database 刚出来的时候，毕竟今天所有的应用或多或少都会开始去处理半结构、非结构化数据，而这些东西的确都是Hadoop擅长的，所以平台的适用性其实问题不大，重点还是在应用要由谁来搭建。

2. (误解) Hadoop无法扮演HPC (High Performance Computing) or Grid Computing的角色

(正解) 由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成，所以我们也看到很多研究机构或教育单位，开始尝试把部分原本执行在HPC 或Grid上面的任务，部分移植到Hadoop集群上面，利用Hadoop兼顾高速运算与海量储存的特性，更简易且更有效率地来执行工作。目前国外高能物理、生命科学、医学等领域，都已经有这样的应用案例，利用Hadoop集群与现有的HPC/Grid 搭配、协同运作，来满足不同特性的运算任务。

3. (误解) Hadoop只能做资料分析/挖掘(Data Mining/Analyst)

Big Data强调的不是对因果关系的渴求，取而代之的是关注于data之间的相关关系。也就是说，重点在于要知道“是什么”，反而未必需要知道“为什么”。所以, 它要求的是所有data的处理，而不只是随机样本的分析。***我们往往会发现，处理Big Data的简单算法所得到的来自于data呈现的事实，往往比分析small data的复杂算法所得到的来自data背后的原因，对企业带来的效益更大。

我强烈推荐大家去看Big Data: A Revolution That Will Transform How We Live, Work, and Think这本书，里面把我们面对Big Data该有的观点与看法，做了非常清楚的陈述，有简中的的翻译本，繁中的好像还没看到。

4. (误解) Hadoop就是BI (Business Intelligence)商业智能

(正解) 跟前面一样，这也是大多数人最容易误解的地方，因为Hadoop特别适合来做数据分析，所以就很直觉地把它想成 “那就是BI嘛”。会有这种误解，主要来自于对数据运用的整体架构的不清楚。传统BI是属于数据展现层(Data Presentation)，其数据的载体(Data Store)是数据库或数据仓库。对比来看，Hadoop就是专注在半结构化、非结构化数据的数据载体，跟BI是不同层次的概念。当然，Hadoop除了 Data Store外，又特别具备运算的特性，也因此特别容易带来这种观念上的混淆。至于半结构、非结构化数据的数据展现层部分，目前本身并不在Hadoop的生态体系内，而是由其他现有或新创的公司来填补这块空缺，所以，逐渐地我们会看到越来越多现有的BI tool，开始强调其自身与Hadoop的联系性与兼容性，同时，一些新创公司，也发展出完全不同于现有BI Tool的基于Big Data的数据展现层。

5. (误解) Hadoop就是ETL (Extract, Transform & Load)

(正解) ETL其实有两种意涵，它本身是一个概念，也同时是一个产品类别(Product Category)的总称。所以当我们听到“某某公司是做ETL产品的”的这种对话时，其中的 ETL，与DB、Application Server等名词是相同的，都是指向某种类别的IT产品。然而，如果就概念性上来看，ETL指的其实是数据运用的生命周期中的其中一个过程，跟我前面提到的数据预处理(Data pre-Processing)是同样一个概念，举凡数据清洗(Data Cleansing)、数据关联、数据汇总等，都包含在这个范畴内。所以当我们说Hadoop特别适合拿来做ETL时，在概念上，它是正确的，同时也能很清楚明白地定位出Hadoop在企业资料运用中所扮演的角色。但Hadoop终究不是一个ETL的产品，反倒是现有的ETL产品，也开始跟BI一样，去发展它在Hadoop上的可用性、联系性与兼容性。Etu团队之前在帮客户导入Hadoop做数据处理时，常常会用script语言来实现一些应用场景，最近一段时间以来，我们的技术顾问也开始运用3rd-party 的ETL tool来实作这一块，对企业客户来说，这是他们较熟悉的工具，也降低了他们进入Hadoop的门槛。

6. (误解) Hadoop跟传统storage没什么差别, 都特别适合来做资料的备份(Data Archive)

(正解) 熟悉storage的人，***次看到Hadoop时，往往只会注意到它的分布式文件系统HDFS，然后开始拿它来与现有的storage的功能特性做比较，而忽略掉Hadoop本身并行运算的那一块。这很合理，毕竟MapReduce的概念，在应用上是比较抽象且难以捉摸的，相反的，HDFS就是一个很清楚且具象的概念。Hadoop当然可以拿来做data archive的运用，但如果你本身的数据没有被经常或偶尔拿出来使用的需求(也就是我们所说的cold data)的话，Hadoop本身的HDFS作为data archive并不会有特别的优势，反而传统storage的一些延伸的功能特性，Hadoop本身并不具备。虽然HDFS本身是一个不错的object store，具备有作为scale-out NAS的底层的特性,，但也就仅限于此了， Hadoop本身并没有特别为它外加storage本身该具有的功能，毕竟Hadoop当初设计时，对数据的储存与运用的思考，与storage的应用场景是完全不一样的。Hadoop本身要解决的，反而是现有当数据被放进storage后，需要再被拿出来处理或运算时所遇到的困难性。也因此，它特别适合那些web click-stream、CDR (call detail record)、GPS data, system log、 and other time-series data等数据，因为这些数据都具有需要经常被拿出来分析处理的特性。在实际应用中，Hadoop与传统storage其实是相辅相成的，辟如说，我们可能会在Hadoop上放过去3到6个月的数据，因为这些数据的再被利用性较高，而6个月之后的数据就可能会把它archive在传统的storage内，因为它被再利用的程度低很多了。

7. (误解) Hadoop是一个搜索引擎(Search Engine)

(正解) Search 的确是Hadoop的一个重要的应用，但Hadoop本身并没有内含search engine。实务上，我们常会把*** 的index设计运用到***，来满足一些特定search 或query的应用，但如果要满足全文检索 (full-text search)的需求的话，你就必须在Hadoop上建构一个基于Hadoop的搜索引擎。Lucene / Katta 及其他的open source都有相对应的计划，如何借助Hadoop的特性，来实现一个强大的分布式搜索引擎，这也是我们一直密切注意、且已放进未来产品的蓝图之中的重要话题。

8. (误解) 基于Hadoop的推荐系统与传统的推荐系统并无不同

9. (误解) Hadoop不适合用来处理小档案的应用

(正解) 对Hadoop稍微有点了解的人，都会知道HDFS的block size的default 值为64MB，且不建议往下调，因为HDFS当初在设计时，并不是针对碎片般的小档案的处理而来的。所以当我们说Hadoop不适合用来处理小档案的应用时，就技术上来说是对的，但在实际运用上，却可以有不同的做法来满足海量小档案管理的需求。我们在中国曾经辅导过一个保险公司，它本身需要处理的小图档 (20KB ~ 1MB)大概有两亿个那么多，且每天还持续在成长，举凡客户的签名、看诊纪录等，都需要被扫描成图像文件，并加以储存，同时，还要偶尔被相对应的应用程序来查询、调用。在实作上，我们把这些小图档的binary file存进去***——而不是HDFS——来管理，所以HDFS block size的设定值大小就不是重点，同时，利用*** column-base 高效能与高延展性的特性，可以很轻易的就满足多人同时快速在线查询的要求，而随着档案数量持续的增加 , 横向扩充也不再是问题。类似的应用其实还不少，譬如说银行票据文件的管理就是其中一种，也因此，Etu团队在中国市场，特别针对此应用规划了 “海量小图文件管理系统”解决方案，以满足此类客户的需求。

10. (误解) Hadoop不适合用来做日志管理(Log Management)的应用

(正解) 当每天的日志量成长到一定的程度，现有的日志管理工具都会遇到瓶颈，所以一些国外的日志管理工具(如Splunk、ArcSight)都已经发布了其 Hadoop Connector，强调其与Hadoop的联系性与兼容性。所以，如果客户对日志管理的需求只是保存日志、并可以随时对日志搜索的话，那Hadoop本身即可以满足这样的应用，而对于比较复杂的日志管理且日志量非常大的需求，客户也可以从现有的日志管理工具中来挑选，并与Hadoop来搭配协同运作。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

758 2023-05-11

大数据资料之常见的Hadoop十大应用误解学习

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

大数据资料之常见的Hadoop十大应用误解学习

微信扫一扫：分享

推荐文章

友情链接

热评文章