黄东旭关于基础软件产品价值的思考
694
2023-05-20
2020年将激发大数据和SQL 5大趋势
分布式数据处理,协作式SQL和开源
SQL是当今工作场所最需要的技术技能之一。 该技术可以追溯到1970年代,至今仍是我们连接大多数数据系统的方式。 不管使用了什么拖放工具,还是试图用新的查询范式取代它,它仍然存在。
我们今天将要谈论的许多现代数据库技术一直都必须遵守SQL策略,而SQL需要进行更新。
但是,这并不是说SQL的环境在过去的几十年中没有发生太大变化,并且不会继续发展。 这是SQL坚持这么多的原因之一。 它与时俱进。
本文将总结SQL和数据分析领域当前发生的一些主要趋势。
我们将讨论SQL如何变得更加协作和开放,我们这个世界上继续运行的大多数数据库如何是开源的或切换到开源的,以及提出一些您可能没有听说过的技术,但是 应该提防。
在技术领域中发生了如此多的事情之后,这将有助于清晰地了解SQL和数据领域中一些更重要的变化。
SQL不仅仅适合数据驱动公司中的数据工程师和分析师
如果您曾经在FAANG或甚至是Instacart之类的技术驱动型初创公司工作过,那么您可能已经意识到,数据驱动着一切-分析师,产品经理和产品经理开始不必要地理解SQL。
SQL是数据的语言,如果要与数据进行交互,则需要了解它。
您是否想轻松计算出用户花在产品上的平均时间,但又不想等待分析师? 您最好弄清楚如何运行查询。
不再需要安装SQL编辑器的事实也推动了这种轻松运行查询的能力。 借助基于云的数据,仓库附带了SaaS SQL编辑器。 在下一节中,我们将更多地讨论SaaS SQL编辑器。
但是,这里的重要部分是您不必等待30分钟就可以安装编辑器,而不必理会所有管理它的麻烦。
现在,您只需转到URL即可访问团队的数据仓库。 这使公司中的任何人都可以轻松访问其数据。
总体而言,我们预见了一个未来,不仅仅是大型科技公司正在使用SQL和分析来制定明智的决策。 为此,我们将需要能够使任何人更轻松地访问其公司数据的工具。
SQL和Analytics(分析)正变得更加协作
SQL和分析变得更加协作。 如前所述,从数据中获取见解变得越来越多。 这意味着更多的人正在参与创建查询,分析和指标。
协作工作始于Google表格之类的产品。 这种趋势一直在扩展到SaaS产品,例如Figma(协作设计)和PopSQL(协作SQL)。
诸如PopSQL之类的技术为您的团队提供了通过文件夹和版本控制轻松协作并跟踪查询工作的能力。
现在,您不必担心有人不小心更改了报表或仪表板上的查询。 版本控制可让您还原先前保存状态下的查询。 这样可以确保您的团队与SQL和用于计算指标的逻辑始终处于同一页面上。
您还可以轻松共享查询,更新查询,将其派生并可视化数据。
此外,Figma,Google Sheets和PopSQL等工具可轻松与Slack等其他协作工具集成。 这些集成还使您的团队可以轻松共享图表,查询,设计和见解。
您的团队可以轻松地看到其他人正在做的工作,正在做的更改,并了解为什么要进行更改。
随着远程工作的概念在许多公司中变得越来越现实,拥有易于协作的工具将变得非常重要。
最后,像PopSQL这样的技术在自助服务分析方面迈出了重要的一步,因为它们将查询数据的能力置于分析师和数据工程师的手中。
开源仍然是很受欢迎的数据库
像***和MSSQL这样的付费许可数据库管理系统对于团队来说似乎是非常受欢迎的选择。 但是,MySQL和Postgres这两个开源数据库管理系统是当前开发人员最喜欢使用的选项。
根据EverSQL在2018年和2020年进行的一项调查,MySQL仍然是开发最流行的数据库管理系统。 另外,根据Stack Overflow的数据,Postgres最近已超过MSSQL,成为第二受欢迎的数据库。
Postgres引入了一种新型的关系数据库。 这就是所谓的对象关系数据库管理系统(ORDMS)。 这具有与面向对象的编程类似的属性,您可以在其中具有类和继承。 另外,有关Postgres的其他一些漂亮功能是它允许数组并具有一些PubSub功能。
向开源的转变并不新鲜。 但是,事实是,许多公司开始放弃使用***和Microsoft的免费选项。 他们选择支付云计算成本还是支付许可成本。
总体而言,我们发现开发人员的数据库选择发生了许多变化。
云优先的开源数据库正在获得牵引力和资金
尽管对于选择从***转向开放源代码解决方案的公司来说,Postgres经常是一个常见的选择,但在开发Postgres时并未考虑到云基础架构和复杂性。
这迫使团队开发复杂的云基础架构,以管理在全球范围内使用的应用程序。
但是,还有其他开源解决方案。 在2019年7月,YugabyteDB开源了100%。 现在许多人可能会问(特别是如果您在美国),"什么是YugabyteDB?"
YugaByte专有的面向文档的存储格式是RocksDB的高度定制形式,可提供低延迟访问和高数据密度。 它在流行和已知的API上运行。
YugaByte旨在填补所有空白。 想要也是ACID的NoSQL数据库吗? 然后Yugabyte打算占领这个市场。
它正在寻求解决开发人员在部署SQL数据库(如MySQL)时遇到的问题,这些SQL数据库需要分片和复杂的基础架构来运行多区域系统。
YugaByteDB通过自动分片和负载平衡以及其他一些利用云优先方法的功能来实现此目的。
那么,如果YugaByte自2016年以来一直存在,为什么还要在此更新中使用它呢?
这是因为Wipro Ventures本月初向Yugabyte投资了3000万美元。 此外,Wipro还计划将Yugabyte的开源SQL数据库带给客户。 有1,000家可能正在使用Yugabyte的新公司。
尽管Yugabyte不在EverSQL的调查结果中,但在未来几年中,由于受到更多的关注和更多用户的关注,它可能会出现。 现在,说实话,解决NoSQL和标准关系数据库所有问题的数据库将是一个奇迹。 因此,从很多方面来说,我们感到惊讶的是并没有得到更大的采用。
我们很想知道在未来几年中,Yugabyte是否像承诺解决组织中所有问题的许多其他奇迹技术一样,或者像许多其他奇迹般消失了。
用于数据仓库的分布式数据库已成为常态
在技术世界中,数据库有两种主要用途:应用程序和分析。
这两个主要用例得益于不同的数据库系统和不同的数据库设计。
特别是,为单个公司的数千名分析师,数据科学家和数据工程师运行数百万次计算的分析数据库通常会受益于某种形式的分布式或并行组件。 想想Redshift及其如何依赖MPP(大规模并行处理)。
但是,这个领域有很多新的SQL和NoSQL技术。
例如,Facebook Presto的分支Starburst,又获得了4,200万美元的资金。 Starburst是Facebook开源项目(Presto)的衍生产品。 Starburst的目标是创建Presto的企业版,因为Presto本身不具有访问管理功能,Teradata,Snowflake和***等企业系统的连接器,或者用户可以在其中配置集群以自动扩展的管理控制台。
对于大多数公司来说,这使Presto很难单独使用。 真可惜,因为Presto允许您轻松地跨数据库运行查询,而无需将数据加载到数据仓库中。
因此,最近为Starburst提供的资金非常值得一看。 我们期待看到这项技术的发展方向,并希望更多的公司可以利用Presto的优势,而不必麻烦管理Presto的所有复杂性。
当我们谈论像Presto这样的分布式数据库系统时,本月另一个有趣的发展是Spark 3.0的发布。 新版本的Spark带来了许多增强功能。 其中许多增强功能旨在使Spark SQL变得更符合ANSI SQL。
这是重要的说明。 一种似乎仍然正确的模式是您无法照原样摆脱SQL。 许多工具和技术已尝试开发其查询语言。 但是,归根结底,SQL仍然存在-与许多已经淘汰的编程语言不同。
SQL仍然是数据的语言。
您的团队如何利用您的数据?
数据库和SQL不会无处可去。 如果有的话,它们正变得越来越普遍。 诸如Starburst和PopSQL之类的工具显示出让您的工程师,分析师,甚至您的非技术人员都精通数据的重要性。
这些技术或类似技术肯定会在大小公司中大量使用,因此它们可以帮助改善决策。
我们喜欢看到PopSQL和Starburst等工具。 这些工具通过使SQL更具协作性并简化诸如Presto之类的强大技术的部署来打开数据世界。 这有助于提高公司执行数据分析,做出更好的决策和开发更好的数据流程的能力。
这样一来,我们将总结每两周一次的数据和技术世界动态。 我们的目标是继续提供有关新兴技术,风险投资等方面的未来更新。
敬请关注!
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。