使用基于Snowflake的Snowpark DataFrames进行数据处理-PingCAP

使用基于Snowflake的Snowpark DataFrames进行数据处理

网友投稿 1010 2023-06-13

使用基于Snowflake的Snowpark DataFrames进行数据处理

简介

Snowpark是Snowflake一个新的开发库，它提供了一个API让用户可以使用编程语言像Scala(后续也会有Java和Python)来代替SQL进行数据处理。

Snowpark的核心概念是DataFrame(数据框)，它表示一组数据，就比如说一些数据库表的行，我们可以用最喜欢的工具通过面向对象或者函数式编程的方式处理。Snowpark DataFrames的概念类似于Apache Spark或者Python中Pandas包的DataFrames的含义，是一种表格型的数据结构。

开发者也可以创建自定义函数推送到Snowflake服务器，来更方便地处理数据。Snowpark的代码执行采用了惰性计算的方式，这减少了从Snowpark仓库到客户端之间的数据流转。

当前版本的Snowpark可以运行在Scala 2.12和JDK 8、9、10或11上。它现在处于公开预览阶段，可用于所有账户。

架构特点

从架构的角度来看，Snowpark客户端类似于Apache Spark Driver程序。它执行用户在客户端编写的代码并转为SQL语句推送给Snowpark数据仓库，等Snowpark计算服务端处理完数据后，接收以DataFrame格式组成的返回结果。

广义的说，Snowpark数据仓库的操作可以分为两类：转换和执行。由于转换是延迟执行的，因此它们不会触发DataFrames数据的计算处理过程。像select(查询)，filter(过滤)，sort(排序)，groupBy(分组)等等都属于转换范畴的操作。而执行是正好相反的，它们会触发对DataFrames数据的计算。Snowpark将针对DataFrame数据的SQL语句发送到服务端进行计算，然后将结果返回给客户端内存。show，collect，take等都属于执行操作。

Snowpark执行

在我们可以执行任何Snowpark转换和执行之前，我们需要先连接到Snowpark数据仓库并建立会话。

从Snowpark管理页面上看，我们有一个SALESFORCE_DB数据库和一个有3个表的SALESFORCE：SALESFORCE_ACCOUNT表表示来自Salesforce实例的账户，SALESFORCE_ORDER表存储由这些账户发起的订单，SALESFORCE_ACCOUNT_ORDER是一个关联表，存储关联的查询结果(我们在这篇文章的后面会再论述这点)。

要检索Salesforce_Account表的前10行，我们可以简单地执行以下DataFrame方法：

Scala

// Create a DataFrame from the data in the "salesforce_account" table. val dfAccount = session.table("salesforce_account") // To print out the first 10 rows, call: dfAccount.show()

Snowpark会把代码转换成SQL语句并交给Snowflake执行：

Scala

在我们的VSCode IDE中的输出看起来像这样:

我们也可以过滤某些行并执行DataFrame的转换(例如，选择指定的列)：

Scala

val dfFilter = session.table("salesforce_account").filter(col("type") === "Customer - Direct") dfFilter.show() val dfSelect = session.table("salesforce_account").select(col("accountname"), col("phone")) dfSelect.show()

Snowpark将生成相应的SQL查询，并将它们交给Snowflake计算服务器执行：

下面是在VSCode中的输出：

Snowpark DataFrame API也允许DataFrames数据间的拼接关联。在这个例子中，我们有SALESFORCE_ORDER表，记录了由Salesforce账户产生的账单数据，我们可以将这些数据拉到DataFrame中，并将它们与账户记录连接起来：

Scala

val dfOrder = session.table("salesforce_order") dfOrder.show() val dfJoin = dfAccount.join(dfOrder, col("sfdcid") === col("accountid")).select(col("accountname"), col("phone"),col("productname"), col("amount")) dfJoin.show()

Snowflake把DataFrame方法转换为SQL语句，然后推送给Snowflake数据仓库进行计算。在VSCode中输出如下：

如果我们想持久化保存计算结果，可以使用saveAsTable这个方法：

Scala

dfJoin.write.mode(SaveMode.Overwrite).saveAsTable("salesforce_account_order")

生成的SQL语句看起来就像这样：

Scala

随后，Snowpark会创建一个新表或者替换掉已存在的旧表，来存储生成的数据：

结语

Snowpark为数据处理提供了丰富的操作和工具。它允许用户创建非常复杂的高级数据处理管道操作。将用户自定义的代码推到Snowflake数据仓库服务端，并通过减少不必要的数据传输，在数据端执行，这是Snowpark的一个非常强大的特性。

译者介绍

卢鑫旺，51CTO社区编辑，半路出家的九零后程序员。做过前端页面，写过业务接口，搞过爬虫，研究过JS，有幸接触Golang，参与微服务架构转型。目前主写Java，负责公司可定制化低代码平台的数据引擎层设计开发工作。

原文标题：Snowflake Data Processing With Snowpark DataFrames，作者：Istvan Szegedi

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1010 2023-06-13

使用基于Snowflake的Snowpark DataFrames进行数据处理

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20