网站首页 > 百姓新闻> 文章内容

滴滴云Notebook上使用 BlazingSQL 加速BI分析

※发布时间:2020-12-28 15:21:21   ※发布作者:平民百姓   ※出自何处: 


BlazingSQL

BlazingSQL是RAPIDS生态系统的GPU加速SQL引擎,现在在 Apache 2.0 许可下开源。
RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。

BlazingSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS基于Apache Arrow柱状内存格式,cuDF是一个GPU DataFrame库,用于加载、连接、聚合、过滤和操作数据,

BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。

主要特性:

查询本地和外部存储数据 - 单行代码可以注册远程存储解决方案,例如 Google Cloud Storage。

简单的SQL - 非常容易使用,运行SQL查询,结果是GPU DataFrames(GDF)。

互操作性 - 任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。

滴滴云平台团队在此基础上打通了滴滴云对象存储S3,使得BlazingSQL可以直接用SQL操作S3上的文件对象。支持的文件格式包括:csv,parquet, orc, gdf,json。

 举例

如图创建 notebook SQL-GPU分析实例,输入大师码2048享受9折优惠。*注意选择16GB内存规格。然后在[我的对象存储密钥]拿到S3的AK,SK密钥, 成功创建 notebook 后,我们打开 python rapids 环境。

我们来看一个分析 Graphistry Netflow Analysis 实际的例子,
原始数据集来自:

https://blazingsql-colab.s3.amazonaws.com/netflow_data/nf-chunk2.csv

上图是读取S3 并进行SQL分析的例子。
https://github.com/BlazingDB/bsql-demos/blob/master/vs_pyspark_netflow.ipynb

这里是读取本地文件分析的例子,经过GPU加速后,比用spark分析快了6x。

 总结

在滴滴云GPU notebook产品里,我们将易用性更进一步。结合我们的DAI notebook产品,可以直接在基于jupyter环境的notebook里进行SQL开发、调试、运行,简单易用。

开发者不用关心底层CUDA和GPU技术细节,甚至不用了解CUDF,CUML的API,开发者可以聚焦和投入到数据分析最核心的业务逻辑上去,滴滴云DAI notebook产品和底层GPU云服务器,为这一切提供了强有力的底层技术支撑。更关键的是,物美价廉,性价比高!欢迎大家使用!

另外敬请期待SaaS 版的BlazingSQL!输入AI大师码【1122】,滴滴云GPU全线产品享9折优惠。

相关阅读
  • 没有资料