亚马逊推出高性能 PyTorch 数据集库 —— S3 Plugin-PingCAP

亚马逊推出高性能 PyTorch 数据集库 —— S3 Plugin

网友投稿 1242 2023-06-03

亚马逊推出高性能 PyTorch 数据集库 —— S3 Plugin

亚马逊近日为 Facebook 的 PyTorch 机器学习框架推出了一个名为 S3 Plugin 的数据集库，旨在帮助数据科学家访问存储在 AWS S3(Amazon Web Services Simple Storage Service) 中的数据集。它专为低延迟而设计，亚马逊表示，S3 Plugin 为任何规模的数据集提供了流式传输数据的功能，消除了提供本地存储容量的需要。

PyTorch 是一个基于 Torch 库的开源机器学习库，用于计算机视觉和自然语言处理等应用，主要由 Facebook 的 AI 研究实验室开发。它是在修改的 BSD 许可下发布的免费开源软件，底层由 C++ 实现。

许多深度学习软件都建立在 PyTorch 之上，包括特斯拉自动驾驶、Uber 的 Pyro 和 HuggingFace 的 Transformers 等。PyTorch 主要提供了两个高级功能：

Tensor 计算(如 NumPy)，通过图形处理单元(GPU)进行强力加速建立在基于类型的自动微分系统上的深度神经网络

自 2016 年 10 月发布以来，PyTorch 在数据科学和开发人员社区中得到快速成长。2019 年，该平台的贡献者数量同比增长超过 50%，达到近 1200 人。根据研究机构的分析发现，2019 年的每个主要的人工智能会议都有大部分论文是用 PyTorch 实现的，2019 年上半年，论文中 PyTorch 的引用量增长了 194% 以上。

亚马逊在博客文章中写道："有了 PyTorch 深度学习容器中的这项功能，用户可以利用 PyTorch 数据集和数据加载器 API 直接使用 S3 中的数据，而不需要先在本地存储中下载。针对 PyTorch 开发的 S3 Plugin 提供了从 Amazon S3 到 PyTorch 使用数据的原生体验，而无需在代码中增加复杂性。"

S3 Plugin 的优势包括：

PyTorch 支持两种不同类型的数据集，适用于 PyTorch 的 S3 Plugin 可根据你的需要灵活地使用两者;S3 Plugin 可以使用各种格式的训练数据来训练机器学习模型。它与文件格式无关，并将 Amazon S3 上的对象呈现为 blob，并能对从 Amazon S3 接收的输入进行其他转换;S3 Plugin 提供了一种方法，可以使用 ShuffleDataset 在内存中洗数据，或者在扩展 S3IterableDataset 时通过提供输入参数 shuffle_urls 在内存中洗数据;

PyTorch 的 S3 Plugin 提供了一种从 S3 并行传输数据的方法，以及对来自归档文件的数据流的支持。亚马逊表示，由于该插件是 PyTorch 内部接口的实现，它不需要修改现有的代码就可以与 S3 配合使用。

适用于 PyTorch 的 S3 Plugin 提升了 PyTorch 的易用性和灵活性，感兴趣的开发者可以通过预配置的 PyTorch Docker 镜像使用，或直接从 GitHub 仓库使用。

本文转自OSCHINA

本文标题：亚马逊推出高性能 PyTorch 数据集库 —— S3 Plugin

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1242 2023-06-03

亚马逊推出高性能 PyTorch 数据集库 —— S3 Plugin

黄东旭解析 TiDB 的核心优势

黄东旭关于基础软件产品价值的思考

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20