文盘 Rust 探索 Rust 连接 OSS

网友投稿 442 2024-04-09

notice"Rust is a trademark of the Mozilla Foundation in the US and other countries."

对象存储是云的基础组件之一，各大云厂商都有相关产品。这里跟大家介绍一下rust与对象存储交到的基本套路和其中的一些技巧。

基本连接

我们以 aws 对象存储的sdk为例来说说基本的连接与操作，目前对象存储的客户端除了aws的还有一些第三方库，不过从功能和工程完整度上来讲 aws 的rust 库最为优秀，而且公有云市场上的大部分对象存储产品都与其兼容。作者验证过aws、京东云、***。主要的增删改查功能没有什么差别。

建立客户端

let shared_config = SdkConfig::builder() .credentials_provider(SharedCredentialsProvider::new(Credentials::new( "LTAI5t7NPuPKsXm6UeSa1", "DGHuK03ESXQYqQ83buKMHs9NAwz", None, None, "Static", ))) .endpoint_url("http://oss-cn-beijing.aliyuncs.com") .region(Region::new("oss-cn-beijing")) .build(); lets3_config_builder= aws_sdk_s3::config::Builder::from(&shared_config); let client = aws_sdk_s3::Client::from_conf(s3_config_builder.build());

建立Client所需要的参数主要有你需要访问的oss的AK、SK，endpoint url 以及服务所在的区域。以上信息都可以在服务商的帮助文档查询到。

对象列表

let mut obj_list = client .list_objects_v2() .bucket(bucket) .max_keys(max_keys) .prefix(prefix_str) .continuation_token(token_str); let list = obj_list.send().await.unwrap(); println!(,list.contents()); println!(,list.next_continuation_token());

使用list_objects_v2函数返回对象列表，相比list_objects函数，list_objects_v2可以通过continuation_token和max_keys控制返回列表的长度。list.contents()返回对象列表数组，list.next_continuation_token()返回继续查询的token。

上传文件

let content = ByteStream::from("content in file".as_bytes()); let exp = aws_smithy_types::DateTime::from_secs(100); let upload = client .put_object() .bucket("bucket") .key("/test/key") .expires(exp) .body(content); upload.send().await.unwrap();

指定bucket及对象路径，body接受ByteStream类型作为文件内容，最后设置过期时间expires，无过期时间时不指定该配置即可。

下载文件

let key = "/tmp/test/key".to_string(); let resp = client .get_object() .bucket("bucket") .key(&key) .send() .await.unwrap(); let data = resp.body.collect().await.unwrap(); let bytes = data.into_bytes(); let path = std::path::Path::new("/tmp/key") if let Some(p) = path.parent() { std::fs::create_dir_all(p).unwrap(); } let mut file = OpenOptions::new() .write(true) .truncate(true) .create(true) .open(path).unwrap(); let _ = file.write(&*bytes); file.flush().unwrap();

通过get_object()函数获取GetObjectOutput。返回值的body 就是文件内容，将 body 转换为 bytes，最后打开文件写入即可。

删除文件

let mut keys = vec![]; let key1 = ObjectIdentifier::builder() .set_key(Some("/tmp/key1".to_string())) .build(); let key2 = ObjectIdentifier::builder() .set_key(Some("/tmp/key2".to_string())) .build() keys.push(key1); keys.push(key2) client .delete_objects() .bucket(bucket) .delete(Delete::builder().set_objects(Some(keys)).build()) .send() .await .unwrap();

delete_objects 批量删除对象。首先构建keys vector，定义要删除的对象，然后通过Delete::builder()，构建 Delete model。

大文件上传

let mut file = fs::File::open("/tmp/file_name").unwrap(); let chunk_size = 1024*1024; let mut part_number = 0; let mut upload_parts: Vec<CompletedPart> = Vec::new(); //获取上传id let multipart_upload_res: CreateMultipartUploadOutput = self .client .create_multipart_upload() .bucket("bucket") .key("/tmp/key") .send() .await.unwrap(); let upload_id = match multipart_upload_res.upload_id() { Some(id) => id, None => { return Err(anyhow!("upload id is None")); } }; //分段上传文件并记录completer_part loop { let mut buf = vec![0; chuck_size]; let read_count = file.read(&mut buf); part_number += 1; if read_count == 0 { break; } let body = &buf[..read_count]; let stream = ByteStream::from(body.to_vec()); let upload_part_res = self .client .upload_part() .key(key) .bucket(bucket) .upload_id(upload_id) .body(stream) .part_number(part_number) .send() .await.unwrap(); let completer_part = CompletedPart::builder() .e_tag(upload_part_res.e_tag.unwrap_or_default()) .part_number(part_number) .build(); upload_parts.push(completer_part); if read_count != chuck_size { break; } } // 完成上传文件合并 let completed_multipart_upload: CompletedMultipartUpload = CompletedMultipartUpload::builder() .set_parts(Some(upload_parts)) .build(); let _complete_multipart_upload_res = self .client .complete_multipart_upload() .bucket("bucket") .key(key) .multipart_upload(completed_multipart_upload) .upload_id(upload_id) .send() .await.unwrap();

有时候面对大文件，比如几百兆甚至几个G的文件，为了节约带宽和内存，我才采取分段上传的方案，然后在对象存储的服务端做合并。基本流程是：指定bucket和key，获取一个上传id；按流读取文件，分段上传字节流，并记录CompletedPart;通知服务器按照CompletedPart 集合来合并文件。具体过程代码已加注释，这里不再累述。

大文件下载

let mut file = match OpenOptions::new() .truncate(true) .create(true) .write(true) .open("/tmp/target_file"); let key = "/tmp/test/key".to_string(); let resp = client .get_object() .bucket("bucket") .key(&key) .send() .await.unwrap(); let content_len = resp.content_length(); let mut byte_stream_async_reader = resp.body.into_async_read(); let mut content_len_usize: usize = content_len.try_into().unwrap(); loop { if content_len_usize > chunk_size { let mut buffer = vec![0; chunk_size]; let _ = byte_stream_async_reader.read_exact(&mut buffer).await.unwrap(); file.write_all(&buffer).unwrap(); content_len_usize -= chunk_size; continue; } else { let mut buffer = vec![0; content_len_usize]; let _ = byte_stream_async_reader.read_exact(&mut buffer).await.unwrap(); file.write_all(&buffer).unwrap(); break; } } file.flush().unwrap();

在从对象存储服务端下载文件的过程中也会遇到大文件问题。为了节约带宽和内存，我们采取读取字节流的方式分段写入文件。首先get_object()函数获取ByteStream，通过async_reader流式读取对象字节，分段写入文件。

对象存储的相关话题今天先聊到这儿，下期见。

文盘 Rust 探索 Rust 连接 OSS

基本连接

大文件上传

大文件下载

黄东旭解析 TiDB 的核心优势

黄东旭关于基础软件产品价值的思考

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20