Hugging Face推出Xet存储层结合Parquet CDC技术,实现4PB数据集上传/下载效率跃升

🎯 情报来源:Hugging Face – Blog

Hugging Face近日宣布其21PB数据集存储中占比4PB的Parquet文件迎来重大技术升级。通过整合新型Xet存储层与Apache Arrow的Parquet内容定义分块(CDC)功能,实现了数据集上传/下载效率的突破性提升。测试显示,在列增减、行插入等典型场景下,数据传输量可降低至传统方式的10%以下。

该技术突破的核心在于Xet存储层的全局内容寻址能力与Parquet CDC的协同作用。当用户修改OpenOrca等数据集时,系统仅传输变更数据块而非完整文件。在重复上传相同文件场景中,数据传输量归零;而新增两列时,实际传输数据占比不足原文件的15%。

💡 核心要点

  • 存储规模:Hugging Face平台当前托管21PB数据集,其中4PB为Parquet格式文件
  • 技术组合:Xet存储层+Parquet CDC实现跨仓库级去重,行插入场景传输量减少83%
  • 版本要求:需PyArrow≥21.0.0版本支持,Pandas同步兼容CDC功能
  • 实测效果:列类型变更场景仅需传输新列数据+元数据,数据复用率达92%
  • 应用扩展:支持多文件分片场景,不同分片策略下仍保持90%+数据复用率

📌 情报分析

技术价值:极高
解决Parquet文件字节级差异导致的去重难题,通过逻辑层CDC预分块使相同内容始终生成一致数据页,技术实现具创新性。实测数据显示行操作场景性能提升5-10倍。

商业价值:高
每年可节省数百万美元云存储成本(按4PB存储量计算)。缩短AI研发周期,数据集版本迭代效率提升显著,尤其利好需要频繁修改标注的NLP项目。

趋势预测:高
内容寻址存储将成为AI基建标配,技术文档显示该架构已支持跨仓库数据共享,未来可能扩展至模型权重管理等更多场景,形成MLOps新范式。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索