当前位置：首页 > 科技资讯 > Meta新工具SPDL亮相：AI模型训练数据效率飙升，吞吐量增2-3倍

Meta新工具SPDL亮相：AI模型训练数据效率飙升，吞吐量增2-3倍

发布时间：2024-12-31 05:04:54 作者：001资源网阅读：1次

近日消息，AI 模型训练迎来新突破，Meta AI 推出开源高性能数据加载工具 SPDL，有效提升数据管理效率，从而显著加快训练速度。

SPDL 工具采用多线程技术，在常规 Python 解释器中（未启用 free-threading 选项）实现了高吞吐量，资源占用更低，并兼容 Free-Threaded Python。

核心优势

SPDL 包含任务执行器（流水线抽象）、构建流水线的实用工具以及高效且线程安全的媒体处理操作，其核心是异步事件循环，负责调度新任务和响应任务完成。SPDL 通过将同步操作委托给线程异步执行，实现真正的并发。

相比较传统基于进程（process）的处理方式，SPDL 工具升级改用基于线程（thread）的加载方式，有效避免了进程间通信的开销，显著提升了数据传输速度。

该工具的另一个亮点在于预取和缓存技术，确保 GPU 始终有数据可供处理，最大程度减少 GPU 空闲时间，提高系统整体效率。

无论是单 GPU 还是大型集群，SPDL 支持跨分布式系统工作，可以高效处理复杂任务；SPDL 工具还无缝兼容主流 AI 框架 PyTorch，方便团队快速采用。

性能

Meta 表示相比传统基于进程的方案，SPDL 吞吐量提升 2-3 倍；此外在禁用 GIL 的 Free-Threaded Python 环境中，SPDL 吞吐量提升 30%。SPDL 提供性能监控和调优工具，方便用户深入了解数据加载过程并进行优化。

近日消息，科技界迎来了一场重磅盛宴，Meta 公司正式发布了其年度压轴 AI 大模型——Llama 3.3。这款全新的 AI 模型拥有 700 亿参数，尽管参数规模相较之前的 Llama 3.1 缩小了不少，但在性能方面却实现了惊人的提升，足以与拥有 4050 亿参数的 Llama 3.1 媲美。

Meta年终巨献：Llama 3.3 AI模型开源，700亿参数性能惊艳

Meta 强调 Llama 3.3 模型效率更高、成本更低，可以在标准工作站上运行，降低运营成本的同时，提供高质量文本 AI 解决方案。

Llama 3.3 模型重点优化了多语言支持，支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语 8 种语言。

在架构方面，Llama 3.3 是一款自回归（auto-regressive）语言模型，使用优化的 transformer 架构，其微调版本使用了监督式微调（SFT）和基于人类反馈的强化学习（RLHF），让其与人类对有用性和安全性的偏好保持一致。

Llama 3.3 上下文长度为 128K，支持多种工具使用格式，可与外部工具和服务集成，扩展模型的功能。

安全方面，Meta 采用数据过滤、模型微调和系统级安全防护等措施，以降低模型滥用的风险；此外 Meta 鼓励开发者在部署 Llama 3.3 时采取必要的安全措施，例如 Llama Guard 3、Prompt Guard 和 Code Shield，以确保模型的负责任使用。

近日消息，Meta 与斯坦福大学联合推出了全新的 AI 模型系列 Apollo，这一创新举措显著增强了机器对视频内容的理解能力。

Meta发布Apollo开源模型：赋予AI视频理解能力

注：尽管人工智能在处理图像和文本方面取得了巨大进步，但让机器真正理解视频仍然是一个重大挑战。

视频包含复杂的动态信息，人工智能更难处理这些信息，不仅需要更多的计算能力，而且如何设计最佳 AI 视频解读系统，也存在诸多困难。

在视频处理方面，研究人员发现，保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型使用两个不同的组件，一个处理单独的视频帧，而另一个跟踪对象和场景如何随时间变化。

此外，在处理后的视频片段之间添加时间戳，有助于模型理解视觉信息与文本描述之间的关系，保持时间感知。

在模型训练方面，团队研究表明训练方法比模型大小更重要。Apollo 模型采用分阶段训练，按顺序激活模型的不同部分，比一次性训练所有部分效果更好。

此外 Meta 公司还不断优化数据组合，发现 10~14% 的文本数据，其余部分略微偏向视频内容，可以更好地平衡语言理解和视频处理能力。

Apollo 模型在不同规模上均表现出色，较小的 Apollo-3B 超越了 Qwen2-VL 等同等规模的模型，而 Apollo-7B 超过更大参数的同类模型，Meta 已开源 Apollo 的代码和模型权重，并在 Hugging Face 平台提供公开演示。

热门文章

应用排行游戏排行

热门合集