当前位置: 首页 > 科技资讯 > 智源研究院推出1bit轻量化预训练模型BiPFT,平均性能超过了15.4%

智源研究院推出1bit轻量化预训练模型BiPFT,平均性能超过了15.4%

发布时间:2024-07-28 02:21:40 作者:001资源网 阅读:1次

近日消息,智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。

智源研究院推出1bit轻量化预训练模型BiPFT,平均性能超过了15.4%

与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。

另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。

实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。

智源研究院公布Tele-FLM-1T:全球首个人工智能万亿级密集模型开源

近日消息,北京智源人工智能研究院与中国电信人工智能研究院(TeleAI)合作升级了Tele-FLM系列大模型,最新发布包含52B指令模型FLM-2-52B-Instruct,以及全球首个人工智能领域的万亿级单体稠密模型Tele-FLM-1T。伴随这一里程碑式的发布,相关技术文档与模型checkpoint均已开源,为全球AI研究社区贡献了宝贵资源。

智源研究院公布Tele-FLM-1T:全球首个人工智能万亿级密集模型开源

FLM-2-52B-Instruct是基于Tele-FLM-52B基座模型进行指令微调获得的指令对话模型,专注于提升中文对话能力。通过监督微调,使用100万条开源指令数据进行训练,最终基于3万条数据的子集获得了最优结果。

这些数据包括数学题目、代码和多轮对话数据。模型训练采用了特定的batch size、学习率和epoch设置,并在AlignBench评测平台上进行了评测。结果显示,FLM-2-52B-Instruct在中文对话能力上达到了GPT-4的90%。

Tele-FLM-1T是全球首个开源的万亿参数稠密模型,采用生长式预训练以节省成本。模型结构在GPT系列的decoder-only Transformers基础上进行了改进,包括加入Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。生长策略包括横向生长和纵向生长,使用了基于MSG改进的保值算子。预训练过程中采用了特定的超参数设置。

智源研究院联合清华共同推出生成模型GeoDream,解决3D结构不一致性的问题

智源研究院是人工智能领域的新型研发机构,在近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。

智源研究院联合清华共同推出生成模型GeoDream,解决3D结构不一致性的问题

与传统的方法不同,GeoDream 通过解耦的方式利用2D 和3D 先验,解决了3D 结构不一致性的问题,并支持导出高保真的 texture meshes 和高分辨率的渲染图片。

该模型还提供了 Uni3D metric,用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源,并已集成到 threestudio 等开源库中。

该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验,并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。

此外,GeoDream 还提供了新的量化指标和评价方法,以更好地度量和比较生成的3D 模型的质量。最后,GeoDream 展示了对复杂输入的生成结果,支持导出 meshes 和高分辨率 UV maps,方便后续的3D 创作和应用。

智源研究院突破性成果:EVE——开创无编码器视觉语言多模态新时代

近期,多模态学习领域的研究与实践确实迎来了一个飞速发展的时期,不仅国际上的科技巨头OpenAI、Google、Microsoft等持续推出了前沿的多模态大模型,诸如DALL-E和LaMDA,国内同样涌现出一批佼佼者,例如智谱AI和阶跃星辰,它们在多模态模型的探索上也实现了显著的成就,推动了技术边界的扩展。

智源研究院突破性成果:EVE——开创无编码器视觉语言多模态新时代

为解决这些问题,智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE。EVE通过精细化训练策略和额外的视觉监督,将视觉-语言表征、对齐和推理整合到统一的纯解码器架构中。使用公开数据,EVE在多个视觉-语言基准测试中表现优异,接近甚至优于基于编码器的主流多模态方法。

EVE的主要特点包括:

原生视觉语言模型:去除视觉编码器,处理任意图像长宽比,显著优于同类型Fuyu-8B模型。

数据和训练代价少:预训练使用OpenImages、SAM和LAION等公开数据,训练时间较短。

透明和高效的探索:为纯解码器的原生多模态架构提供了高效、透明的发展路径。

模型结构:

Patch Embedding Layer:通过单层卷积层和平均池化层获取图像2D特征图,增强局部特征和全局信息。

Patch Aligning Layer:整合多层网络视觉特征,实现与视觉编码器输出的细粒度对齐。

训练策略:

大语言模型引导的预训练阶段:建立视觉和语言之间的初步联系。

生成式预训练阶段:提高模型对视觉-语言内容的理解能力。

监督式的微调阶段:规范模型遵循语言指令和学习对话模式的能力。

定量分析:EVE在多个视觉语言基准测试中表现优异,与多种主流的基于编码器的视觉语言模型相当。尽管在准确响应特定指令方面存在挑战,但通过高效的训练策略,EVE实现了与带编码器基础的视觉语言模型相当的性能。

EVE展示了无编码器原生视觉语言模型的潜力,未来可能通过进一步的性能提升、无编码器架构的优化和原生多模态的构建,继续推动多模态模型的发展。

渝ICP备20008086号-39 违法和不良信息举报/未成年人举报:linglingyihcn@163.com

CopyRight©2003-2018 违法和不良信息举报(12377) All Right Reserved