近日消息,智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。
与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。
另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。
实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
近日消息,北京智源人工智能研究院与中国电信人工智能研究院(TeleAI)合作升级了Tele-FLM系列大模型,最新发布包含52B指令模型FLM-2-52B-Instruct,以及全球首个人工智能领域的万亿级单体稠密模型Tele-FLM-1T。伴随这一里程碑式的发布,相关技术文档与模型checkpoint均已开源,为全球AI研究社区贡献了宝贵资源。
FLM-2-52B-Instruct是基于Tele-FLM-52B基座模型进行指令微调获得的指令对话模型,专注于提升中文对话能力。通过监督微调,使用100万条开源指令数据进行训练,最终基于3万条数据的子集获得了最优结果。
这些数据包括数学题目、代码和多轮对话数据。模型训练采用了特定的batch size、学习率和epoch设置,并在AlignBench评测平台上进行了评测。结果显示,FLM-2-52B-Instruct在中文对话能力上达到了GPT-4的90%。
Tele-FLM-1T是全球首个开源的万亿参数稠密模型,采用生长式预训练以节省成本。模型结构在GPT系列的decoder-only Transformers基础上进行了改进,包括加入Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。生长策略包括横向生长和纵向生长,使用了基于MSG改进的保值算子。预训练过程中采用了特定的超参数设置。
智源研究院是人工智能领域的新型研发机构,在近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。
与传统的方法不同,GeoDream 通过解耦的方式利用2D 和3D 先验,解决了3D 结构不一致性的问题,并支持导出高保真的 texture meshes 和高分辨率的渲染图片。
该模型还提供了 Uni3D metric,用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源,并已集成到 threestudio 等开源库中。
该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验,并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。
此外,GeoDream 还提供了新的量化指标和评价方法,以更好地度量和比较生成的3D 模型的质量。最后,GeoDream 展示了对复杂输入的生成结果,支持导出 meshes 和高分辨率 UV maps,方便后续的3D 创作和应用。
近期,多模态学习领域的研究与实践确实迎来了一个飞速发展的时期,不仅国际上的科技巨头OpenAI、Google、Microsoft等持续推出了前沿的多模态大模型,诸如DALL-E和LaMDA,国内同样涌现出一批佼佼者,例如智谱AI和阶跃星辰,它们在多模态模型的探索上也实现了显著的成就,推动了技术边界的扩展。
为解决这些问题,智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE。EVE通过精细化训练策略和额外的视觉监督,将视觉-语言表征、对齐和推理整合到统一的纯解码器架构中。使用公开数据,EVE在多个视觉-语言基准测试中表现优异,接近甚至优于基于编码器的主流多模态方法。
EVE的主要特点包括:
原生视觉语言模型:去除视觉编码器,处理任意图像长宽比,显著优于同类型Fuyu-8B模型。
数据和训练代价少:预训练使用OpenImages、SAM和LAION等公开数据,训练时间较短。
透明和高效的探索:为纯解码器的原生多模态架构提供了高效、透明的发展路径。
模型结构:
Patch Embedding Layer:通过单层卷积层和平均池化层获取图像2D特征图,增强局部特征和全局信息。
Patch Aligning Layer:整合多层网络视觉特征,实现与视觉编码器输出的细粒度对齐。
训练策略:
大语言模型引导的预训练阶段:建立视觉和语言之间的初步联系。
生成式预训练阶段:提高模型对视觉-语言内容的理解能力。
监督式的微调阶段:规范模型遵循语言指令和学习对话模式的能力。
定量分析:EVE在多个视觉语言基准测试中表现优异,与多种主流的基于编码器的视觉语言模型相当。尽管在准确响应特定指令方面存在挑战,但通过高效的训练策略,EVE实现了与带编码器基础的视觉语言模型相当的性能。
EVE展示了无编码器原生视觉语言模型的潜力,未来可能通过进一步的性能提升、无编码器架构的优化和原生多模态的构建,继续推动多模态模型的发展。
网络通讯
42.70MB
媒体音乐
34.24MB
时尚购物
34.09MB
金融理财
46.43MB
小说阅读
69.30MB
成长教育
111.39MB
住宿驿站
27.77MB
41.54MB
摄影美学
41.66MB
棋牌扑克
211.83MB
角色扮演
268.20MB
休闲益智
45.91MB
145.30MB
73.84MB
141.71MB
传奇三国
201.42MB
85.64MB
战争塔防
68.28MB
渝ICP备20008086号-39 违法和不良信息举报/未成年人举报:linglingyihcn@163.com
CopyRight©2003-2018 违法和不良信息举报(12377) All Right Reserved
智源研究院推出1bit轻量化预训练模型BiPFT,平均性能超过了15.4%
近日消息,智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。
与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。
另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。
实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
智源研究院公布Tele-FLM-1T:全球首个人工智能万亿级密集模型开源
近日消息,北京智源人工智能研究院与中国电信人工智能研究院(TeleAI)合作升级了Tele-FLM系列大模型,最新发布包含52B指令模型FLM-2-52B-Instruct,以及全球首个人工智能领域的万亿级单体稠密模型Tele-FLM-1T。伴随这一里程碑式的发布,相关技术文档与模型checkpoint均已开源,为全球AI研究社区贡献了宝贵资源。
FLM-2-52B-Instruct是基于Tele-FLM-52B基座模型进行指令微调获得的指令对话模型,专注于提升中文对话能力。通过监督微调,使用100万条开源指令数据进行训练,最终基于3万条数据的子集获得了最优结果。
这些数据包括数学题目、代码和多轮对话数据。模型训练采用了特定的batch size、学习率和epoch设置,并在AlignBench评测平台上进行了评测。结果显示,FLM-2-52B-Instruct在中文对话能力上达到了GPT-4的90%。
Tele-FLM-1T是全球首个开源的万亿参数稠密模型,采用生长式预训练以节省成本。模型结构在GPT系列的decoder-only Transformers基础上进行了改进,包括加入Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。生长策略包括横向生长和纵向生长,使用了基于MSG改进的保值算子。预训练过程中采用了特定的超参数设置。
智源研究院联合清华共同推出生成模型GeoDream,解决3D结构不一致性的问题
智源研究院是人工智能领域的新型研发机构,在近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。
与传统的方法不同,GeoDream 通过解耦的方式利用2D 和3D 先验,解决了3D 结构不一致性的问题,并支持导出高保真的 texture meshes 和高分辨率的渲染图片。
该模型还提供了 Uni3D metric,用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源,并已集成到 threestudio 等开源库中。
该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验,并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。
此外,GeoDream 还提供了新的量化指标和评价方法,以更好地度量和比较生成的3D 模型的质量。最后,GeoDream 展示了对复杂输入的生成结果,支持导出 meshes 和高分辨率 UV maps,方便后续的3D 创作和应用。
智源研究院突破性成果:EVE——开创无编码器视觉语言多模态新时代
近期,多模态学习领域的研究与实践确实迎来了一个飞速发展的时期,不仅国际上的科技巨头OpenAI、Google、Microsoft等持续推出了前沿的多模态大模型,诸如DALL-E和LaMDA,国内同样涌现出一批佼佼者,例如智谱AI和阶跃星辰,它们在多模态模型的探索上也实现了显著的成就,推动了技术边界的扩展。
为解决这些问题,智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE。EVE通过精细化训练策略和额外的视觉监督,将视觉-语言表征、对齐和推理整合到统一的纯解码器架构中。使用公开数据,EVE在多个视觉-语言基准测试中表现优异,接近甚至优于基于编码器的主流多模态方法。
EVE的主要特点包括:
原生视觉语言模型:去除视觉编码器,处理任意图像长宽比,显著优于同类型Fuyu-8B模型。
数据和训练代价少:预训练使用OpenImages、SAM和LAION等公开数据,训练时间较短。
透明和高效的探索:为纯解码器的原生多模态架构提供了高效、透明的发展路径。
模型结构:
Patch Embedding Layer:通过单层卷积层和平均池化层获取图像2D特征图,增强局部特征和全局信息。
Patch Aligning Layer:整合多层网络视觉特征,实现与视觉编码器输出的细粒度对齐。
训练策略:
大语言模型引导的预训练阶段:建立视觉和语言之间的初步联系。
生成式预训练阶段:提高模型对视觉-语言内容的理解能力。
监督式的微调阶段:规范模型遵循语言指令和学习对话模式的能力。
定量分析:EVE在多个视觉语言基准测试中表现优异,与多种主流的基于编码器的视觉语言模型相当。尽管在准确响应特定指令方面存在挑战,但通过高效的训练策略,EVE实现了与带编码器基础的视觉语言模型相当的性能。
EVE展示了无编码器原生视觉语言模型的潜力,未来可能通过进一步的性能提升、无编码器架构的优化和原生多模态的构建,继续推动多模态模型的发展。
网络通讯
42.70MB
媒体音乐
34.24MB
时尚购物
34.09MB
金融理财
46.43MB
小说阅读
69.30MB
成长教育
111.39MB
住宿驿站
27.77MB
成长教育
41.54MB
摄影美学
41.66MB
棋牌扑克
211.83MB
角色扮演
268.20MB
休闲益智
45.91MB
棋牌扑克
145.30MB
休闲益智
73.84MB
角色扮演
141.71MB
传奇三国
201.42MB
棋牌扑克
85.64MB
战争塔防
68.28MB