当前位置: 首页 > 科技资讯 > 百川智能Baichuan4-Finance金融大模型发布:测试成绩竟超越GPT-4o

百川智能Baichuan4-Finance金融大模型发布:测试成绩竟超越GPT-4o

发布时间:2025-03-10 08:00:19 作者:001资源网 阅读:0次

近日消息,百川智能全新推出全链路领域增强的金融大模型——Baichuan4 - Finance。此模型在构建过程中融入了海量资源,具体融合了超过1000亿(100B +)的中英文金融知识。这些知识来源广泛,包括各大金融机构的研究报告、经典的金融著作、长期的金融市场交易数据等。

百川智能Baichuan4-Finance金融大模型发布:测试成绩竟超越GPT-4o

在中国人民大学财政金融学院新近发布的评测体系 FLAME 以及国内开源金融评测基准 FinancelQ 上,Baichuan4-Finance 均登上榜首,金融专业能力和场景应用能力领先 GPT-4o。

Baichuan4-Finance API 现已在百川智能官网正式上线,附测试成绩如下:

FLAME-Cer 评测结果显示,Baichuan4-Finance 在银行、保险、基金、证券等多个资格认证领域的准确率均突破了 95%,整体准确率 93.62%,大幅领先 GPT-4o 和 XuanYuan3-70B-Chat,超出 GPT-4o 近 20%。

Baichuan4-Finance 在 FLAME-Sce 评测中,一级核心金融业务场景的整体可用率达 84.15%,金融数据计算、金融知识理论等场景的可用率超过 90%。

在国内开源金融评测基准 FinanceIQ 中,Baichuan4-Finance 同样超越了 GPT-4o 和 XuanYuan3-70B,整体准确率达到 79.23%,领先 GPT-4o 近 13%。

百川智能携手天津大学,共创"Sibyl System"Agent框架,问鼎GAIA复杂任务排行之巅

近日消息,百川智能携手天津大学共同发布了名为"Sibyl System"的创新智能体框架,并在业内权威的GAIA Leader Board测评中拔得头筹。

百川智能携手天津大学,共创

GAIA评估体系由Meta、Huggingface及AutoGPT于2023年末联合推出,专注于评估智能体在执行复杂任务中的性能与策略,其设立揭示了现有AI模型的局限性,为未来的模型优化与智能体设计指明了道路。

GAIA的测试题目更接近真实世界,要求AI具备推理、多模态理解(文本、图片、音/视频)、网页浏览和使用工具等能力。这些题目对人类来说不难理解,但对模型来说极具挑战性。例如,GPT-4在测试中的成功率仅为15%,而人类实验者可以达到92%。完成这些题目通常需要较长的逻辑链路和时间,涉及多个步骤和工具。

"Sibyl System"框架的设计特点包括:

类人的浏览器界面替代检索增强生成。

问答替代对话,使用无状态的问答函数,简化系统架构。

仅使用网页浏览器和Python环境这两个通用工具,减少对专用工具的依赖。

从System1到System2,引入"陪审团"机制,通过多代理辩论进行自我批评和修正,利用全局工作区中的信息提高响应的准确性。

Sibyl System是一个结构简单但功能强大的基于大型语言模型的Agent框架,能够通过使用少量工具解决复杂的推理问题。它通过引入Global Workspace和Multi-Agent机制,以及基于浏览器的通用信息获取渠道,降低了系统复杂度,同时扩展了解决问题的复杂度,实现了模型从"快思考"到"慢思考"的转变。

Sibyl System还具有很好的可扩展性和易于调试的特点,可以轻松替换其他模型的Agent模块,提升模型的能力。

渝ICP备20008086号-39 违法和不良信息举报/未成年人举报:linglingyihcn@163.com

CopyRight©2003-2018 违法和不良信息举报(12377) All Right Reserved