2025-09-13 12:58:40 知识 73423
[雷峰网(公众号:雷峰网)]两周前,面壁面壁发布领先的新模型早开源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B,于L越发布时间更早,比肩综合性能相当,理超尤其是面壁医生隐私泄露全集拥有更强的推理性能——刷新开源大模型推理性能 SOTA,堪称开源大模型中「理科状元」。新模型早激活参数仅 39B,于L越支持 64k 上下文,比肩相比 Llama3 速度更快、理超可处理更长文本。面壁
图注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中,刷新开源大模型推理性能 SOTA。
图注:面壁Eurux-8x22B 模型综合性能比肩 LlaMa3-70B,超越开源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b,以及闭源模型 GPT-3.5-turbo。
Eurux-8x22B 由 Mistral-8x22B对齐而来。强劲战斗力,来自面壁 Ultra 对齐技术上新 UltraInterat 大规模、高质量对齐数据集。此前,面壁 Ultra 对齐系列数据集已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。
Eurux-8x22B模型+对齐数据集,全家桶开源:
https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca
复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。
Eurux-8x22B 在代码和数学等复杂推理的综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称「理科状元」。特别在 LeetCode (180道LeetCode真题)和 TheoremQA(美国大学水准的STEM题目)这两个具有挑战性的基准测试中,超过现有开源模型。
图注:Eurux-8x22B 在代码和数学等复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA。
开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢?
在近期 LeetCode 周赛,这一检验人类程序员编程能力的真实竞技场上:Eurux-8x22B 在 Python 编程方面取得综合排名超越了80% 的人类参赛选手的优秀成绩,成功解决四道算法题中的三道,可以初步通过互联网大厂的程序员编程面试。
下面是本次周赛中Eurux-8x22B对一道中等难度的算法题的真实解答:
除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。
例如给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到正确答案。
再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确的解答。
接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下。
高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误。
(需要说明的是,Eurux-8x22B 没有针对中文语料进行额外的微调和对齐!)
本次大模型「理科状元」 Eurux-8x22B 的优异表现,得益于来自面壁 Ultra 对齐技术的大规模、高质量对齐数据集UltraInteract上新。
好数据,才有好模型。此前,面壁 Ultra 对齐技术已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。
➤ UltraInterat对齐数据集地址:
? https://github.com/OpenBMB/Eurus
UltraInteract是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的12个开源数据集的86K条指令和220K偏好对,共有五十万(条)左右数据。相比而言,LLaMA 3-70B模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。UltraInteract 数据集开源后在社区受到了广泛好评。
从领先的端侧模型「小钢炮」MiniCPM,到开源模型推理新 SOTA 的Eurux-8x22B,为什么面壁智能总能推出同等参数、性能更优的「高效大模型」?答案是,大模型是一项系统工程,而面壁作为国内极少数兼具大模型算法与 infra 能力的团队,拥有自研的全流程高效生产线:面壁 Ultra 对齐技术、Infra 工艺、独家「模型沙盒」实验和现代化数据工厂,从数据、训练到调校工艺环环相扣,一条优秀的大模型Scaling Law增长曲线由此而生。
Infra工艺方面,面壁构建了全流程优化加速工具套件平台ModelForce,可以实现 10 倍推理加速,90% 成本降低。
算法方面,通过上千次以上的「模型沙盒」实验,探索更加科学的训模方法。以小见大,寻找高效模型训练配置,实现模型能力快速形成。
➤ Eurux-8x22B模型GitHub地址:
https://github.com/OpenBMB/Eurus
➤ Eurux-8x22B模型HuggingFace地址:https://huggingface.co/openbmb/Eurux-8x22b-nc
➤ UltraInterat对齐数据集地址:
https://github.com/OpenBMB/Eurus
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
清华系人形机器人公司「加速进化」获亿元融资;AI 数字人赛道最大笔投资披露;GPT
具身智能构型之争:人形、灵巧手、双足,谁是最终 C 位?
谷歌超 25 亿美金收购 Character AI;曝英伟达 AI 芯片遇重大设计缺陷,数百亿美元订单将受影响丨AI情报局
实测字节豆包·视频生成模型:Sora画的饼被实现了......
家务机器人或将再更新?Chelsea Finn团队推出BID新算法,机器人一键变聪明
AMD 6.65 亿美元收购 Silo AI;Genie 击败 Devin、GPT
前小马智行孙又晗创立 Trans
新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude
转发有奖|AFAC2024 金融智能创新大赛,持续火热招募中!
阿里国际举办全球电商挑战赛:三名新加坡大二学生夺冠
OpenAI 又一位联创离职,公司动荡仍在持续?
英伟达梦想,富士康模式:Alexander Wang如何用24万数字游民打造数据标注王国
转发有奖|AFAC2024 金融智能创新大赛,持续火热招募中!
100天后,阶跃星辰交出了第二份答卷
第四范式行业大模型「启示录」:提升核心竞争力的AI才有真价值
元象首个多模态大模型 XVERSE
AI VC Radical Ventures 融资近 8 亿美元,李飞飞、Hinton支持;谷歌发布四款 AI 手机丨AI情报局
边缘人工智能提供商 Gcore 获 6000 万美元融资;马斯克开训最大 AI 集群,目标年底开发全球最强 AI丨AI情报局
全球首发!无问芯穹发布千卡规模异构芯片混训平台,筑基面向MxN生态格局的AI Native基础设施
AI 大模型开源之困:垄断、围墙与算力之殇
第四范式行业大模型「启示录」:提升核心竞争力的AI才有真价值
元象发布中国最大MoE开源大模型 落地应用登顶港台榜
苹果大模型最新论文:AFM 模型多维度评测「出炉」