2025-09-13 15:37:05 综合 8
12月28日,国内由信通院主办的首个数据“虹桥之源”大模型驱动数字经济新生态峰会在上海召开。会上,医疗源蚂蚁百蚂蚁集团商业机器智能部总经理顾进杰介绍蚂蚁正式开源国内首个医疗专科推理数据集,专科助力这将有助于提升大模型在医疗领域的推理专业性。 蚂蚁集团商业机器智能部总经理顾进杰介绍国内首个医疗专科推理数据集
在医疗行业,通用型语言模型在应对医疗问诊时,模型会直接给出答案,行业而医生则会根据专业知识进行反复的国内症状探讨,才能给出答案。首个数据另外,医疗源蚂蚁百大模型的专科助力幻觉问题和推理能力不足,当前高质量的推理中文医学专科数据集又较为稀缺,这对训练出色的集开医疗领域大模型提出了挑战。
为克服这些难题,蚂蚁集团与上海仁济医院泌尿科专家团队联合研发,基于医生团队临床经验,通过构造模拟病例数据的深圳高中实拍评价方式,推出了首个中文医疗专科问答推理数据集RJUA-QA,这也是业内首个临床专科数据集。
数据集由训练、验证、测试三部分组成,包含2132个问答对,每个问答对由医生根据临床经验编写的问题、专家提供的回答以及用于帮助推理的上下文构成,病种覆盖了97.6%以上的泌尿科就医人群,能真实复刻诊疗场景。数据集能提高大模型在医疗诊断推理方面的能力,并作为在严肃可控场景下应用的评测基准。
顾进杰进一步介绍了蚂蚁百灵大模型在医疗领域的技术进展。“专业性、可控性、轻量化是大模型技术在医疗行业落地的三个重要挑战和机会。”顾进杰说道。
专业性上,由于医疗行业有超百个科室,每个专科和疾病,都需要专业的调试。蚂蚁集团联合医疗专家共同研发了多模态医疗知识引擎,进一步推动中国专业医疗数据集的构建与开放。
在可控性方面,百灵大模型结合知识图谱技术,让大模型的每一个回答都有据可依。“生成内容可以满足不同医院、不同科目的定制需求,包括风格与调性等”,顾进杰说。蚂蚁集团在超大规模图学习和知识图谱技术长期积累,今年联合OpenKG发布的OpenSPG开源项目,重新定义了工业界的知识图谱语义架构,知识检索增强技术也是大幅提升大模型正确性与可控性的重要课题。
医疗行业有数据隐私、专业知识和系统自主性的需求,考虑到机构的算力成本与便捷部署,百灵大模型还攻坚了轻量化技术。在12月份开源的模型轻量化框架(PIA)中,集成了模型剪枝、压缩、量化、推理加速等全链路环节的优化,具备开箱即用、功能无损、低代码接入等优点,可在天级别完成10倍以上压缩比。
据雷峰网(公众号:雷峰网)了解,目前,蚂蚁百灵大模型在中英文的医疗考试以及基准测试达到或超过了GPT4水准,例如,在中文医疗LLM评测榜单promptCBLUE上,取得A榜第一,B榜第二的成绩;在国际医疗问答榜单PubMedQA中,以80.6%的准确率取得了前五的成绩,而且是前十中参数量最小的模型,更适合被机构部署和使用。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
别再声讨零一万物了
独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元
当「养老」遇上 AI 大模型
联汇科技赵天成:从 CMU 天才少年,到多模态创业先行者
独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑
Q3净利润大涨23%,李彦宏的 AI 解题思路似乎押对了
英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」
Neuralink发布超能力V0.2版本:CAD设计、CS轻松拿捏
大模型疯狂 Rush,上海 AI Lab 回归语言建模本质
元象首个多模态大模型 XVERSE
上海交大新跑出一家具身智能公司「穹彻智能」
100天后,阶跃星辰交出了第二份答卷
阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍
对话零一万物:大模型产品要找到 TC
谁将替代 Transformer?
前 OpenAI 首席科学家 Ilya 获 10 亿美元融资;曝 OpenAI 将筹数百亿美元打造 AI 基础设施丨AI情报局
别再声讨零一万物了
大模型「进化手册」:AI 原生应用该如何落地?
当「养老」遇上 AI 大模型
新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude
早鸟倒计时3天丨院士领衔、重磅嘉宾云集!中国大模型大会(CLM2024)诚邀您共同探索中国大模型之路!详细日程公开
MediaTek 举办天玑开发者大会 MDDC2024,携手产业伙伴共创生成式 AI 新生态
早鸟倒计时3天丨院士领衔、重磅嘉宾云集!中国大模型大会(CLM2024)诚邀您共同探索中国大模型之路!详细日程公开