搜索历史
热门标签

比起上市,王小川讲了更多AI医疗的非共识

光锥智能
2026-01-15 18:59

文|魏琳华

编|王一粟

代码过后,医疗有可能成为下一个AI落地应用铺开规模的行业吗?

这个答案似乎出现了一些端倪。从2026年开年到现在的15天,AI医疗已经有了不少瞩目的动作,且均集中向C端试水。

1月8日,OpenAI推出了ChatGPT Health,允许用户将Apple Health、Function等应用中的电子病历和体征数据提供给AI,解答用户的健康问题。

1月11日,Anthropic正式推出了Claude for Healthcare,也就是Claude的医疗版。它通过和初创公司合作,把用户的医疗数据接入到模型中,从而让模型为用户提供健康咨询服务。

集中的信号释放出,2026年AI医疗的新趋势——AI公司们正在尝试将医疗服务开展到医院场景之外。

作为大模型五小龙中唯一一家All in AI医疗的大模型公司,百川也有了新动作。1月13日,百川智能在北京举办了关于M3大模型发布的媒体沟通会,把自家的AI医疗新模型放了出来。官方数据中,这个模型在多项测试分数上超过了OpenAI的GPT-5.2。

拆解新模型的技术优势之外,王小川还给出了很多非共识的观点:他认为,技术是坚定的护城河,数据很关键,但不是最关键的一个;多模态是主战场这个事情,他从第一天起就不认可,比起多模态,语言大模型才是智能的最高体现。

回顾去年,对王小川和百川智能最重要的一件事,就是明确了“用AI造医生”的发展路线。用王小川的话说,做科研的第一步,就是要把模型做得足够好,这就有了M1、M2到今天M3的迭代。

2026年,对百川是一个关键的节点,王小川分享,今年百川智能会有大动作,做AI硬件、C端产品。看起来,从大模型之外,百川的商业化叙事终于要落到具体的产品上。

但这对于百川也不是一场轻松的仗。会上,王小川透露目前百川账上还有30亿现金,结合之前累计50多亿的融资,意味着百川在过往1年半时间里烧掉了20亿左右。

透过百川,我们如何看待AI医疗过往和未来发生的事情,接下来这个赛道又会有哪些可能性?

实测M3大模型,严肃医疗和泛健康的区别在哪?

时隔4个多月,百川把自研大模型BaiChuan-M3端上了台面。

从官方评测数据来看,比起M2追赶海外领先模型的情况,新开源的M3算是一个成功超越的标志。在幻觉、HealthBench(OpenAI建立的评测集)各项跑分结果上,它全面超越了OpenAI的GPT-5.2。

除了用数据印证新模型的智能之外,光锥智能实测了M3模型,和国内的蚂蚁阿福做对比。结论是,在诊断结果的准确度上,两者对大多数情况的判断结果一致,且都能给出相似的症状猜测和检查建议。

不过,在少部分情况下,M3的测试更接近真实就医的判断,阿福则在测试中更擅长追问,基本每次问问题都会要求用户补充多次信息。

最明显的一点感受是,M3能把病的来龙去脉讲明白,而不是只停留在术语和结果判断上。

在测试中,光锥智能以“为什么指标属于重度贫血,但生活中只是感到轻度疲劳”作为案例询问M3和阿福,想要找到对应的病症,以及为什么个人体感上没有影响的情况。

对此,阿福和M3在症状的判定上都没有问题,认为最有可能的病症是慢性、缓慢进展的贫血,并且开好了接下来要去医院开的检查项目。

在症状的说明上,M3在多个测试中都能给出更通俗易懂的解释。

比起列对应的病症、摆术语,下结论,M3多了一个解释原因的部分。还以上述的贫血为例,M3用一般人更能看懂的方式打了个比方,好比高海拔地区缺氧时人体启动的调整,贫血是用心脏代偿、血液代偿和组织代偿完成了自身调整,同时提醒用户它以“透支健康”为代价,阐述风险,提示用户尽快就医。

这个差异化的来源,翻阅百川发布M3当天上线的技术报告来看,一部分功劳要归于百川自创的SCAN-bench评测体系。

百川提及,这个评测体系联合150多位一线医生共同搭建。它把就医过程拆解成病史采集、辅助检查和精准诊疗三个阶段。一阶段根据SCAN原则结构化、精准采集所需信息后,二阶段辅助检查补充临床所需的检查信息,最终把获得的所有结果去整理成结论。这种动态、多轮的方式,让模型能够在给出结论的同时,把思路完整展示出来,从而让用户了解到更多信息。

另外一个是百川引用的医疗论文+自创算法。在测试中,每个病症原因的解释、对症的标准判断,M3基本都引用了1-3条论文文献信息作印证。

在测试中,笔者以生理期延迟做测试,询问是否需要就诊,M3结合了一篇引用的论文,告诉笔者如果没有出现一些特殊变化,偶尔一次只需要观察即可。这个结论,和医生给到的结论完全一致。

不过上述引用的论文并没有直接给出相应的印证结论,只是给了对周期判断的标准。所以整体下结论的准确,或许要归功于分段强化学习。

可以简单理解为,在只以结果做唯一结论的强化学习方式上,百川做了新的改良,把诊断拆成四个部分问诊、鉴别诊断、实验室检测和最终诊断,分阶段去做强化学习,每个阶段的结论信息可以带到下一个阶段。针对医疗这类长时间问询过程的任务,处理准确度也有所提升。

比较遗憾的地方是,M3在一些地方的追问明显没有蚂蚁阿福更多。后者基本每一次的问题都会给2-3个连续追问、补充信息的环节。其实M3也有提示一些风险项,但蚂蚁会把这类症状作为补充观察的信息继续询问。结合一些针对不同问诊人的建档区分,其交互体验上在C端表现更成熟。

上市、出海?比起这些,AI医疗今年的落地更值得期待

除了带来新模型M3之外,王小川讲了更多有意思的事情,既关乎百川自己的打法,也有今年AI医疗落地的新突破。

对于如何做AI医疗大模型,王小川讲了许多“非共识”。

在主流模型路线上,王小川认为,医疗AI的主战场从来都不是多模态,而是语言大模型。

“ 到目前为止,评判哪个公司的模型能力强,都是以符号、语言为基础。比如Sora的可用性强,但不代表智力很高。”王小川说,“医疗的本质是推理,它并不是只是一个图像问题。在现阶段,影像报告最后还是变成文字进入模型。图像是树上挂的小叶子,不是主战场。”

关于数据,王小川也不认为数据是训练大模型最关键的一环。用他的原话来说,数据虽然也很重要,但在大模型行业没有成功案例。他还认为,收集更多的用户信息,也不意味着能够靠数据“弯道超车”。

王小川举了个例子:“Gemini和Claude没有OpenAI那么多C端的用户,依然做出了领先的模型,可见当前阶段的优势更多是在于技术。”

关于AI医疗领域,王小川分享了一个最重要的趋势,也是我们现在在AI医疗领域看到的新趋势,AI医疗将有更多机会诞生在医院外的场景中。

“未来AI医疗巨大的增量会出现在院外。院内更多的是做手术,做执行,给人挂水的地方,我们并不鼓励把场景放在院内,写病历、做质控,那些都不是未来的主流方向。”王小川说。

为什么会有这样的判断,从国内医疗环境出发,王小川提起了AI医疗的四个痛点:第一,好医生不够、供给不足;第二,医患关系不够平等,决策者是医生,个人难以用常识去判断这些决策;第三,海外和国内就医环境的不同,前者每个家庭有专属医生;第四,医学不够发达,存在很多难以解决的问题。

开年新动作中,OpenAI的押注方向同样选择了C端,把个人用户的医疗数据接入ChatGPT,让AI帮助用户提供健康服务。蚂蚁阿福上线后,月活超过大量AI助手类产品,到现在3500万MAU的突破,也说明了这个市场的可能性。

从AI医疗清一色先攻B端,到蚂蚁阿福、OpenAI和百川,做C端也成了接下来值得关注的尝试。

王小川也直言,百川目前的护城河是技术、场景和产品形态:

M3代表百川技术的能力体现,在场景切入上,百川的定位比市面上的泛健康类AI医疗产品更近一步,“至少能够像家庭医生一样”。这个界限,又把控在不碰医疗红线的基础上,也就是不会做医生真正该做的决策,而是辅助决策。落到具体产品上,百川今年计划发布两款C端产品,也在尝试做和睡眠相关的AI硬件产品。

看起来,百川智能对自己的战略正在一天比一天清晰,但最关键的问题是,决定生死的商业化路线,能够跑通吗?

在国内当前的付费环境下,C端变现本身就是一条风险更大的路,比如蚂蚁阿福至今未收费,更多用户是否愿意买单;对于比其他领域更看重准确性、舆论问题更明显的医疗领域来说,C端付费路上也存在很多未知的风险。

想上市、有意愿出海的百川智能,能靠今年拿出的C端产品证明AI医疗商业化的潜力吗?这个答案,或许接下来几个月就能有新的解答。

光锥智能
光锥智能
文章 296 
浏览 39632 

相关资讯

更多 »