比起上市，王小川讲了更多AI医疗的非共识

光锥智能

2026-01-15 18:59

文｜魏琳华

编｜王一粟

代码过后，医疗有可能成为下一个AI落地应用铺开规模的行业吗？

这个答案似乎出现了一些端倪。从2026年开年到现在的15天，AI医疗已经有了不少瞩目的动作，且均集中向C端试水。

1月8日，OpenAI推出了ChatGPT Health，允许用户将Apple Health、Function等应用中的电子病历和体征数据提供给AI，解答用户的健康问题。

1月11日，Anthropic正式推出了Claude for Healthcare，也就是Claude的医疗版。它通过和初创公司合作，把用户的医疗数据接入到模型中，从而让模型为用户提供健康咨询服务。

集中的信号释放出，2026年AI医疗的新趋势——AI公司们正在尝试将医疗服务开展到医院场景之外。

作为大模型五小龙中唯一一家All in AI医疗的大模型公司，百川也有了新动作。1月13日，百川智能在北京举办了关于M3大模型发布的媒体沟通会，把自家的AI医疗新模型放了出来。官方数据中，这个模型在多项测试分数上超过了OpenAI的GPT-5.2。

拆解新模型的技术优势之外，王小川还给出了很多非共识的观点：他认为，技术是坚定的护城河，数据很关键，但不是最关键的一个；多模态是主战场这个事情，他从第一天起就不认可，比起多模态，语言大模型才是智能的最高体现。

回顾去年，对王小川和百川智能最重要的一件事，就是明确了“用AI造医生”的发展路线。用王小川的话说，做科研的第一步，就是要把模型做得足够好，这就有了M1、M2到今天M3的迭代。

2026年，对百川是一个关键的节点，王小川分享，今年百川智能会有大动作，做AI硬件、C端产品。看起来，从大模型之外，百川的商业化叙事终于要落到具体的产品上。

但这对于百川也不是一场轻松的仗。会上，王小川透露目前百川账上还有30亿现金，结合之前累计50多亿的融资，意味着百川在过往1年半时间里烧掉了20亿左右。

透过百川，我们如何看待AI医疗过往和未来发生的事情，接下来这个赛道又会有哪些可能性？

实测M3大模型，严肃医疗和泛健康的区别在哪？

时隔4个多月，百川把自研大模型BaiChuan-M3端上了台面。

从官方评测数据来看，比起M2追赶海外领先模型的情况，新开源的M3算是一个成功超越的标志。在幻觉、HealthBench（OpenAI建立的评测集）各项跑分结果上，它全面超越了OpenAI的GPT-5.2。

除了用数据印证新模型的智能之外，光锥智能实测了M3模型，和国内的蚂蚁阿福做对比。结论是，在诊断结果的准确度上，两者对大多数情况的判断结果一致，且都能给出相似的症状猜测和检查建议。

不过，在少部分情况下，M3的测试更接近真实就医的判断，阿福则在测试中更擅长追问，基本每次问问题都会要求用户补充多次信息。

最明显的一点感受是，M3能把病的来龙去脉讲明白，而不是只停留在术语和结果判断上。

在测试中，光锥智能以“为什么指标属于重度贫血，但生活中只是感到轻度疲劳”作为案例询问M3和阿福，想要找到对应的病症，以及为什么个人体感上没有影响的情况。

对此，阿福和M3在症状的判定上都没有问题，认为最有可能的病症是慢性、缓慢进展的贫血，并且开好了接下来要去医院开的检查项目。

在症状的说明上，M3在多个测试中都能给出更通俗易懂的解释。

比起列对应的病症、摆术语，下结论，M3多了一个解释原因的部分。还以上述的贫血为例，M3用一般人更能看懂的方式打了个比方，好比高海拔地区缺氧时人体启动的调整，贫血是用心脏代偿、血液代偿和组织代偿完成了自身调整，同时提醒用户它以“透支健康”为代价，阐述风险，提示用户尽快就医。

这个差异化的来源，翻阅百川发布M3当天上线的技术报告来看，一部分功劳要归于百川自创的SCAN-bench评测体系。

百川提及，这个评测体系联合150多位一线医生共同搭建。它把就医过程拆解成病史采集、辅助检查和精准诊疗三个阶段。一阶段根据SCAN原则结构化、精准采集所需信息后，二阶段辅助检查补充临床所需的检查信息，最终把获得的所有结果去整理成结论。这种动态、多轮的方式，让模型能够在给出结论的同时，把思路完整展示出来，从而让用户了解到更多信息。

另外一个是百川引用的医疗论文+自创算法。在测试中，每个病症原因的解释、对症的标准判断，M3基本都引用了1-3条论文文献信息作印证。

在测试中，笔者以生理期延迟做测试，询问是否需要就诊，M3结合了一篇引用的论文，告诉笔者如果没有出现一些特殊变化，偶尔一次只需要观察即可。这个结论，和医生给到的结论完全一致。

不过上述引用的论文并没有直接给出相应的印证结论，只是给了对周期判断的标准。所以整体下结论的准确，或许要归功于分段强化学习。

可以简单理解为，在只以结果做唯一结论的强化学习方式上，百川做了新的改良，把诊断拆成四个部分问诊、鉴别诊断、实验室检测和最终诊断，分阶段去做强化学习，每个阶段的结论信息可以带到下一个阶段。针对医疗这类长时间问询过程的任务，处理准确度也有所提升。

比较遗憾的地方是，M3在一些地方的追问明显没有蚂蚁阿福更多。后者基本每一次的问题都会给2-3个连续追问、补充信息的环节。其实M3也有提示一些风险项，但蚂蚁会把这类症状作为补充观察的信息继续询问。结合一些针对不同问诊人的建档区分，其交互体验上在C端表现更成熟。

上市、出海？比起这些，AI医疗今年的落地更值得期待

除了带来新模型M3之外，王小川讲了更多有意思的事情，既关乎百川自己的打法，也有今年AI医疗落地的新突破。

对于如何做AI医疗大模型，王小川讲了许多“非共识”。

在主流模型路线上，王小川认为，医疗AI的主战场从来都不是多模态，而是语言大模型。

“ 到目前为止，评判哪个公司的模型能力强，都是以符号、语言为基础。比如Sora的可用性强，但不代表智力很高。”王小川说，“医疗的本质是推理，它并不是只是一个图像问题。在现阶段，影像报告最后还是变成文字进入模型。图像是树上挂的小叶子，不是主战场。”

关于数据，王小川也不认为数据是训练大模型最关键的一环。用他的原话来说，数据虽然也很重要，但在大模型行业没有成功案例。他还认为，收集更多的用户信息，也不意味着能够靠数据“弯道超车”。

王小川举了个例子：“Gemini和Claude没有OpenAI那么多C端的用户，依然做出了领先的模型，可见当前阶段的优势更多是在于技术。”

关于AI医疗领域，王小川分享了一个最重要的趋势，也是我们现在在AI医疗领域看到的新趋势，AI医疗将有更多机会诞生在医院外的场景中。

“未来AI医疗巨大的增量会出现在院外。院内更多的是做手术，做执行，给人挂水的地方，我们并不鼓励把场景放在院内，写病历、做质控，那些都不是未来的主流方向。”王小川说。

为什么会有这样的判断，从国内医疗环境出发，王小川提起了AI医疗的四个痛点：第一，好医生不够、供给不足；第二，医患关系不够平等，决策者是医生，个人难以用常识去判断这些决策；第三，海外和国内就医环境的不同，前者每个家庭有专属医生；第四，医学不够发达，存在很多难以解决的问题。

开年新动作中，OpenAI的押注方向同样选择了C端，把个人用户的医疗数据接入ChatGPT，让AI帮助用户提供健康服务。蚂蚁阿福上线后，月活超过大量AI助手类产品，到现在3500万MAU的突破，也说明了这个市场的可能性。

从AI医疗清一色先攻B端，到蚂蚁阿福、OpenAI和百川，做C端也成了接下来值得关注的尝试。

王小川也直言，百川目前的护城河是技术、场景和产品形态：

M3代表百川技术的能力体现，在场景切入上，百川的定位比市面上的泛健康类AI医疗产品更近一步，“至少能够像家庭医生一样”。这个界限，又把控在不碰医疗红线的基础上，也就是不会做医生真正该做的决策，而是辅助决策。落到具体产品上，百川今年计划发布两款C端产品，也在尝试做和睡眠相关的AI硬件产品。

看起来，百川智能对自己的战略正在一天比一天清晰，但最关键的问题是，决定生死的商业化路线，能够跑通吗？

在国内当前的付费环境下，C端变现本身就是一条风险更大的路，比如蚂蚁阿福至今未收费，更多用户是否愿意买单；对于比其他领域更看重准确性、舆论问题更明显的医疗领域来说，C端付费路上也存在很多未知的风险。

想上市、有意愿出海的百川智能，能靠今年拿出的C端产品证明AI医疗商业化的潜力吗？这个答案，或许接下来几个月就能有新的解答。

找项目

约会投资机构

关注

光锥智能

文章 344 篇

浏览 54846 次

比起上市，王小川讲了更多AI医疗的非共识

实测M3大模型，严肃医疗和泛健康的区别在哪？

上市、出海？比起这些，AI医疗今年的落地更值得期待

相关资讯