激活:AI大潮下的新质生产力
上QQ阅读APP看书,第一时间看更新

算法是基础,真正拉开差距的是数据质量和标注质量

“迈瑞医疗的优势在于机械的监测原理、成像原理和自动化,而腾讯的优势在人工智能领域,我们合作是希望把人工智能跟医学器械的结合真正落到实处。”祁欢说。双方需要很好的黏合剂。

尽管一开始就建立了充分信任、开诚布公合作的基调,但争论和摩擦仍不时有之。几年后回望,争论大多属于医学和工程的理念之争。有时甚至只是因为进入陌生行业的误解,比如迈瑞医疗的专家们不明白人工智能的“训练”是什么意思,腾讯的人工智能专家也实在无法看出细胞A和细胞B究竟有何区别。

“我们团队有一个临床工程师小姑娘,有时候她有很多数据不明白,经常找腾讯的工程师,他们互相发起‘挑战’,一方出题一方解题,如此来回。”祁欢说。也正是在争论的过程中,双方的讨论和交流越发充分,慢慢形成了一种积极的沟通机制。

更大的难点来自数据层面。

获取高质量的医疗影像成为研发路上的第一道关卡。同其他行业相比,高质量的医学影像数据的获取有着天然的劣势:一方面,高质量影像数据集中在三甲医院,不同医疗机构的数据很少能够实现共享,缺乏有效的数据互通机制;另一方面,中国虽然医疗数据总量庞大,但在影像生成中受限于使用的设备、设置、剂量等的不同,其中绝大多数数据是非结构化数据,实际应用的空间有限。

幸运的是,作为国内医疗器械龙头企业,迈瑞医疗本身有着丰富的医疗影像数据积累。迈出了第一步,为了让AI更加“看得清”,迈瑞医疗不断想办法提高硬件的成像品质,将细胞病理特征进行清晰的展现,“在成像的质量上做了很多技术功课,否则人工智能再厉害,也分辨不出来一个人是白血病人还是正常人”。

同时,迈瑞医疗将自己积累的百万级张数的血细胞数据库开放出来,供AI学习训练。“迈瑞医疗有一个成熟的形态学专家临床医生团队,同时跟国内很多顶级医院和形态学专家有技术上的合作,我们将大量的数据和专家能力合在一起,形成了非常高质量的数据库,为人工智能的训练建立了很好的基础。”祁欢说。

但数据库仅仅是给AI学习提供了一个场所,数据标注才是让AI理解世界的前提,也是开发人工智能的关键一步。医疗影像的专业性要求标注者必须有医学背景,众包的方式并不适用,细胞形态学分析更是如此。所以,仅从成本上来说,获得高质量的医学图像标注的难度,就比获得医学图像更高。

即便是专业的医生,对同一张影像图片上细胞形态的鉴别也存在差异,这种细微的差异在打标签的时候就会存在“噪声”,对人工智能的开发造成影响。

“很多时候,低年资的医生在鉴别时会存在一些困难,有些在正常人眼里看起来没有区别的细胞,在形态学医生眼里就像李子与苹果这样天差地别。比如,有的预示着患有某种淋巴系统的白血病,有的仅仅意味着病毒感染导致细胞形态变化。”祁欢说。

因此,“在标注的过程中,需要确认哪些是由人的意见不统一造成的”。为了获取高质量的标注图像、消除标注中的“数据噪声”,腾讯、迈瑞医疗和华山医院牵头,联合北京301解放军总医院、华西医院、中山大学附属第一医院、广州南方医院、武汉同济医院、西安交通大学医学院等国内顶级的医院,开展合作,聚拢血液形态学领域的专家,针对血液细胞标注的标准进行了很多轮的线上线下研讨会。

“在11家顶级医院和腾讯的支持下,对于一些细胞的标注大家达成了共识,明确了细胞标注中用什么样的分离方式达成标签,来支持人工智能的开发,以保证算法训练的过程是受控的,而且能够得到权威专家的认可。”祁欢说。这是算法和医学合作相互促进的过程。

同时,腾讯AI Lab基于自己的长期积累,开发了一套探索通用人工智能的研发基础设施——腾讯“开悟”AI开放研究平台,它具有模型自动参数优化、自动架构搜索等众多AI研究的基础组件,在珍贵专家资源有限、更少数据标注的情况下,实现了最优的模型结果。

不仅如此,“开悟”平台还提供了高性能的计算优化技术,在拥有同样资源的情况下,能够大幅提升AI模型训练速度,模拟多个专家系统的复杂训练与集成流程,将算法的迭代周期从30天压缩到2天。试想一下,如果没有极强的计算技术,百万级别的数据靠人工逐个处理,费时费力自不必说,巨大的成本足以令人望而却步。

随着研究的深入,加入的人也越来越多,腾讯方面除了AI Lab,腾讯觅影团队也加入进来,迈瑞医疗方面除了自己的工程师和既有合作资源,又与腾讯联合引入了许多外部专家参与讨论和研究。

人机交互迭代提升标注质量

2022年,在叶燚决定研发血液细胞形态分析仪6年之后,业内第一台AI阅片机问世。在腾讯AI能力的加持下,阅片机的识别率提升到了98%,比传统产品足足高出了18%。