前言
随着在线健康社区的快速发展,越来越多的用户通过在线健康社区(例如:Patientlikeme、Medhelp、有问必答网、寻医问药网、好大夫在线等)与专家或同伴进行问答健康咨询,获得健康方面的帮助,以更好地了解自身的健康状况。在线健康社区上累积的海量问答数据(疾病、症状、检查、药物、药物效果等信息),为研究基于海量数据的知识抽取提供了条件,同时也为分析基于生命周期的疾病用药健康管理奠定了基础,同时,知识抽取也能为用户行为研究更好地提取相关性特征变量奠定基础。在线健康社区对于缓解医疗资源过度紧张以及分布不均衡,缓解用户焦虑、提高用户信任具有重要作用。通常,用户通过在线健康社区提问一个问题后,面临着如何从众多回复中采纳一个最满意回复的问题。同时,如何从海量的问答数据中进行有用信息的识别,对于健康社区的知识管理,社区内的知识搜索以及有用信息推荐等具有重要意义。
本书通过梳理:在线健康社区,信息抽取和知识构建、双加工理论和信息采纳、信息有用性方面的文献,总结出了前人研究中存在不足以及需改进的方面:①以往生物医学领域的关系抽取例如:化学物质诱致疾病,药物副作用等的研究都是基于电子病历、出院摘要或医学文献摘要,这些语料中的词语和句子都是相对专业化和标准的,对于结构性较差的在线健康社区的疾病诊断和疾病用药方面的关系抽取,现有研究却较少或几乎没有,且基于深度学习的进行关系抽取的研究几乎没有;②以往的生命周期的健康管理大都是基于签约的私人医生,或者基于居民的电子病历,随着在线健康社区的用户越来越多,用户随着时间累积留存下来的数据也越多,这些关于疾病询问次数较多的用户数据为本书提供了一种基于在线健康社区分析用户生命周期疾病用药健康管理的可能;现有的医学知识库很少有基于在线健康社区进行构建的,基于关系抽取的结果和疾病百科知识,可以构建一个基于在线健康社区的知识图谱,补充完善现有知识库,同时可以为后面的用户行为研究更好地提取特征变量;③现有用户的知识采纳行为研究大都存在于开放性社区:Wikipedia,百度知道等的信息采纳,很少有学者研究在线健康社区中用户如何采纳一个最满意的医生回复;④现有信息有用性的研究大多基于直觉发现有用性的特征,很少有从信息系统的理论出发设计特征变量,更没有提出一套完整的理论框架来解决信息有用性的研究问题。
从海量的在线健康社区文本中进行关系抽取,以及用户知识行为方面的研究具有重要意义,已成为重要的研究方向。总体来说,本书完成以下四方面的工作:
(1)针对海量的医患问答数据,研究在线健康社区中疾病、症状和检查之间的关系抽取问题。通过训练医疗健康领域的词向量,采用Bi-LSTM+CRF技术对问答数据进行疾病、症状和检查的实体识别,以及构建了一个基于字符级和语句级注意力机制的双向门递归神经网络(2ATT-BiGRU)的关系抽取(分类)模型,进行疾病、症状和检查之间的关系抽取。
(2)针对海量的医患问答数据,对疾病、药物和药物效果进行实体识别,在实体识别的基础上,进行疾病、药物和药物效果之间的关系抽取。针对生命周期的疾病用药健康管理对于疾病控制和预防的重要意义,在疾病、药物和药物效果关系抽取的基础上,利用疾病用药的时间序列数据,对问答数据中提问超过5次的1927个用户的疾病用药关系抽取结果,按照用户提问的时间序列进行疾病用药演化的研究,结果可以辅助基于生命周期疾病用药健康管理。
在关系抽取的基础上,研究知识图谱的构建技术,构建一个基于在线健康社区的知识图谱框架,进行了疾病百科的疾病、症状、检查和药物之间的关系抽取,并融合前面抽取的疾病诊断和疾病用药管理的三元组关系,最后构建了一个基于在线健康社区的知识图谱,可以补充完善现有知识库。知识构建可以更好地为后期的用户行为研究提取特征变量奠定基础,使得用户行为研究更加精准和科学。
(3)立足于提高医患问答健康社区中用户满意度,加强用户信任的问题,研究在线健康社区中用户采纳一个最满意医生回复的知识行为的影响因素,基于知识采纳的双加工理论,开发了一个概念模型,采用文本分析技术,从论据质量和信息源的可信度两个方面提取变量,用实证方法分析了哪些因素影响了用户的知识采纳行为,并分析了哪种类型的医生回复最适合用户这个问题。
(4)在线健康社区虽然存在丰富庞大的信息,但是用户却很难从复杂海量的数据中直接识别出最有用的信息。针对各个在线健康平台都在寻求一种机制帮助用户找到相关且有用的信息满足用户需求的问题,本书从问答健康社区中用户采纳和点赞的知识行为着手,研究在线健康社区医生回复的有用性,从设计科学的思维出发,以知识采纳理论作为研究的核心理论,从中心路径和外围路径提出元需求,进行元设计,并提出设计的假设,通过采用四种机器学习方法进行识别在线健康社区中医生回复信息的有用性,并同当前流行的深度学习技术以及前人的经典研究模型进行了对比,证实了本研究框架的优势。
与前人研究对比,本研究的创新之处体现在:
(1)综合运用各种方法,以及数据分析的新思路:综合运用文本分析、深度学习、知识挖掘、知识图谱构建、计量分析等多种研究方法;采用知识采纳理论(KAM)、精细加工可能性模型(ELM)、疾病预防保健的健康管理理论;以及知识管理的理论等。从行为角度来分析健康社区的参与体,并从行为改变和知识获取来研究在线健康社区中用户采纳医生回复意见的决策行为,以及基于用户采纳和点赞行为识别医生回复信息的有用性。
(2)现有疾病相关的关系抽取大都基于电子病历和生物医学文献摘要,本书最大的优势是针对在线健康社区的医患问答语料提出了一个结合字符级和语句级注意力机制的双向GRU网络架构(2ATT-BiGRU)来抽取疾病相关的多种关系;通过大规模数据集来训练领域相关的词向量,以及双向的GRU网络(无需手工设计特征,获取了重要的上下文语法和语义特征)和注意力机制的架构在疾病相关的关系抽取上超越了现有经典的模型,表现出了良好的效果。
并在疾病、药物和药物效果的关系抽取后,本书提出了对在线健康社区中用户疾病用药的时间序列数据进行分析,选取其中提问次数超过5次心血管疾病用户的时间序列数据,结合用户画像(年龄、性别、疾病特性等),分析用户疾病用药的生命周期健康管理,从分析结果中获取到了疾病用药、药物效果的进展演化。该研究可以辅助健康管理师为用户制定个性化健康管理方案,另外,众多的用户用药案例可以共享给医生,辅助医生诊断,为循证医学提供了支持,此外,本研究还拓展了基于生命周期健康管理的数据应用范围。
(3)在线健康社区用户知识采纳行为的研究中,使用当前最流行的医患问答健康社区的大规模新近语料;采用双加工理论将用户的知识行为研究拓展应用到在线健康问答社区中(前人研究都在开放性社区);并使用文本挖掘技术综合全面地从医患问答数据中抽取了论据质量和信息源可信度方面的变量;同时本书调查了调节变量用户参与在论据质量和信息源可信度的影响因素和用户采纳决策上面的关联;基于实证结果,本书提供了使用大规模数据集更好地理解在线健康社区中用户的知识采纳行为,并深入分析了研究对平台、医生和用户的意义。
(4)从设计科学的思维出发,以知识采纳理论为核心理论,本书提出了一种识别医生回复信息有用性的研究框架。本书提出了从用户采纳和点赞的知识行为着手,基于知识采纳概念模型识别医生回复有用性的设计过程,指定了信息有用性的元需求,以及构建了基于理论模型的元设计。使用来自社会科学的核心理论为设计过程提供了理论支撑,其中,关键的一步是把核心理论应用到设计科学,特别是,如何利用概念模型进行元设计又是一个挑战。本书展现了应用知识采纳模型到信息有用性元设计的计算维度特征,它们代表了从知识采纳理论出发的信息有用性,最后本书展现了提出的有用性框架如何超越前人基于直觉的研究方法,此外,本书对信息系统理论驱动的设计研究进行了拓展。
张艳丽
2023年9月