JIMI的发展轨迹
JIMI上线之初承担的是售后咨询服务,2014年5月起,它又开始承接售前咨询。JIMI研发团队负责人杨洋表示,从售后到售前,JIMI的智能化能力实现了质的突破。售后咨询,客户输入的信息相对标准化,信息范围边界相对清晰,比如“订单什么时候能到货”之类的;而售前咨询,客户的发散问题相对较多,需要JIMI结合上下文语义灵活应答,甚至在对话过程中引导客户的购买行为。随着智能化能力的不断提升,JIMI从2014年7月开始提供店铺个性化服务。2015年10月, JIMI的服务范围扩大到京东金融板块。同年12月,JIMI覆盖了京东全部有在线客服需求的品类。与此同时,其应用场景也从最初的网页端延伸到了移动端(见图2.1)。
图2.1 JIMI发展历程
资料来源:京东
JIMI全站多客户端覆盖的应用背后,是其逐步成熟的技术体系。此技术体系由NLP(Natural Language Processing,自然语言处理)、知识平台、应答引擎、离线挖掘、调度、运营平台等系统组成(见图2.2)。不过,JIMI诞生时并非五脏俱全,这些系统功能是在发展过程中逐渐增加的。几年时间的积累,使JIMI从最初基于搜索引擎的应答系统,发展成为能根据上下文理解客户、具备自学习能力、能识别客户情绪、向客户提供个性化服务的客户伴侣(见图2.3)。
图2.2 JIMI技术系统架构图
资料来源:京东
图2.3 JIMI技术功能发展轨迹
资料来源:京东
不断成熟的技术体系,让JIMI的客户满意度逐渐接近人工客服的水平:从最初的50%,逐次提升到60%、70%、80%。在诸如服装、鞋靴等品类上,JIMI的客户满意度超过了80%。
JIMI的工作原理
JIMI通过NLP系统和应答系统实现在线服务,并通过机器学习体系实现数据积累和知识的储备(见图2.4)。
图2.4 JIMI工作原理图
资料来源:京东
JIMI的在线应答处理大致分为三个板块:意图识别、命名实体识别和应答引擎。意图识别主要是识别客户说话所表达的目的或中心思想,即识别客户想干什么,是针对客户的一个句子来做判断;而命名实体识别,则是抽取客户一句话中的关键词,再由这个关键词指向JIMI后台所对应类别的知识库;应答引擎就是根据来自意图识别和命名实体识别所给的结果,依据引擎规则判断并给出答案。因此,在一个应答过程中,前面两个识别对信息起到明确、聚焦和归类的作用,而应答引擎则负责去找到答案并回答。比如,假设京东商城有一本书叫《刘强东》,如果一个客户来寻求服务:“给我推荐刘强东”,那么意图识别模块就要根据这整个一句话来判断,客户到底是要找人还是找一本书,如果这两种目的都有可能,那么就要结合命名实体识别来判断。而命名实体识别模块则提取关键词“刘强东”,并且判断到:客户在商城里咨询,则肯定咨询的是商品,因此,把这个关键词指向书名知识库,综合这两者判断,应答系统去到与书名相关的知识库中选择答案。实际操作过程中,如果这两个识别无法聚焦客户需求的话,那么JIMI还会通过反问去缩小客户需求信息范围从而进行识别。
JIMI要能准确应答问题,除了需要前面两个识别的帮助外,还需要应答引擎和应答知识库的支持。应答引擎是JIMI选择、判断答案的规则,这是由各种参数构成的算法模型;应答知识库是JIMI所储存的对应各种关键词的分类大数据知识库(通过机器学习得来)。发展到2016年,JIMI已经储存了成千上万种应答引擎。
在日常工作中,JIMI会与人工客户一起,等待着客户来选择咨询。不过,2015年9月JIMI增加了智能分流功能后,当人工客服接待不过来时,JIMI就会提示客户是否选择自己。
在JIMI的应答流程中,还有一个客户情绪识别模块,一旦客户给出情绪不好的信息时,这个模块就会被触发识别,并将信息与客户的意图识别信息、命名识别信息一起传递给应答系统,如果JIMI觉得自己无法处理这样的问题时,也会向客户建议引入人工客服,从而实现分流。
JIMI的核心技术
深度学习
深度学习中的一种技术是深度神经网络。它模拟人脑神经网络来对数据进行分析处理。相对传统机器学习算法,深度神经网络技术因为引入更多维度的判断参数而拥有更强的学习和判断能力,需要的人工干预更少,更懂客户,更精确,更智能。
2014年9月,京东成立了深层神经网络实验室。2015年初,JIMI的客户意图识别和命名实体识别都引入了深层神经网络技术。这个技术让JIMI在命名实体识别上的准确率从之前的83.5%提升到92.6%,在客户意图识别方面的准确率提升了4%~5%,在网页端准确率达到90.4%,在移动端准确率达到92.8%。
机器学习
JIMI应答知识库的建立和丰富以及应答引擎的优化,都是机器学习的结果。按照京东成都研究院智能通讯部&京东全球售部门负责人刘丹的说法,机器学习跟人学习是一样的。人不断学习后做事的能力会不断提升;同样,JIMI通过学习,智能化业务能力也会提高。人可以通过日常生活或工作学习(在线学习),也可以到学校机构去学习(离线学习),而JIMI的学习方式也可分为在线和离线两种。JIMI可以在工作中通过与客户互动而完善自己的认知,也能通过对京东历史资料以及从互联网上搜集来的数据进行离线学习,像谷歌的AphalGo学习棋谱那样。
JIMI的整个学习体系包括四个部分:
第一块,监督式学习,包括有监督、半监督和无监督模式。
JIMI诞生之初,好比一个什么都不懂的婴儿,因此,它的最初学习一定是有监督的,靠人工去教它,或者说训练它,让它明白某个数据代表什么意思:客户的这个问话是什么意思,该用什么话来回答。而教JIMI的教材,就是京东那些历史客服数据或者JIMI团队从网上搜集来的对话数据,这些数据需要采用聚类技术转化成一个个代表某类特征(关键词)的知识库或者叫应答库。JIMI学会了这些知识,以后就会到这些知识库中来寻找答案。
当JIMI获取一定知识后,就可以进入半监督学习状态,这时,人工教学和JIMI自学同时存在,就像一个会自己看书的学生一样。人获取一定知识后可以摆脱老师完全自学,同样,JIMI达到一定程度后也可以自主自学,进入无监督学习模式。
不过,对于成长中的JIMI来说,监督或半监督式学习是一直相伴其左右的。事实上,JIMI研发团队会不定期到网上去抓取信息补充给JIMI,比如一些二次元的流行语,或者一些突发事件所带来的突发应答素材。
第二块,基于客户反馈的学习。
JIMI也会在工作中通过客户的肯定或否定来判断所给出答案的优劣。如果客户对某个答案点赞,那么,JIMI就会给其知识库里的这个答案增加权重,下次客户再提类似问题时,JIMI会优先使用这个答案。当然,如果客户对某个答案表示出不满意,JIMI下次也会尽量避免使用这个答案。实际上,这个学习过程,就是对应答引擎模型参数值的修正和优化过程。
第三块,评测体系。
这是一个人工介入的环节。JIMI在京东自营业务中主要是作为独立客服存在的,但在第三方卖家中也作为客服助手存在,以辅助第三方卖家的客服工作。
作为独立客服时,JIMI与客户的对话会被定期拿到线下找有经验的人工客服做评测,以此来对JIMI的答案和应答引擎做进一步优化;而作为客服助手时,JIMI与人工客服同时服务客户,JIMI的答案会被实时修正。
第四块,异构信息融合与挖掘。
这是一个对JIMI应答知识库做补充的环节。相关人员利用专业软件从京东商品图片或其他信息载体上获取非结构化信息,然后格式化成结构化数据,再补充进JIMI的相关知识库中。
就像人需要不断学习一样,JIMI的这个机器学习过程也是在不断进行中的,JIMI之所以能不断变“聪明”,不断被客户所接受,很大一部分原因就在于能不断学习。
客户画像的应用
客户画像是京东用来记载客户基本资料、在京东的历史交易和行为轨迹信息的个人信息库。这些信息可以帮助JIMI识别客户,比如客户性别、家庭状况、喜好、在京东买过多少东西等。可以想象,面对前来咨询的客户,如果JIMI一开始就能直接称呼对方的名字或者知道性别等,就会立刻让客户产生一种“我都没说你居然就知道”的惊喜感。
个性化服务、智能分流是JIMI应用客户画像的两个直接结果。在个性化服务方面,凭借客户画像数据,JIMI不仅能在对话开场时让客户产生温暖感,还能更准确地向客户推荐和介绍商品,提供超出客户期望的服务。比如,面对一个经常购买海外婴儿用品的客户,当他(她)提出想买奶粉时,JIMI直接推荐的就是国外奶粉,这样客户的购买意愿和满意度都会相应较高。而这个客户再返回京东咨询时,JIMI还会询问上次买的奶粉是否适合孩子。这种主动关怀可以增加客户的信任度和亲近感。在对话友好的气氛下,JIMI还有可能向客户推荐其他婴儿用品,从而实现导购的功能。而在智能分流场景中,JIMI则可以根据客户画像对客户意图进行准确识别。
在目前的操作中,JIMI的机器人身份还是向客户明示的,把是否选择机器人客服的权利交给客户。但智能分流未来将把JIMI混迹于人工客服中,让客户感觉不到是在跟人对话还是在跟机器人对话。