大数据可视分析方法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.6 基于迁移学习的数据分类可视分析方法

传统分类问题中,训练数据和未标记数据通常被认为是来自于同一个特征空间和数据分布。迁移学习方法希望通过“知识迁移”的手段,将不同特征空间和分布的数据结合在一起。迁移学习的内部机制类似于“从类比中学习”,其机制源自于认知心理学,即通过构造共有特征等方法,将已有的模型和知识适配在新的任务上。

对于没有任何先验知识(例如类别标记等)的新任务和数据,迁移学习方法可以重用已有模型或有标记数据,以降低探索新任务和数据的成本。一个典型的例子是网页文本的情感分类,由于网络语言的内容发展迅速,表达正向或负向情感的词语随着时间的推移会发生天翻地覆的变化。如果使用过去已有的情感分类模型去对现有的文本进行情感分析,则准确率可能会因为词语分布的变化而大大下降。迁移学习方法可以通过抽取前后两个时间段上共有的词语分布特征,以及从过去带有情感分类标记的数据中挑选出仍旧可以复用的部分,来对已有的模型进行适配,或是复用已有的带标记训练数据。在很多论文中,迁移学习已被证明能够提高对新任务的分析能力。

目前迁移学习这一领域已经得到了长足的发展,然而在实际应用中仍旧有很多问题需要解决。其中最重要的两个挑战是估算已有模型的“可迁移性”和已有标记数据的“可复用性”。

①“可迁移性”用于度量已有模型相对于新分析任务的适配程度。在分析新任务时,用户可以基于“可迁移性”这一度量来寻找合适的已有模型。

②从数据角度讲,“可复用性”用于表示已有的标记数据在多大程度上可以在训练新模型时进行复用。可复用性高的已有标记数据可以减轻从新数据集上获取标记数据的压力。

然而在基于自动过程的迁移学习方法和复杂的分析任务中,这两个挑战仍未被很好地解决,因此我们提出,交互式可视化方法是一种可行的解决方案。该方案能够很好地融合用户的专家知识,以达到使用人类智能解决迁移学习中判断可迁移性和可复用性的问题。本案例以文本分类为背景,其核心在于一系列交互式可视化设计与方法,用于帮助用户理解和操作迁移学习过程,包括对已有文本分类任务和目标任务之间可迁移性的探索和判断,以及旧任务中带标记文本能够重用于新任务中的程度。

1.6.1 概念定义

(1) 应用背景

本案例场景使用文本二类分类作为应用场景,其中会使用词袋模型将所有文本(Bag of Words,BOW)转化为词频向量,并进行tf-idf(term frequency-inverse document frequency)加权,文本的分类标记只有两个。

(2)“任务”“领域”和“模型”

相对于传统文本分类场景中训练数据和测试数据来源相同、数据分布相同这一特征,迁移学习强调训练数据和测试数据来自不同的数据源(例如来自不同网站、不同时间段、不同的专业方向等),数据分布也可能不同。这些不同的数据来源被定义为数据的领域(domain)。每个领域可基于其中有分类标记的数据(例如新闻网站上被标记为“体育新闻”的页面,或是学校大量课程报告中被标记为“计算机科学”类型的课程报告)训练出相应的文本分类模型(model)。领域和模型结合起来,可以用于解决一个特定的分类任务(例如从新闻网站上分出与体育相关的新闻文本,或是从课程报告中筛选出与计算机科学相关的报告)。在这里,我们将数据领域和基于该领域训练出的模型称作一个任务。

(3)“源”与“目标”

如果用户已经获得了某个任务中的带标记数据和训练好的模型,并希望将其迁移到一个新的任务上,那么这个已有的任务被称作迁移学习过程中的“源任务”,其数据领域被称作“源领域”。相对来说,这个新的任务和涉及的数据领域被称作“目标任务”和“目标领域”。

基于上述定义,这里将本案例中涉及的迁移学习过程定义为:利用来自源领域中的标记数据和源任务中已训练好的模型来训练一个新的分类模型,使得这个分类模型能够在目标分类任务和目标领域上获得最好的分类性能。

1.6.2 方法概览

图1-40展示了本案例的方法框架。本框架主要分成四个阶段。

图1-40 本案例的方法概览图

①对于给定的一个目标任务,一系列源任务及其相关数据会被导入到系统中。

②源任务和目标任务之间的可迁移性会被自动计算出来,用户使用任务探索视图对一系列源任务和给定的目标任务之间的相似程度和可迁移程度进行探索,最后选出一个适合的源任务。

③对于选定的源任务,用户使用任务迁移视图对源任务中可被迁移的标记数据进行选择。每次选择后都可以用于目标任务中新模型的训练。

④已经训练好的新任务可以重新添加至任务列表中,作为其他新任务的源任务使用。

图1-41展示了本案例方法的系统界面,其主要包含四个视图:任务探索视图、数据迁移视图、任务详细信息视图、数据详细信息视图。

图1-41 系统界面