联邦学习的实现流程_隐私计算：推进数据“可用不可见”的关键技术-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

联邦学习的实现可以分为两个核心流程，一是特征工程，二是模型训练。

特征工程是训练的前提环节，需要对输入训练中的特征进行一系列加工和处理，主要包括异常值清洗、缺失值填充、特征编码、特征分箱、特征标准化、特征散列、特征选择等，这其中的一些过程并不一定需要通过联邦的形态交互实现，参与方在本地计算即可，但类似于特征分箱之类的处理大多还是需要以联邦的形态完成。

根据不同场景的不同目标，参与方之间按照约定的目标机器学习算法参与模型训练。常见的机器学习算法主要有逻辑回归、决策树、线性回归、k-means聚类、主成分分析、深度学习等。但从目前的实践应用看，联邦学习中应用最多的还是逻辑回归和决策树模型。

那么，一个完整的联邦学习任务究竟是怎样完成的，我们通过纵向的联邦学习训练做一个简单的说明，仍然以两个参与方之间的合作为例，具体流程如图2-12所示。

图2-12 一个纵向的联邦学习训练流程示例

（1）部署数据集：参与方统一联邦学习的目标后，需要分别确认任务将使用到的样本数据集，检查与确认隐私数据不可交换后，完成数据集的加载和部署，进行特征导入，完成特征工程。

（2）对齐加密样本：也就是取双方样本的交集。由于双方的样本数据并非完全重合，系统利用基于加密的用户样本对齐技术，在双方不公开各自数据的前提下确认双方的共有用户，并且不暴露不互相重叠的用户，以便联合这些用户的特征进行建模。

（3）加密训练：在确定用户和特征对齐的情况后，就可以利用这些数据训练机器学习模型。如图2-12中右侧部分。具体流程可参阅第3章联合建模的纵向逻辑回归算法的训练过程。

（4）输出结果：训练结束后，指定的结果方可以按照约定的方式获取模型结果。配置任务时，参与方之间会提前约定结果输出方式，一般只有发起方可以获得模型结果，且模型结果只包含与本方特征有关的部分。

（5）模型发布/上线：对完成训练的模型进行管理发布。

（6）预测/模型推理：基于已完成训练的模型进行预测；但即使训练已完成，预测过程也需要其他参与方协同完成。