联邦学习的算法优化及其应用

1 联邦学习简介

起源:2016年来自谷歌的McMahan等人提出本学习范式与其术语

面向问题:机器学习需要基于数据,但在大多数行业中,数据以孤岛的形式存在;且其用户数据隐私和安全不能忽略

核心思想:核心思想是通过在多个拥有本地数据的数据源之间进行新式的分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡

分类方式一:横向联邦学习(特征对齐的联邦学习)、纵向联邦学习(样本对齐的联邦学习)、迁移联邦学习

分类方式二:中心化联邦学习、群体学习1

[1]Warnat-Herresthal S,Schultze H, Shastry KL, et al. Swarm learning for decentralized and confidential clinical machinelearning[J]. Nature, 2021, 594(7862): 265-270.

2 联邦学习原理

· 联邦学习任务:

在不侵犯各方数据隐私的要求下,使用多方内部数据,进行机器学习模型联合建模。

· 联邦学习原理:

可以最简单的伪代码表示为

循环:
{
•【本地学习】多个客户端同时使用本地数据训练模型
•【上行通信】客户端将模型参数上传给中心服务器
•【参数聚合】中心服务器进行参数聚合
•【下行通信】服务器下发聚合后的参数给下轮参与训练的客户端
}
•【直至收敛】得到全局模型

3 联邦优化热点

网络异构问题举例:

解决网络异构问题的方式(SCAFFOLD算法):

[1] Li T, Sahu A K,Talwalkar A, et al. Federated learning: Challenges, methods, and futuredirections[J]. IEEE Signal Processing Magazine, 2020, 37(3): 50-60.

4 应用落地方案-开源框架

· 在当前的国内隐私计算产品中,开源类和自研类分别占比55%和45%

· FATE(Federated AI TechnologyEnabler)项目使用多方安全计算 (MPC)以及同态加密 (HE) 技术构建底层安全计算协议,以此支持不同种类的机器学习的安全计算,包括逻辑回归、基于树的算法、深度学习和迁移学习等。

· FATE支持可信联邦学习,其打“水印”的方式并不是运用区块链技术,而是在模型参数中加入有特点的矢量,插入是保密的,但是却是可以被检测的。

5 一点思考

· 关于行业风口:目前法律约束范围模糊、隐私与效率的平衡点需要实业界探索

· 关于联邦激励:数据不是资产,数据中蕴含的知识才是