鲁棒SV--解纠缠的说话人embedding

DISENTANGLED SPEAKER EMBEDDING FOR ROBUST SPEAKER VERIFICATION

摘要

speaker features和冗余features的纠缠使得SV在unseen-domain表现差；

为了解决这个问题，本文提出InfoMax domain separation & adaptation network ，基于domain适应技术来解开domain相关和domain不变的说话人特征之间的纠缠；

本文提出一个帧级的相互信息神经估计器来最大化帧级特征与输入声音特征之间的相互信息--可以储存更多有用信息；

采用triplet-loss来克服标签mismatch问题；

实验结果显示，在VOiCES Challenge 2019上，可以学习更多更有区分性更鲁棒的说话人特征；

Index Terms：域适应、自监督、triplet-loss