需要让AI模型快速“忘记你”

发布时间：2021-03-04 16:03:24 所属栏目：传媒来源：互联网

导读：论文，带来了高效从AI模型中删除记录的方法，有望节约巨量能源并真正为合规性带来保障，一篇来自斯坦福大学，另一篇（预印本）来自多伦多大学。斯坦福大学计算机科学家、第一篇论文的联合作者Melody Guan表示，我们似乎需要一些新的算法，来简化企业之间的实

论文，带来了高效从AI模型中删除记录的方法，有望节约巨量能源并真正为合规性带来保障，一篇来自斯坦福大学，另一篇（预印本）来自多伦多大学。斯坦福大学计算机科学家、第一篇论文的联合作者Melody Guan表示，“我们似乎需要一些新的算法，来简化企业之间的实际合作，确保实现难度不会成为他们违反隐私规定的借口。”

由于关于高效数据删除的文献非常有限，因此斯坦福大学的作者们首先对问题做出明确定义，并提出有助于缓解问题的四项设计原则：

第一项原则为“线性度”：简单的AI模型只需要对数字进行加法与乘法运算，这就避免了所谓非线性数学函数的介入，保证步骤分解更加简单易行；
第二项则是“惰性”原则，尽可能推迟计算操作，除非确实需要做出预测；
第三项为“模块化”：如果可能，尽量以可拆分的形式进行模型训练，而后组合结果；
第四项是“量化”，即只要平均值能够锁定在特定的离散区间之内，则删除其中对于平均值结果影响不大的数值。

斯坦福大学的研究人员们将其中两项原则应用到一种名为k均值聚类的机器学习算法当中。此算法用于将数据点分类为自然聚类，例如用于分析密切相关的种群之间的遗传性差异。（在UK Biobank医学数据库中，该聚类算法已经得到实际应用。而且有部分患者已经向数据库作者提出通告，要求将自己的记录从数据库中删除。）研究人员利用量化技术开发出一种Qk均值算法，并立足六套数据集进行了测试，分别对单元格类型、手写数字、手势、森林覆盖率以及联网设备黑客入侵情况进行分类。他们在每组数据集内各删除1000个数据点，每次1个。结果证明，Q-k均值算法的速度达到常规k均值算法的2倍到584倍，且准确性几乎没有任何损失。

利用模块化方法，他们又开发出DC-k均值（用于实现分治法）。数据中的各个点被随机划分为多个子集，且各个子集将独立进行聚类。接下来，再将这些子集构成新的集群，依此类推。事实证明，从单一子集内删除一个点，并不会影响到其他子集的结果。新算法的加速水平在16倍到71倍之间，且准确性同样几乎不受影响。该项研究被发表在上个月的加拿大温哥华神经信息处理系统（NerulPS）大会上。

（编辑：平顶山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!