基于异常特征模式的心电数据标签清洗方法

韩京宇; 陈伟; 赵静; 郎杭; 毛毅

doi:10.7544/issn1000-1239.202220334

基于异常特征模式的心电数据标签清洗方法

南京邮电大学计算机学院　南京　210023
江苏省大数据安全与智能处理重点实验室（南京邮电大学）　南京　210023

基金项目: 国家自然科学基金项目（62002174）

详细信息

作者简介:
韩京宇: 1976年生. 博士，教授. CCF会员. 主要研究方向为生物信息处理、数据库系统和机器学习

陈伟: 1995年生. 硕士研究生. 主要研究方向为生物信息处理和机器学习

赵静: 1996年生. 硕士. 主要研究方向为机器学习和数据库系统

郎杭: 1999年生. 硕士研究生. 主要研究方向为机器学习和生物信息学

毛毅: 1985年生. 博士，讲师. 主要研究方向为生物信息处理和机器学习

中图分类号: TP391.5；TP181
计量
- 文章访问数: 181
- HTML全文浏览量: 41
- PDF下载量: 95
出版历程
- 收稿日期: 2022-04-24
- 修回日期: 2022-12-08
- 网络出版日期: 2023-07-31
- 刊出日期: 2023-11-14

A Label Cleaning Method of ECG Data Based on Abnormality-Feature Patterns

School of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210023
Jiangsu Key Laboratory of Big Data Security and Intelligent Processing (Nanjing University of Posts and Telecommunications), Nanjing 210023

Funds: This work was supported by the National Natural Science Foundation of China (62002174).

More Information

Author Bio:
Han Jingyu: born in 1976. PhD, professor. Member of CCF. His main research interests include biomedical information processing, database system, and machine learning

Chen Wei: born in 1995. Master candidate. His main research interests include biomedical information processing and machine learning

Zhao Jing: born in 1996. Master. Her main research interests include machine learning and database systems

Lang Hang: born in 1999. Master candidate. His main research interests include machine learning and bioinformatics

Mao Yi: born in 1985. PhD, lecturer. Her main research interests include biomedical information processing and machine learning

摘要

摘要:
心电图（electrocardiogram, ECG）异常的自动检测是一个典型的多标签分类问题，训练分类器需要大量有高质量标签的样本. 但心电数据集异常标签经常缺失或错误，如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题. 在一个标签完整且准确的示例数据集辅助下，提出一种基于异常特征模式 (abnormality-feature pattern, AFP) 的方法对弱标签心电数据进行标签清洗，以获取所有正确的异常标签. 清洗分2个阶段，即基于聚类的规则构造和基于迭代的标签清洗. 在第1阶段，通过狄利克雷过程混合模型（Dirichlet process mixture model, DPMM）聚类，识别每个异常标签对应的不同特征模式，进而构建异常发现规则、排除规则和1组二分类器. 在第2阶段，根据发现和排除规则辨识初始相关标签集，然后根据二分类器迭代扩展相关标签并排除不相关标签. AFP方法捕捉了示例数据集和弱标签数据集的共享特征模式，既应用了人的知识，又充分利用了正确标记的标签；同时，渐进地去除错误标签和填补缺失标签，保证了标签清洗的可靠性. 真实和模拟数据集上的实验证明了AFP方法的有效性.
- 心电图 /
- 多标签分类 /
- 异常标签 /
- 异常特征模式 /
- 二分类器 /
- 标签清洗
Abstract:
Automatic detection of electrocardiogram (ECG) abnormality is a typical multi-label classification problem, which heavily relies on sufficient samples with high-quality abnormality labels for model training. Unfortunately, we often face ECG datasets with partial and incorrect labels, so how to clean weakly-labelled datasets to obtain the clean datasets with all the correct abnormality labels is becoming a pressing concern. Under the assumption that we can have a small-sized example dataset with full and correct labels, we propose an abnormality-feature pattern (AFP) based method to automatically clean the weakly-labelled datasets, thus obtaining all the correct abnormality labels. The cleaning process proceeds with two stages, clustering-based rule construction and iteration-based label cleaning. During the first stage, we construct a set of label inclusion and exclusion rules and a set of binary discriminators by exploiting the different abnormality-feature patterns which are identified through Dirichlet process mixture model (DPMM) clustering. During the second stage, we first identify the relevant abnormalities according to the label inclusion and exclusion rules, and then refine the relevant abnormalities with iterations. AFP method takes advantage of the abnormality-feature patterns shared by the example dataset and weakly-labelled dataset, which is based on both the human intelligence and the correct label information from the weakly-labelled dataset. Further, the method stepwise removes the incorrect labels and fills in the missing ones with an iteration, thus ensuring a reliable cleaning process. The experiments on real and synthetic datasets prove the effectiveness of our method.
- electrocardiogram (ECG) /
- multi-label classification /
- abnormality labels /
- abnormality-feature pattern (AFP) /
- binary discriminator /
- label cleaning

HTML全文

根据世界卫生组织的报告，心血管疾病（cardiovascular diseases, CVDs）是人类健康的头号杀手^[1]. 心电图（electrocardiogram, ECG）作为一种无创的心脏健康检测技术在临床上广泛应用，因而心电图异常的自动识别备受关注^[2]. 由于每个样本通常会有多种心电异常，例如完全性左束支阻滞经常和前间壁心肌梗死共同出现，房性期前收缩经常和窦性心动过缓并发^[3]，其自动检测在机器学习中是一个典型的多标签分类问题. 训练有效的分类器，通常需要大量具有完整且准确标签的样本，然而在实际中，人工标注心电异常不仅需要专业人员，而且费时费力.

众所周知，丰富且标记正确的样本对于训练有效的分类器至关重要，尤其是训练深度学习模型，样本的数量直接影响分类器的精度和泛化性. 现实中，经常有一些心电的弱标签数据集（weakly labelled dataset，WD）不能被有效利用^[4-5]. 这些样本有异常标签，但标签不一定完整和正确，如何有效地去除错误标签、填补缺失标签，提供更丰富的训练数据集，意义重大^[6]. 我们注意到，获取少量的有完整、正确标签的示例数据集（example dataset，ED）是完全可行的. 根据这个认识，弱标签心电数据集的清洗任务具体化为，给定一个WD和一个ED，对WD中的异常标签进行清洗，获得干净数据集（clean dataset，CD），其每个样本有全部正确的异常标签.

目前关于弱标签心电图样本清洗的研究^[7-10]可以分为2类：依赖于分类器的方法和独立于分类器的方法. 前者直接在弱标签数据集上训练一组分类器，并根据它们的判断来识别错误标记的样本^[7,9-10]；后者旨在无需训练分类器的情况下，开发识别弱标签的专用算法^[8]，本文提出的方法就属于后者. 另外，机器学习中利用弱标签数据和未标记数据训练通用分类器的方法也受到广泛关注. 前者根据每个样本的部分相关标签进行学习^[11-15]，后者基于小部分正样本和大量未标记样本来训练分类器^[16-17]. 但这些方法不能用于创建具有干净标签的数据，也不适用于心电图数据：首先，心电图异常标签多达几十个，而通常的方法只关注少量标签；其次，心电图数据的异常标签和特征间有复杂的相关性，即一个异常呈现不同的特征模式，而且类似的特征模式可能指示不同的异常^[3,5].

本文提出一种基于异常特征模式（abnormality- feature pattern, AFP）清洗弱标签心电数据的方法（后文简称：AFP方法），生成可重复使用的、具有完整且准确标签的干净数据集，为心电数据的有监督学习提供更丰富的训练样本. 具体地，基于心电数据的异常特征模式，在ED的支持下去除错误标签并填补缺失标签，AFP包括2个阶段，即清洗规则构建和迭代清洗异常标签. 在第1阶段，提取由ED和WD共享的异常特征模式，识别ED和WD共享的异常标签，即锚标签；然后，提取异常发现规则、异常排除规则和1组二分类器. 在第2阶段，首先根据标签发现和排除规则识别初始相关异常；然后，根据二分类器迭代判断其他的弱标签是否属于对应样本. 迭代终止时，生成对应WD的CD. 方法中ED的支持是不可或缺的，它不仅是发现共享异常特征模式的基础，也是挖掘清洗规则的源泉.

本文主要贡献在于提出了一种通用的心电数据标签清洗方法，具体包括3个方面：

1）提出利用异常特征模式识别以高置信度属于实例的锚标签. 既利用了人类知识，又提取了弱标签中的可靠信息，保证清洗方法的有效性和鲁棒性.

2）提出挖掘异常发现和排除规则的具体算法，这些规则是标签清洗的基础.

3）开发了一个迭代式的异常清洗框架，通过逐步缩小不确定区间来清洗异常标签，精准地去除错误标签和添加缺失标签，避免方法性能的波动.

1. 相关工作

1.1 弱标签心电图数据学习

大多数心电图分类工作假设样本的标签完整且准确，但实际中很难满足. 在心电异常分类中，如何利用被错误标记的样本备受关注. 文献[7]中利用5种不同的分类器，支持向量机（support vector machine, SVM）、K近邻（K-nearest neighbor, KNN）、朴素贝叶斯（naive Bayesian, NB）、线性判别分析（linear discriminant analysis, LDA）和决策树（decision tree, DT），将所有训练样本随机分成10份，1份作为验证集，其余9份作为训练集，然后将训练集输入到这5种分类器，确定标签是否被错误标记. 文献[8]中自动删除具有潜在错误标签的训练样本，协助用户进行心电图病症标记. 所提出的方法基于遗传优化过程，其中每个染色体代表一个候选解决方案，用于确认无效的训练样本. 文献[9]中提出，用分类性能最好的前k个算法独立进行投票，如果k个算法对是否有某个标签持不同观点，则将该标签视为潜在错误标签.

另一项密切相关的工作是如何利用弱标签数据训练通用分类器^{[11-14,18-21]}，该工作分成2类：

一类是直接对弱标签进行修正. 文献[12]中提出通过10折交叉验证来识别错误标记的数据，在第i轮中的第i组作为验证集，其余9组作为训练集. 在验证集上预测的每个标签，如果训练出来的分类器不一致，则被认为是不正确的标签. 文献[13]用一个矩阵建模图像和标签的相似性，通过矩阵补齐技术来补齐图像的标签，也是一种修补标签的方法. 文献[18]中提出了半监督弱标签（semi-supervised weak-label, SSWL）方法，解决基于部分标签甚至无标签数据进行的学习问题，它根据实例相似性和标签相似性来补充缺失标签.

另外一类是直接利用弱标签数据训练分类器. 文献[20]提出的随机梯度下降树（random gradient descent tree, RGD-tree），在有错误标签的数据集上训练支持向量机，保证超平面的可分性. 文献[21]提出采用缩放铰链损失函数（rescaled hinge loss function），提高支持向量机对噪声标签的鲁棒性.

本文不同于上述2类方法在于：1）标签被清洗后，数据集可以被复用于各种计算任务，不仅可以用于训练分类器，而且可以用于各种数据挖掘、数据分析任务，拓宽数据的可用性；2）弱标记数据进行学习通常只能在符合方法特点的数据集上进行有效学习，方法对数据集敏感，有一定的适用局限性.

1.2 PU学习

另一个相关工作是正样本和未标记样本（positive and unlabeled, PU）学习^[22]，它根据正样本和未标记样本来训练分类器，主要分为2步法（two-step methods）和有偏学习（biased learning）.

2步法的第1步识别出一些可靠的负样本；第2步将此样本与正样本结合用于训练分类器，对未识别的样本进行分类. 文献[23]基于正样本构建概率生成模型，把相对正例密度最低区域的样本认为是负样本，基于此构建分类模型. 文献[24]设计了最小平方支持向量机对未标记样本进行分类.

有偏学习训练分类器时将无标签样本当成负样本. 文献[15]提出采用多个合成器、过滤器和确认器标记无标签的样本. 文献[16]中将所有未标记的样本标记为负样本，并使用线性函数从噪声实例中学习，从而将问题转化为噪声学习问题. 文献[17]中引入了一种生成PU学习模型，在没有完全随机选择（selected completely at random, SCAR）假设的情况下，生成一组虚拟PU示例来训练分类器. 文献[25]将未标记的数据集视为负类，对负类标签进行建模，转化为使错误的负标签风险最小的问题.

1.3 多标签分类

因为分类器的输出空间大小与类标签数量成指数关系，所以多标签分类任务具有挑战性. 一般多标签分类可以通过2类方法来解决，即问题转换和算法适应^[26-27]. 前者将多标签分类问题转化为其他成熟的学习场景，而后者采用流行的学习技术来处理多标签分类问题.

问题转换方法可以分为3类：二分类、标签排序和多类分类. 代表性的二分类有二元相关法^[28]和分类器链法^[29]，前者将多标签分类问题分解为1组独立的二分类问题，后者将多标签分类问题转化为二分类问题链，链中的后续二分类器建立在前面分类器的预测之上. 标签排序的代表是校准标签排名（calibrated label ranking, CLR），它将多标签分类问题转化为标签排序问题，其中标签之间的排序通过成对比较来实现^[30]. 诸如Random K-Labelset^[31]之类的多类方法将多标签分类问题转换为多类分类问题的集合，其中每个组件分类器都针对标签的随机子集.

算法适应方法对已存算法进行改造实现多标签分类. 例如，文献[32]中的多标签K近邻（multi-label K-nearest neighbor, MLKNN）方法采用K近邻技术来处理多标签数据，使用最大后验（maximum a posteriori, MAP）规则进行预测. 多标签决策树（multi-label decision tree, ML-DT）采用决策树技术来处理多标签数据，基于多标签熵的信息增益标准递归地构建决策树^[33]. 文献[34]提出的排序支持向量机（ranking support vector machine, Rank-SVM）采用最大边距策略进行多标签分类，优化了一组线性分类器以最小化经验排序损失. 文献[35]提出基于粒化特征加权的K近邻算法实现多标签学习.

1.4 噪声标签清洗

目前噪声标签清洗方法主要分成2类：一类对噪声鲁棒性进行建模，文献[36]提出对噪声的代理损失函数（surrogate loss function）和噪声率进行建模，文献[37]提出均匀标签噪声模型（uniform label noise model），通过风险最小化，创建鲁棒性强的多标签分类模型. 另外一类基于模型过滤进行噪声标签清洗，如文献[38]提出基于数据分布过滤（data distribution filtering，DDF）的标签噪声过滤方法. 对于数据集中的每一个样本，根据其近邻内样本的分布，将其邻域样本形成的区域划分为高密度区域和低密度区域，然后针对不同的区域采用不同的噪声过滤规则进行过滤.

2. 问题和方法概述

令 $U=\{l^1, …,l^{\,k}, …,l^{\,u}\}$ 为所有异常标签，表1列出了一些常见的心电异常标签.ED = {ob₁,…,ob_i,…,ob_N}是具有正确标签的示例数据集，每个ob_i由特征ft（ob_i）和相关异常标签集rl（ob_i） $\subseteq$ U组成. ft（ob_i）是一个d维向量 $(f_1, …,f_k, …,f_d)$ ，每个f_k代表一个数值型特征，采用截断多元正态分布来描述该d维向量的分布. 本文中，对每个样本的心电数据经过波形去噪、波形（QRS波、P波、T波）识别、特征提取和归一化，在12个导联上提取横向间隔、纵向幅度、电轴倾斜和波形高度4类特征^[39]，构成d维向量 $(f_1, …,f_k, …,f_d)$ . 给定一个待清洗的大型弱标签数据集WD = {ob₁,…,ob_i,…,ob_M}，每个ob_i带有弱标签集cl（ob_i），cl（ob_i）中的一些标签属于相关标签集rl（ob_i），而其余的则是错误标签，即不相关标签. 另外，ob_i的有些相关标签缺失. 清洗的目的是从WD生成一个CD. 下文除特殊说明，异常和标签指示同一概念.表2中列出了本文中使用的主要符号.

表 1 CHE和CHW实验数据集中的异常标签

Table 1. Abnormality Labels in CHE and CHW Datasets

标签名		标签名
心房颤动		室性期前收缩
窦性心动过缓		交界性期前收缩
窦性心律不齐		左前分支阻滞
I度房室传导阻滞		左心室肥大
窦性心动过速		下壁心肌梗死
前间壁心肌梗死		完全性左束支阻滞
左心房肥大		不完全性右束支阻滞
完全性右束支阻滞		房性期前收缩

下载: 导出CSV

| 显示表格

表 2 本文中主要符号含义

Table 2. Meanings of Key Notations in Our Paper

符号	含义
$U=\{l^1，…,l^{\,k}，…,l^{\,u}\}$	所有异常（标签）
ob_j，f_k	实例，特征
ft（ob）	实例ob的特征向量
ED，WD	示例数据集、弱标签数据集
CD	干净数据集
TD	ED和WD中锚标签样本形成的数据集
cl（ob_i），rl（ob_i）	ob_i的弱标签集和相关标签集
al（ob）	实例ob的锚标签集
$\overline {ED}$ （l）， $\underline {ED}$ （l）	ED中含和不含标签l的样本
$\overline {WD}$ （l）， $\underline {WD}$ （l）	WD中含和不含标签l的样本
${\overline {FC} ^{}}$ （l）， ${\underline {FC} ^{}}$ （l）	标签l的正样本和负样本上的所有类簇
${\overline C _i}$ （l）， ${\underline {C}_{\,i} }$ （l）	标签l的正样本和负样本上的第i个类簇
fp_j（l）	l对应的第j个异常特征模式
$\overline {FP}$ （l），FP（l）	l正样本和负样本上异常特征模式集
fq（l）	标签l在数据集上的出现次数
AWD（FP¹，FP²）	异常特征模式集合FP¹，FP²的平均Wasserstein距离
supp，conf，cort	支持度、置信度和正相关度
st，ct，rt	支持度、置信度和正相关度的阈值
dr（ob，l）	标签l属于实例ob的判别比
$\theta^{\,l}$	标签l属于实例的分割阈值
$\rho^{\,l}$	标签l属于实例的模糊间隔长度
lf（ob）	实例ob的生存指数

下载: 导出CSV

| 显示表格

给定一个标签l∈U，它在ED（或WD）上的正样本集，用 $\overline {ED} (l)$ （或 $\overline {WD} (l)$ ）表示，是ED（或WD）上有l的样本集；它在ED（或WD）上的负样本集，用 $\underline {ED} (l)$ （或 $\underline {WD} (l)$ ）表示，是ED（或WD）上没有l的样本集. 提出的异常特征模式方法，利用异常对应的特征模式以及异常间的关系来修复标签. 具体来说，每个异常标签l在ED的正样本上对应一组类簇 ${\overline {FC} ^{ED}}(l) = \left\{ {\overline C _1}(l) ,\right. \left.{\overline C _2}(l)…, {\overline C _i}(l),…, {\overline C _n}(l) \right\}$ ，在ED的负样本上对应一组类簇 ${\underline {FC} ^{ED}}(l)= \left\{{\underline{C} _{\,1}}(l),{\underline {C} _{\,2}}(l),…,{\underline {C} _{\,i}}(l),…,{\underline {C} _{\,m}}(l)\right\}$ . 类似地，生成 ${\overline {FC} ^{WD}}(l)$ 和 ${\underline {FC} ^{WD}}(l)$ . 相应地，每个异常l在正样本和负样本上各对应一组异常特征模式集FP（l），定义如下.

定义1. 异常特征模式. 给定l的一个类簇C_i（l），它的异常特征模式fp_i（l）对应一个截断多元正态分布NM（μ_i（l），Σ_i（l）），其中μ_i（l）是特征均值，Σ_i（l）是特征协方差.

给定2个特征模式fp₁=NM（μ₁，Σ₁）和fp₂ = NM （μ₂，Σ₂），衡量 $fp_1$ 和 $fp_2$ 的相异性Wasserstein距离为：

$wdt(f{p_{\text{1}}},f{p_{\text{2}}}) = ||{{\boldsymbol{\mu }}_{\text{1}}} - {{\boldsymbol{\mu }}_{\text{2}}}||_{\text{2}}^{\text{2}} + {{\rm{tr}}}({{\boldsymbol{\varSigma }}_{\text{1}}} + {{\boldsymbol{\varSigma }}_{\text{2}}} - {\text{2}}{({\boldsymbol{\varSigma }}_{\text{1}}^{\frac{{\text{1}}}{{\text{2}}}}{{\boldsymbol{\varSigma }}_{\text{2}}}{\boldsymbol{\varSigma }}_{\text{1}}^{\frac{{\text{1}}}{{\text{2}}}})^{\frac{{\text{1}}}{{\text{2}}}}}) \text{，}$

(1)

其中 $||{{\boldsymbol{\mu }}_{\text{1}}} - {{\boldsymbol{\mu }}_{\text{2}}}||_{\text{2}}^{}$ 是L2范数距离.

AFP方法分成2个阶段:基于聚类的清洗规则构造和基于迭代的标签清洗，如图1所示. 在基于聚类的清洗器构造时，首先在ED和WD上进行聚类寻找锚模式.

图 1 AFP方法的步骤

Figure 1. The steps of AFP

下载: 全尺寸图片幻灯片

定义2. 锚模式. 给定一个异常特征模式fp_i（l），如果它被ED和WD共享，它就是一个锚模式.

定义3. 锚异常集. 给定一个实例ob∈WD，其锚异常集al（ob） $\subseteq$ rl（ob）是根据锚模式识别的相关异常集.

锚异常集是根据共享的锚模式识别出的WD上的高置信度标签，它既是WD相关标签的一部分，又用来扩充规则挖掘依赖的样本.

挖掘标签发现规则和标签排除规则，分别用来表征2个异常特征模式的正相关性和负相关性，在后续的标签清洗中分别用于填补缺失标签和去除错误标签. 最后，为每个异常构造二分类器，以支持后续的标签迭代清洗.

标签迭代清洗前，在ED和WD组成的TD上构建隔离森林iForest（isolation forest）^[40]，根据样本在隔离森林中的路径长度决定参与迭代清洗的次数. 清洗时，首先根据标签发现和排除规则，包含或排除弱标签，包含的标签确定为相关标签，排除的标签视为不相关标签，从而扩充初始相关标签集，缩小了弱标签集的大小；然后根据二分器，迭代清洗弱标签集，逐步缩小不确定的标签集合. 迭代清洗时，通过不断地逼近标签和类簇特征间的关联，识别出其他相关标签.

后文除特别说明，使用Jensen-Shannon距离来衡量2个分布的差异，记为JSD.

定义4. JSD. 给定2个分布P（X）和Q（X），其中X表示域值，其JSD定义为

$JSD({\boldsymbol{P}}||{\boldsymbol{Q}}) = \frac{1}{2}(D({\boldsymbol{P}}||{\mathbf{M}}) + D({\boldsymbol{Q}}||{\mathbf{M}})) ,$

(2)

其中M= $\dfrac{1}{2}$ （P+Q）， $D({\boldsymbol{P}}||{\mathbf{M}})$ 是P和M之间的相对熵， $D({\boldsymbol{Q}}||{\mathbf{M}})$ 是Q和M之间的相对熵.

3. 标签清洗规则的构造

对于每个异常l，在其正样本和负样本上分别识别一组类簇，进而构建l对应的1组特征模式. 虽然每个样本表征为高维数据，但本文没有对数据进行降维处理，因为有些心电病症的区别主要集中在若干特征上^[3]，如果进行降维，会剔除或淹没这些关键信息，降低异常识别精度. 对样本进行聚类时，没有采用常见的方法如k-均值（k-Means）进行聚类，避免根据经验指定类簇数量，而是采用狄利克雷过程混合模型（Dirichlet process mixture model，DPMM）进行聚类，它能够自适应地根据数据分布特点发现最合适的类簇^[41].DPMM中每个实例ob_i产生于中国餐馆过程CRP（Chinese restaurant process）^[42]表达的狄利克雷过程：

${({\boldsymbol{\mu }},{\boldsymbol{\varSigma }})_{1,2,…,\infty }}\sim NIW({{\boldsymbol{\mu }}_0},{k_0},{{\boldsymbol{Y}}_0},{v_0}) ,$

(3)

${Z_{1,2,…,i,…,N}}\sim CRP(\gamma ) ,$

(4)

$o{b_{1,2,…,i,…,N}}\sim MN({({\boldsymbol{\mu }},{\boldsymbol{\varSigma }})_{{Z_i}}}) .$

(5)

该生成模型中，实例由多元正态分布MN产生，类簇分配由中国餐馆过程CRP( $\gamma$ )决定，其中 $\gamma$ 是聚焦参数，Z_i是实例ob_i对应的类簇；作为狄利克雷过程的基分布，逆威沙特分布NIW（normal-inverse-Wishart）是多元正态分布MN的共轭先验分布： ${\boldsymbol{\mu}}_0$ 是N维向量，代表最初平均值；k₀用作平滑因子，控制 ${\boldsymbol{Y}}_0$ 中各个元素的放缩比例；v₀是自由度，初始化为原始特征数目； ${\boldsymbol{Y}}_0$ 是成对偏差积，初始化为N×N的常数矩阵.

为了找到实例ob_i所属合适类簇，算法1用吉布斯采样获得类簇分配.

算法1. clusterAssignment.

输入：训练集D = {ob₁,ob₂,…,ob_N}，DPMM参数；

输出：每个实例ob_i（1≤i≤N）的类簇分配.

① 初始化参数 Z_i（1≤i≤N）和循环变量t；

② while t do

③ for i←1 to N do

④ 根据式（6）计算ob_i第t轮的类簇分配概率；

⑤ end for

⑥ if $(Z_1^{(t)},Z_2^{(t)},…,Z_N^{(t)})$ 和 $(Z_1^{(t - 1)},$ $Z_2^{(t - 1)},…$ $,Z_N^{(t - 1)})$ 相同 then

⑦ t←0；

⑧ end if

⑨ t++；

⑩ end while

⑪ return {Z₁,Z₂,…,Z_N}.

类簇分配不停迭代，直到不再改变. 迭代时，每个实例的类簇分配概率根据式（6）更新：

$\begin{split} &P({Z_i} = m|{Z_{ - i}},o{b_{1:i}}) \propto \\& P({Z_i} = m|{Z_{ - i}})P(o{b_i}|{Z_i} = m,{Z_{ - i}}), \end{split}$

(6)

其中Z_-i是除ob_i之外的所有实例的类簇分配.

证明.

${\text{ }}P({Z_i} = m|{Z_{ - i}},o{b_{1:i}}) = \frac{{P({Z_i} = m,{Z_{ - i}},o{b_{1:i}})}}{{P({Z_{ - i}},o{b_{1:i}})}} =$

$\frac{{P({Z_{ - i}})P({Z_i} = m|{Z_{ - i}})P(o{b_{ - i}}|{Z_i} = m,{Z_{ - i}})}{P(o{b_i}|o{b_{ - i}},{Z_i} = m,{Z_{ - i}})}}{{P({Z_{ - i}})P(o{b_{ - i}}|{Z_{ - i}})}{P(o{b_i}|o{b_{ - i}},{Z_{ - i}})}}$

$= \frac{{P({Z_i} = m|{Z_{ - i}})P(o{b_{ - i}}|{Z_i} = m,{Z_{ - i}})}{P(o{b_i}|o{b_{ - i}},{Z_i} = m,{Z_{ - i}})}}{{P(o{b_{ - i}}|{Z_{ - i}})}{P(o{b_i}|o{b_{ - i}},{Z_{ - i}})}} .$

由于 $P(o{b_{ - i}}|{Z_i} = m,{Z_{ - i}})$ = $P(o{b_{ - i}}|{Z_{ - i}})$ 和

$P(o{b_i}|o{b_{ - i}},{Z_i} = m,{Z_{ - i}}) = P(o{b_i}|{Z_i} = m,{Z_{ - i}}) \text{，}$

可得

$\begin{gathered} P({Z_i} = m|{Z_{ - i}},o{b_{1:i}}) \propto \\ P({Z_i} = m|{Z_{ - i}})P(o{b_i}|{Z_i} = m,{Z_{ - i}}). \\ \end{gathered}$

证毕.

式（6）第2行的第1项是给定ob_i之外的所有实例的类簇分配条件下ob_i的类簇分配，根据式（7）的中国餐馆过程来确定：

$P({Z}_{i}=m|{Z}_{-i})=\left\{\begin{aligned}\frac{{n}_{m,-i}}{i+\gamma -1} & ,m是现存簇, \\ \frac{\gamma }{i+\gamma -1} & ,m是新簇, \end{aligned} \right.$

(7)

其中n_m,−i是簇m中除ob_i外的实例数.

式（6）第2行的第2项是给定当前所有类簇分配条件下ob_i的概率，根据多元正态分布确定：

$P(o{b}_{i}|{Z}_{i}=m,{Z}_{-i})\propto MN({{\boldsymbol{\mu}} }_{m,-i},{{\boldsymbol{\varSigma}} }_{m,-i})\text{，}$

(8)

其中μ_m,−i和Σ_m,−i是类簇m不包括ob_i时的均值和协方差.

3.1 基于异常特征模式识别锚异常

为了识别WD中实例的锚异常，首先识别ED和WD共享的异常特征模式. 给定一个标签l，ED和WD的正例上对应的异常特征模式集记为 ${\overline {FP} ^{ED}}(l)$ = $\left\{ \overline {fp} _1^{ED}(l)\right.$ , $\overline {fp} _2^{ED}(l)$ ,…, $\overline {fp} _i^{ED}(l)$ ,…, $\left.\overline {fp} _n^{ED}(l) \right\}$ 和 ${\overline {FP} ^{WD}}(l)$ = $\left\{ \overline {fp} _1^{WD}(l) \right.$ , $\overline {fp} _2^{WD}(l)$ , …, $\overline {fp} _i^{WD}(l)$ ,…, $\left. \overline {fp} _m^{WD}(l)\right\}$ ，如果 $\big|{\overline {FP} ^{ED}}(l)\big|$ 与 $\big|{\overline {FP} ^{WD}}(l)\big|$ 不同，在较大的集合中删除那些与较小集合中各个模式差异最大的那些模式，使2个特征模式集合大小一样.

如果ED和WD共享某个锚模式，则在2个数据集上对应的模式表达不仅应该相似，而且对应的2个类簇上应有尽可能多的具有相同标签集ls∈2^U的样本. 因此，2个模式集合的最优一对一映射

$f:{\overline {FP} ^{ED}}(l) \leftrightarrow {\overline {FP} ^{WD}}(l)$

(9)

要满足2个条件：

1）配对的异常特征模式的平均Wasserstein距离

$AWD\left({\overline {FP} ^{ED}}(l),{\overline {FP} ^{WD}}(l)\right) = \frac{{\displaystyle\sum\limits_{i = 1}^k {wdt\left(\overline {fp} _i^{ED}(l),\overline {fp} _i^{WD}(l)\right)} }}{{k \cdot {\textit{z}}}}$

(10)

应最小化，其中k是 ${\overline {FP} ^{ED}}(l)$ 的特征数量，z是确保 $AWD\left({\overline {FP} ^{ED}}(l),{\overline {FP} ^{WD}}(l)\right)$ 介于0~1之间的规范化因子，wdt $\left( \overline {fp} _i^{ED}(l),\overline {fp} _i^{WD}(l) \right)$ 是 $\overline {fp} _i^{ED}(l)$ 和 $\overline {fp} _i^{WD}(l)$ 的Wasserstein距离.

2）配对的异常特征模式共享尽可能多地具有相同标签集的样本. 给定2个类簇 $C_i^{ED}(l)$ 和 $C_i^{WD}(l)$ ，用fq（ls）表示标签集ls在类簇中的出现频率. 设 $C_i^{ED}(l)$ 和 $C_i^{WD}(l)$ 的标签集分布分别是 $md\left(C_i^{ED}(l)\right)$ = $(fq(l{s_1})$ , $fq(l{s_2})$ ,…, $fq(l{s_{|{2^U}|}}))$ 和 $md(C_i^{WD}(l))$ = $(fq(l{s_1})$ , $fq(l{s_2})$ ,…, $fq(l{s_{|{2^U}|}}))$ . 因此，要最小化式（11）：

$\begin{split} &AJSD\left({\overline {FP} ^{ED}}(l),{\overline {FP} ^{WD}}(l)\right)= \\&\qquad \frac{1}{k}\displaystyle\sum\limits_{i = 1}^k {JSD(md(C_i^{ED}(l)),md(C_i^{WD}(l)))} . \\[-10pt] \end{split}$

(11)

给定 ${\overline {FP} ^{ED}}(l)$ 中各个模式的排序，需要找到满足上述2个条件的 ${\overline {FP} ^{WD}}(l)$ 的对应元素排列. 这是一个多目标优化问题，采用模拟退火^[43]寻找非劣解，算法流程如图2所示. 模拟退火由3个参数控制：初始温度tl、降温速率cr（0 < cr < 1）和候选解个数ss.2维矩阵F[ss,k]的每一行代表l在WD上各个异常特征模式的一个排列. 随着tl下降，在每个温度，算法为每个候选序列生成一个新排列，并将其与现存排列进行比较. 如果新排列的收益大于现存排列，则现存排列被取代；否则，根据概率替换. 收益定义为式（12）：

图 2 WD上模式排序算法流程图

Figure 2. Flow chart of algorithm for pattern ordering on WD

下载: 全尺寸图片幻灯片

$\begin{split}&ben\left({\overline{FP}}_{\text{new}}^{WD}(l),{\overline{FP}}_{\text{old}}^{WD}(l)\right) =\\&\qquad \left\{\begin{array}{ll}1 & ,d{t}^{AWD}\le 0且d{t}^{AJSD}\le 0, \\ -|d{t}^{AWD}+d{t}^{AJSD}| & ,其他. \end{array}\right.\end{split}$

(12)

其中

$\begin{split} &d{t^{AWD}} = AWD\left({\overline {FP} ^{ED}}(l),\overline {FP} _{{\text{new}}}^{WD}(l)\right)- \\&\qquad\quad AWD\left({\overline {FP} ^{ED}}(l),\overline {FP} _{{\text{old}}}^{WD}(l)\right), \\& d{t^{AJSD}} = AJSD\left({\overline {FP} ^{ED}}(l),\overline {FP} _{{\text{new}}}^{WD}(l)\right) -\\&\qquad\quad {\text{ }}AJSD\left({\overline {FP} ^{ED}}(l),\overline {FP} _{{\text{old}}}^{WD}(l)\right). \end{split}$

式（12）的直观含义:如果新排列优于原排列，则返回1，否则返回−|dt^AWD+dt^AJSD|. 当迭代结束时，有ss个候选解，从候选解中选择一个最优解或非劣解. 模式排列算法的运行时间主要由嵌套循环决定，其时间复杂度为 $O(ss \cdot {\log _{cr}}tl)$ .

最后，模式排列算法返回的每个候选解，对应1组AWD 和AJSD，计算这ss 个候选解的平均值作为阈值. 然后，将平均值低于该阈值的候选解作为锚模式. 一旦确定了标签的锚模式，给定一个实例ob∈WD，锚模式对应的异常标签称为ob的锚标签，同时是该实例的相关标签. 然后，将ED和WD的锚标签样本结合，形成一个训练数据集TD，在TD上挖掘标签发现、排除规则并构建二分类器.

3.2 挖掘标签发现和排除规则

3.2.1 在TD上挖掘标签发现规则

在心电数据中，一个异常经常表现出若干特征模式. 标签发现规则用来指示频繁共同出现的异常特征模式. 给定2个异常特征模式 $f p_{i} (l^{\,\rm{s}})$ 和 $f p_{j} (l^{\,\rm{t}})$ ，标签发现规则 $f p_{i} (l^{\,\rm{s}})= > f p_{j} (l^{\,\rm{t}})$ 表明：若某个实例同时落入fp_i和fp_j的特征模式，并且该实例有异常标签 $l^{\rm{s}}$ ，则该实例有异常标签 $l^{{\rm{\,t}}}$ .

例1. 设有2个异常标签A和B，A是前壁心肌梗死，B是左后分支传导阻滞. 假设某个标签发现规则是fp_i（A）=>fp_j（B），其中

$\begin{split}& f{p_i}(A) = NM\left((0.75,0.83),\left( {\begin{array}{*{20}{c}} {0.3}&{0.15} \\ {0.15}&{0.2} \end{array}} \right)\right), \\&f{p_j}(B) = NM\left((0.76,0.81),\left( {\begin{array}{*{20}{c}} {0.3}&{0.6} \\ {0.6}&{0.4} \end{array}} \right)\right).\end{split}$

这表明特征模式为 $NM\left((0.75,0.83),\left( {\begin{array}{*{20}{c}} {0.3}&{0.15} \\ {0.15}&{0.2} \end{array}} \right)\right)$ 的前壁心肌梗死频繁与特征模式是 $NM\Bigg((0.76,0.81), \Bigg.$ $\left( {\begin{array}{*{20}{c}} {0.3}&{0.6} \\ {0.6}&{0.4} \end{array}} \right)\Bigg) \Bigg.$ 的左后分支传导阻滞共同呈现. 假设某个实例ob具有特征ft（ob） = （0.755，0.82）和标签A，可以推断ob也有标签B，因为ft（ob）同时呈现fp_i（A）和fp_j（B）这2个异常特征模式.

令fq（ $f p_{i} (l^{\,\rm{s}})$ ）和fq（ $f p_{j} (l^{\,\rm{t}})$ ）分别代表C_i（ $l^{\,\rm{s}}$ ）和C_j（ $l^{\,\rm{t}}$ ）中呈现 $f p_{i} (l^{\,\rm{s}})$ 和 $f p_{j} (l^{\,\rm{t}})$ 模式的样本个数，则标签发现规则的支持度和置信度定义为式（13）（14）：

$supp (f p_{i} (l^{\,\rm{s}}) \Rightarrow f p_{j} (l^{\,\rm{t}}) ) = fq(f p_{i} (l^{\,\rm{s}}) \cup f p_{j} (l^{\,\rm{t}}) ) ,$

(13)

其中 $fq(f p_{i} (l^{\,\rm{s}}) \cup f p_{j} (l^{\,\rm{t}}) )$ 是同时呈现 $f p_{i} (l^{\,\rm{s}})$ 和 $f p_{j} (l^{\,\rm{t}})$ 模式的样本个数.

$conf( f p_{i} (l^{\,\rm{s}}) \Rightarrow f p_{j} (l^{\,\rm{t}}) ) = \frac{{fq( f p_{i} (l^{\,\rm{s}})\cup f p_{j} (l^{\,\rm{t}}) )}}{{fq(( f p_{i} (l^{\,\rm{s}}))}} .$

(14)

模式的正相关性根据Kulczynski（记为Kulc）度量：

$\begin{split} &cort( f p_{i} (l^{\,\rm{s}}) \Rightarrow f p_{j} (l^{\,\rm{t}})) = Kulc( f p_{i} (l^{\,\rm{s}}),f p_{j} (l^{\,\rm{t}})) = \\&\quad \frac{1}{2}\left(\frac{{fq( f p_{i} (l^{\,\rm{s}}) \cup f p_{j} (l^{\,\rm{t}}))}}{{fq( f p_{i} (l^{\,\rm{s}}))}} + \frac{{fq( f p_{i} (l^{\,\rm{s}}) \cup f p_{j} (l^{\,\rm{t}}))}}{{fq(f p_{j} (l^{\,\rm{t}}))}}\right). \end{split}$

(15)

直观地，如果cort=0.5，则 $f p_{i} (l^{\,\rm{s}})$ 和 $f p_{j} (l^{\,\rm{t}})$ 相互独立；如果cort接近1，则 $f p_{i} (l^{\,\rm{s}})$ 和 $f p_{j} (l^{\,\rm{t}})$ 正相关；如果cort接近0，则 $f p_{i} (l^{\,\rm{s}})$ 和 $f p_{j} (l^{\,\rm{t}})$ 呈负相关.

综上所述，给定支持度阈值st、置信度阈值ct和正相关阈值rt，一个标签发现规则 $f p_{i} (l^{\,\rm{s}})=>f p_{j} (l^{\,\rm{t}})$ 必须满足3个条件：1）supp（ $f p_{i} (l^{\,\rm{s}})= > f p_{j} (l^{\,\rm{t}})$ ）≥st；2）conf（ $f p_{i} (l^{\,\rm{s}})= > f p_{j} (l^{\,\rm{t}})$ ）≥ct；3）cort（ $f p_{i} (l^{\,\rm{s}})= > f p_{j} (l^{\,\rm{t}})$ ）≥rt.

本文通过2个步骤挖掘标签发现规则. 首先，根据支持度阈值st和置信度阈值ct，挖掘两两标签间的关联规则^[44]. 每个关联规则 $l^{\,\rm{s}}$ → $l^{\,\rm{t}}$ 表明，如果 $l^{\,\rm{s}}$ 出现，则 $l^{\,\rm{t}}$ 就会出现. 进一步，根据算法2将关联规则提炼为标签发现规则.

算法2. generateInclusionRule.

输入：标签间的关联规则LR，异常特征模式AFP，支持度阈值st，置信度阈值ct，正相关阈值rt；

输出：标签发现规则.

① 初始化；

② foreach （ $l^{\,\rm{s}}$ → $l^{\,\rm{t}}$ ）∈LR do

③ L^FP←在AFP发现 $l^{\,\rm{s}}$ 的所有异常特征模式；

④ R^FP←在AFP发现 $l^{\,\rm{t}}$ 的所有异常特征模式；

/*下面根据异常模式对应的标签频率挖掘

规则*/

⑤ foreach （fp_i（ $l^{\,\rm{s}}$ ）, fp_j（ $l^{\,\rm{t}}$ ））∈（L^FP×R^FP） do

⑥ if （fp_i（ $l^{\,\rm{s}}$ ），fp_j（ $l^{\,\rm{t}}$ ））满足式（13）~（15） then

⑦ put fp_i（ $l^{\,\rm{s}}$ ）=>fp_j（ $l^{\,\rm{t}}$ ） to ret；

⑧ end if

⑨ end for

⑩ end for

⑪ return ret.

算法2的时间复杂度为O（|LR|·q²），其中|LR|是标签间的关联规则数量，q是一个异常对应的特征模式数量的上界.

3.2.2 在TD上挖掘标签排除规则

定义5. 标签排除规则. 给定2个异常标签 $l^{\,\rm{s}}$ 和 $l^{\,\rm{t}}$ ，如果

$fq(l^{\,\rm{s}} \cup l^{\,\rm{t}} ) \ll fq(l^{\,\rm{s}} ) \cdot fq(l^{\,\rm{t}} ) ,$

(16)

则认为 $l^{\,\rm{s}}$ 和 $l^{\,\rm{t}}$ 是强负相关的，记 $l^{\,\rm{s}}\nLeftrightarrow l^{\,\rm{t}}$ ，其中fq（ $l^{\,\rm{s}}$ ∪ $l^{\,\rm{t}}$ ）是同时有标签 $l^{\,\rm{s}}$ 和 $l^{\,\rm{t}}$ 的样本个数.

为了度量强负相关性，引入阈值ε（0 < ε $\ll$ 1），如果

$\frac{{fq(l^{\,\rm{s}} \cup l^{\,\rm{t}} )}}{{fq(l^{\,\rm{s}} ) \cdot fq(l^{\,\rm{t}} )}}< \varepsilon ,$

(17)

则认为fp（ $l^{\,\rm{s}}$ ）和fp（ $l^{\,\rm{t}}$ ）是强负相关的. 直观含义是，如果 $l^{\,\rm{s}}$ 在某个实例上呈现，则 $l^{\,\rm{t}}$ 不会在该实例呈现，反之亦然. 采用算法3实现标签排除规则的挖掘.

算法3. generateExclusionRule.

输入：频繁标签对集合FS，负相关阈值ε;

输出：标签排除规则.

① ret←Ø；

② foreach〈 $l^{\,\rm{s}}$ , $l^{\,\rm{t}}$ 〉∈FS do

③ if $\dfrac{{fq(l^{\,\rm{s}} \cup l^{\,\rm{t}} )}}{{fq(l^{\,\rm{s}} ) \cdot fq(l^{\,\rm{t}} )}} < \varepsilon$ then

④ put $l^{\,\rm{s}}\nLeftrightarrow l^{\,\rm{t}}$ to ret；

⑤ end if

⑥ end for

⑦ return ret.

算法3的时间复杂度为O（ $|FS|$ ），其中|FS|是频繁标签对的数量.

3.3 构造二分类器

对于每个异常l，通过在TD上聚类，分别得到其正例类簇 ${\overline {FC} ^{TD}}(l)$ = $\left\{ \overline C _1^{TD}(l)\right.$ , $\overline C _2^{TD}(l)$ ,…, $\overline C _i^{TD}(l)$ ,…, $\left. \overline C _n^{TD}(l) \right\}$ 和负例类簇 ${\underline {FC} ^{TD}}(l)$ = $\left\{{\underline {C}} _{\,1}^{TD}(l)\right.$ , ${\underline{C}} _{\,2}^{TD}(l)$ ,…, ${\underline {C}} _{\,j}^{TD}(l)$ ,…, $\left.\underline {C}_{\,m}^{TD}(l)\right\}$ ，相应的异常特征模式分别是 ${\overline {FP} ^{TD}}(l)$ = $\left\{\overline {fp} _1^{TD}(l) \right.$ , $\overline {fp} _2^{TD}(l)$ ,…, $\overline{ fp}_i^{TD}(l)$ , …, $\left. \overline {fp} _n^{TD}(l) \right\}$ 和 ${\underline {FP}} ^{TD}(l)$ = $\left\{{\underline {fp} }_{\,1}^{TD}(l)\right.$ , ${\underline {fp}} _{\,2}^{TD}(l)$ ,…, ${\underline {fp}} _{\,j}^{TD}(l)$ ,…, $\left.{\underline {fp}} _{\,m}^{TD}(l)\right\}$ .

给定实例ob和异常l，计算ob和l的所有类簇中心的最小Jensen-Shannon距离. 假设 ${\overline {FC} ^{TD}}(l)$ 各类簇中心是 $\left( \overline {clc} _1^{TD}(l) \right.$ , $\overline {clc} _2^{TD}(l)$ ,…, $\overline {clc} _i^{TD}(l)$ ,…, $\left. \overline {clc} _n^{TD}(l) \right)$ ， ${\underline {FC} ^{TD}}(l)$ 的各类簇中心是 $\left({\underline {clc}} _{\,1}^{TD}(l)\right.$ , ${\underline {clc}} _{\,2}^{TD}(l)$ ,…, ${\underline {clc}} _{\,j}^{TD}(l)$ ,…, $\left.{\underline {clc}} _{\,m}^{TD}(l)\right)$ ，所以ob和 ${\overline {FC} ^{TD}}(l)$ 的最小距离为

$\begin{split} mind\left(ob,{\overline {FC} ^{TD}}(l)\right) = \min \left\{ JSD({\boldsymbol{ft}}(ob),\overline {clc} _i^{TD}(l))|1 \leqslant i \leqslant n\right\} , \\ \end{split}$

(18)

ob和 ${\underline {FC} ^{TD}}(l)$ 的最小距离为

$\begin{split} mind\left(ob,{\underline {FC} ^{TD}}(l)\right) = \min \left\{ JSD\left({\boldsymbol{ft}}(ob),\underline {clc} _j^{TD}(l)\right)|1 \leqslant j \leqslant m\right\} . \\ \end{split}$

(19)

那么，l关于ob的判别比为

$dr(ob,l) = \frac{{mind\left(ob,{{\overline {FC} }^{TD}}(l)\right)}}{{mind\left(ob,{{\overline {FC} }^{TD}}(l)\right) + mind\left(ob,{{\underline {FC} }^{TD}}(l)\right)}} .$

(20)

标签清洗中，根据式（21）判断l是否属于ob：

$\begin{aligned} hasLabel(dr,{\theta }^{\,l},{\rho }^{l})=\left\{\begin{aligned}1, &\qquad dr\ge {\theta }^{\,l}+{\rho }^{l}, \\ -1, &\qquad dr\le {\theta }^{\,l}-{\rho }^{l}, \\ 0, &\qquad 其他. \end{aligned}\right. \end{aligned}$

(21)

这里θ^l是分割阈值，介于0~1之间，ρ^l是模糊间隔长度. 如果hasLabel返回1，l是ob的相关标签；如果返回−1，l是ob的无关标签；否则，无法确定l是否属于ob，需要在下一轮迭代判断. 因为dr的值介于0~1之间，所以符合Beta分布：

$f(dr:\alpha ,\beta ) = \frac{1}{{B(\alpha ,\beta )}}d{r^{\alpha - 1}}{(1 - dr)^{\beta - 1}} ,$

(22)

其中α，β是确定密度函数形状的参数. 则平均值 $\mu^*$ 和标准差 $\delta$ 分别是

$\mu^* = \frac{\alpha }{{\alpha + \beta }},$

(23)

$\delta = \sqrt {\frac{{\alpha \beta }}{{{{(\alpha + \beta )}^2}(\alpha + \beta + 1)}}} .$

(24)

因此，设置 $\theta^{\,l}=\mu^*$ ，ρ^l=δ.

最后，为所有标签构造二分类器，表示为BD = $\left\{ (\overline {FC} (l),\underline {FC} (l),\overline {FP} (l),\underline {FP} (l),{\alpha _l},{\beta _l})|1 \leqslant l \leqslant u^*\right\}$ .

4. 迭代清洗WD中的弱标签

WD中的异常标签通过2个步骤进行清洗，即弱标签预处理和迭代清洗.

4.1 弱标签预处理

给定一个实例ob∈WD，其锚标签集合al（ob）属于相关标签集合rl（ob）.cl（ob）代表弱标签集合，其中的标签可能属于rl（ob），也可能不属于rl（ob）. 对弱标签预处理时，确认弱标签是相关或不相关标签，从而缩小弱标签集合. 具体过程如算法4所示，给定一个实例ob，如果它落入一个标签发现规则两侧的异常特征模式，并具有该规则的左侧标签，则右侧标签属于其相关异常rl（ob）. 具体地，给定实例ob和异常特征模式NM（μ, Σ），如果ob落入（μ−3·Σ, μ+3·Σ）区间，则ob∈NM. 对不相关标签排除时，如果标签排除规则一侧的标签属于给定实例，则丢弃另一侧的标签，将该标签从弱标签集合cl（ob）中删除.

算法4. reduceWeakLabelSet.

输入：样本ob，标签发现规则IR, 标签排除规则ER；

输出：ob的相关标签和缩减后的弱标签集合.

① rl（ob）←al（ob）；

② cl（ob）←cl（ob）\al（ob）；

/*下面识别相关标签*/

③ foreach l∈cl（ob） do

④ foreach ir∈IR do

⑤ if （ir.left.label∈rl（ob））∧（ir.right.label=l）

∧（ob∈ir.left.NM）∧（ob∈ir.right.NM） then

/*下面分别加入和排除标签*/

⑥ rl（ob）←rl（ob）∪{l}, cl（ob）←cl（ob）\{l}；

⑦ end if

⑧ end for

⑨ end for

/*下面排除不相关标签*/

⑩ foreach l∈cl（ob） do

⑪ foreach er∈ER do

⑫ if （er.left.label∈rl（ob）∧er.right.label=l）

or （er.right.label∈rl（ob）∧er.left.label=l）

then

⑬ cl（ob）←cl（ob）\{l}；/*排除标签*/

⑭ end if

⑮ end for

⑯ end for

⑰ return rl（ob）,cl（ob）.

算法4的运行时间取决于一个实例的标签数和针对一个标签的规则数，所以它的时间复杂度是O（ $u\cdot M^r$ ），其中u是U的大小， $M^r$ 是单个异常的标签发现或排除规则的最大数目. 实际中，算法4运行时间远小于O（ $u\cdot M^r$ ），因为一个实例的标签数目通常远小于u.

4.2 迭代清洗弱标签

标签清洗时，二分类器BD迭代地对剩余的弱标签进行区分，扩展相关标签集合或从cl（ob）中清除不相关标签，同时更新二分类器BD. 为避免ob无休止地参与迭代，须设定其生存指数lf（ob）. 为此，在ED∪WD上构建隔离森林iForest^[40]. 实例在隔离森林中的平均路径长度apl（ob）作为ob的生存指数分量. 每轮迭代中，ob的生存指数lf（ob）修改为：

$\begin{aligned} lf(ob)=\left\{\begin{aligned} &\frac{x\cdot (|cl(ob)|+1)}{apl(ob)} \text{，}\qquad |cl(ob)|改变, \\& lf(ob)-1 \text{，} \qquad\qquad{\text{否则}},\end{aligned}\right. \end{aligned}$

(25)

其中x是控制变化率的因子. 式（25）的合理性在于，apl（ob）越大，ob越可能被经常出现的特征模式覆盖，因此需要的迭代次数越少；|cl（ob）|越大，需要越多的迭代来区分其中的相关标签和非相关标签.

迭代清洗的算法流程如图3所示，迭代直到所有弱标签被分类为相关标签或不相关标签，或生存指数小于等于0. 在ob到期后，如果仍无法确定标签l是否属于ob，将这项任务留给人工识别. 每轮循环时，一方面确定相关和不相关标签，另一方面调用updateDiscriminator更新异常特征模式参数和所有标签的二分类器. 迭代清洗算法的时间复杂度是O（ $N\cdot u^l\cdot lf^m$ ），其中N是WD的大小，u^l是一个实例的弱标签数目的上界， $lf^m$ 是实例的生命周期的上界.

图 3 迭代清洗算法流程图

Figure 3. Flow chart of iterative cleaning algorithm

下载: 全尺寸图片幻灯片

图3中的标签迭代清洗调用updateDiscriminator实现二分类器更新，二分类器更新的算法流程如所示. 首先，将新识别的实例和标签分配给相应的正、负类簇，并调整Beta分布，进而根据类簇样本调整异常特征模式参数. 这是为每个异常标签l调整分割阈值 $\theta^{\,l}$ 和模糊区间 $\rho^l$ 的基础.

图 4 二分类器更新算法流程图

Figure 4. Flow chart of updateDiscriminator

下载: 全尺寸图片幻灯片

5. 实验评估

实验在配备AMD CPU（8核@2.90 GHz）和16 GB内存的计算机上运行，原型系统用Python实现，

实验共采用了3个心电数据集，前2个是从社区医疗中心收集的真实数据集，每个样本是12导联、10 s的记录，采样频率为500 Hz. 异常标签共有16个，如表1所示. 一个数据集CHE包含3919个样本，心电异常标签由专业医生标记和确认，标签是完整和正确的. 另一个数据集CHW包含12385个样本，部分标签缺失或不正确. 第3个是MIT-BIH的公共数据集^[45]，记为MIT. MIT收集了其中40个包含II和VI导联、30 min的心电记录，取样频率是360 Hz，将每个心电记录分成等长的180个长度是10 s的样本，将每个样本心跳对应的标签合并，作为该样本的多标签. 由于个别标签的样本非常稀疏，实验时采用了包含表3所示的8个异常标签的7166个样本. 心电波去噪，基线漂移消除，QRS波、P波和T波的识别和特征提取按文献[39]所述实现，每个样本取100个特征.

表 3 MIT-BIH数据集中的异常标签

Table 3. Abnormality Labels in MIT-BIH Dataset

标签名		标签名
左束支传导阻滞		右束支传导阻滞
心室融合心跳		房性期前收缩
交界性逸搏		正常心跳
室性期前收缩		异常房性早搏

下载: 导出CSV

| 显示表格

为了度量标签清洗的效果，采用3个指标，即precision，recall，F1，它们根据表4所示的3个指标定义.

表 4 TP, FP, FN的含义

Table 4. Meanings of TP, FP and FN

指标名称	含义
TP	将正例预测为正例的数量
FP	将负例预测为正例的数量
FN	将正例预测为负例的数量

下载: 导出CSV

| 显示表格

给定一个标签l，其precision, recall, F1定义为

$precision(l) = \frac{{TP(l)}}{{TP(l) + FP(l)}} ,$

(26)

$recall(l) = \frac{{TP(l)}}{{TP(l) + FN(l)}} ,$

(27)

$F{\text{1}}(l) = \frac{{2 \times precison(l) \times recall(l)}}{{precision(l) + recall(l)}} .$

(28)

汇报的度量根据标签的权重计算平均值. 例如，测试集TS上precision的计算为

$precision = \displaystyle\sum\limits_{{l_i} \in U} {\frac{{M_i^{TS}}}{{{M^{TS}}}} \times PN({l_i})} ,$

(29)

其中 $M_i^{TS}$ 为标签l_i在TS出现的次数， ${M^{TS}}$ = $\displaystyle\sum\limits_{i = 1}^u {M_i^{TS}}$ .

一方面，在真实的示例数据集CHE和弱数据集CHW按照如下步骤验证方法效果. CHW作为弱数据集WD，由于难以确定WD上的准确标签，根据训练的分类器效果间接度量标签的清洗效果. 首先，将CHE分为2部分：1/3的CHE作为测试集TS，其余作为示例数据集ED，对WD的清洗效果按照3个步骤计算：

1）在WD上为每个异常训练1组二分类器. 然后，在TS上计算precision，recall，F1，分别记为precision^org, $racall^{\rm{org}}$ , F1^org.

2）在WD的清洗数据集上为每个异常训练1组二分类器，进而在TS上计算precision，recall，F1，分别表示为precision^cln， $recall^{\rm{\,cln}}$ ， $F1^{\rm{cln}}$ .

3）上述2次测量值的差作为性能指标. 例如，对于 $df1=F1^{\rm{cln}}-F1^{\rm{org}}$ 作为性能指标.

另一方面，分别在CHE和MIT上模拟噪声标签，形成2个模拟数据集SCHE和SMIT来评估方法效果^[7]，即将各类标签按照一定的比率替换为不属于样本的随机标签，形成噪声标签. 具体地，从CHE中选择1/3的样本作为ED，另外的2/3的样本生成2份拷贝. 一份作为正确标签参照，另一份引入不同级别（5%, 10%, 20%, 30%, 40%）的噪声标签作为WD. 在MIT上也同样操作. 然后，对WD进行清洗，清洗后的样本与参照相对比，从而计算precision, recall，F1.为避免实验结果的随机性，使用6折交叉验证计算各个度量. 根据采样效果，设置阈值st=10.

5.1 影响标签发现规则和排除规则的因素

给定一个规则，其准确率(acc)是正确识别的正（或负）标签占识别出的正（或负）标签的比例. 下面分析在不同噪声水平下2种标签规则的影响因素. 除特别说明，本节汇报的是在SCHE上的结果，其他数据集上的结果呈现相同趋势，不再赘述.

5.1.1 影响标签发现规则的因素

图5和图6分别显示了在噪声水平为10%和30%时，固定其他参数，置信度阈值ct从0.1增加到0.6时，准确率acc的变化. 可以看出，随着ct的增加，准确率先增大，然后趋于平稳. 在其他噪声水平下，呈现类似的趋势. 这是因为ct越大，规则的置信度越高，规则的约束性更强，被包含的标签的准确度更高.

图 5 噪音水平10%时准确率随置信度阈值的变化

Figure 5. acc changing with ct at noise level 10%

下载: 全尺寸图片幻灯片

图 6 噪音水平30%时准确率随置信度阈值的变化

Figure 6. acc changing with ct at noise level 30%

下载: 全尺寸图片幻灯片

图7和图8分别显示了在噪声水平为10%和30%时，固定其他参数，正相关阈值rt从0.1增加到0.6时，准确率的变化. 可以看出，随着rt的增加，准确率先增大然后趋于平稳. 在其他噪声水平下，呈现类似的趋势. 这是因为正相关性越高，对2个标签共现频率的约束越高. 实验中，在模拟数据集上，对不同噪音水平采用不同的ct和rt. 在真实数据集上，根据采样估计ct和rt.

图 7 噪音水平10%时准确率随正相关阈值的变化

Figure 7. acc changing with rt at noise level 10%

下载: 全尺寸图片幻灯片

图 8 噪音水平30%时准确率随正相关阈值的变化

Figure 8. acc changing with rt at noise level 30%

下载: 全尺寸图片幻灯片

5.1.2 影响标签排除规则的因素

图9和图10分别显示了在噪音水平为10%和30%时，acc随阈值ε的变化. 随着ε的增加，准确率先升高，然后降低. 这是因为，若ε太小，约束过于严格，会约束一些有效的标签排除规则，导致准确率受错误识别标签的影响；而随着ε变大，可以有效地发现更多排除规则，使得准确率趋于稳定；但ε进一步变大，也会导致排除规则准确率降低. 在其他噪音水平，呈现类似的效果.

图 9 噪音水平10%时准确率随阈值ε的变化

Figure 9. acc changing with threshold ε at noise level 10%

下载: 全尺寸图片幻灯片

图 10 噪音水平30%时准确率随阈值ε的变化

Figure 10. acc changing with threshold ε at noise level 30%

下载: 全尺寸图片幻灯片

5.2 消融实验

AFP方法的标签清洗包含3个关键环节：第1步（ph1），在ED和WD上寻找共享异常特征模式，进而识别WD上的锚标签（是初始标签的一部分）；第2步（ph2），挖掘标签发现和排除规则，然后扩充WD上样本的初始相关标签集；第3步（ph3），利用二分类器进行弱标签的迭代清洗. 为了验证各个环节的作用，AFP方法分别消除ph1, ph2，ph3，记为AFP-ph1，AFP-ph2，AFP-ph3后，汇报综合性能指标F1的变化情况.

图11~15汇报了噪声水平分别为5%, 10%, 20%, 30%, 40%时2个模拟数据集SCHE和SMIT上的消融实验结果. 图16汇报了在真实数据集CHE和CHW上的消融实验结果. 模拟和真实数据集上的结果表明：

图 11 噪声5%的消融实验

Figure 11. Ablation experiment at noise level 5%

下载: 全尺寸图片幻灯片

图 12 噪声10%的消融实验

Figure 12. Ablation experiment at noise level 10%

下载: 全尺寸图片幻灯片

图 13 噪声20%的消融实验

Figure 13. Ablation experiment at noise level 20%

下载: 全尺寸图片幻灯片

图 14 噪声30%的消融实验

Figure 14. Ablation experiment at noise level 30%

下载: 全尺寸图片幻灯片

图 15 噪声40%的消融实验

Figure 15. Ablation experiment at noise level 40%

下载: 全尺寸图片幻灯片

图 16 真实数据集上的消融实验

Figure 16. Ablation experiment on real dataset

下载: 全尺寸图片幻灯片

1）在不同的噪声水平下去除步骤ph1后，在模拟数据集SCHE上，F1指标降低了5.8~7.99个百分点，SMIT上降低了6.21~10.17个百分点，在真实数据集上，F1降低了12.68个百分点. 这是因为如果没有ph1，不仅不能确定WD的锚标签，而且不能利用含锚标签的WD样本来扩充规则挖掘的可用样本.

2）在不同的噪声水平下去除步骤ph2后，SCHE上的F1指标降低了1.37~7.63个百分点，SMIT上降低了1.75~6.12个百分点，真实数据集上降低了4.43个百分点. 这是因为，步骤ph2根据挖掘的规则确定属于样本的异常标签，在扩充初始相关标签集的同时，尽量避免引入错误标签.

3）在不同的噪声水平下去除步骤ph3后，模拟数据集SCHE上的F1指标降低了16.89~20.93个百分点，在SMIT上F1降低了7.07~13.25个百分点，真实数据集上的F1指标降低了19.71个百分点. 这是因为二分类器在清洗中不断自调整，有效地识别单次清洗中无法识别的、处于分布边缘的标签. 可见，步骤ph3居于AFP的主体地位.

5.3 比较研究

在模拟和真实数据集上，AFP方法与交叉验证（cross validation, CV）方法^[7]和基于DDF的标签噪声过滤方法^[38]进行了比较. CV方法利用SVM，KNN，NB，LDA和DT这5种分类器，协同识别标记错误的样本. CV方法为每个标签训练5个分类器，如果5个分类器对一个实例的标签持不同认知，则认为该标签被错误标记. 根据3个标准S1, S2，S3确定样本是否被错误标记. 对于S1，如果5个分类器都认为异常不属于实例，则该异常是错误标签. 对于S2，如果4个或更多分类器认为异常不属于实例，则认为该异常标记错误. 对于S3，如果3个或更多分类器认为异常不属于该实例，则认为该异常标记错误. DDF方法将每个样本的邻域样本划分为高密度和低密度区域，然后针对不同的区域采用不同的噪声过滤规则进行过滤. 由于DDF能够识别出噪声标签，但不能自动修补，因此在模拟数据集上对每个标签计算precision时，用DDF排除掉噪声标签后的该类标签数目作为识别出的该类标签数目.

图17~21汇报了AFP, CV, DDF方法在SCHE上的precision，recall， F1值. 可见，当数据噪声级别为5%时，AFP方法的F1指标比CV-S1高5.15个百分点，比CV-S3高 23.42个百分点，比DDF高18.73个百分点. 当噪声水平为10%时，AFP方法的F1指标比CV-S1高 3.35个百分点，比CV-S3高21.53个百分点，比DDF高17.13个百分点. 当噪声水平为20%时，AFP方法的F1指标比CV-S1高0.7个分点，比CV-S2指标高8.17个百分点，比CV-S3高17.75个百分点，比DDF高14.25个百分点. 当噪声水平为30%时，AFP方法的F1指标比CV-S1低1.63个百分点，但比CV-S2和CV-S3分别高5.16和14.44个百分点，比DDF高12.1个百分点. 当噪声水平为40%时，AFP方法的F1指标比CV-S1低3.93个百分点，比CV-S2和CV-S3分别高1.86和 11.18个百分点，比DDF高9.84个百分点. 实验结果表明，AFP在SCHE的噪声不是很高的情况下，清洗效果优于CV方法；在数据噪声很高的情况下，AFP方法略低于CV-S1方法，仍优于CV-S2和CV-S3；同时，AFP稳定地优于DDF方法.

图 17 在SCHE上噪声5%时的性能比较

Figure 17. Performance comparison over SCHE at noise level 5%

下载: 全尺寸图片幻灯片

图 18 SCHE上噪声10%时的性能对比

Figure 18. Performance comparison over SCHE at noise level 10%

下载: 全尺寸图片幻灯片

图 19 SCHE上噪声20%时的性能对比

Figure 19. Performance comparison over SCHE at noise level 20%

下载: 全尺寸图片幻灯片

图 20 SCHE上噪声30%时的性能对比

Figure 20. Performance comparison over SCHE at noise level 30%

下载: 全尺寸图片幻灯片

图 21 SCHE上噪声40%时的性能对比

Figure 21. Performance comparison over SCHE at noise level 40%

下载: 全尺寸图片幻灯片

图22~24汇报了SMIT上噪声为5%, 20%, 40%时的实验结果. 当噪声级别为5%时，AFP方法的F1指标比CV-S1高3.25个百分点，比CV-S2高 4.6个百分点，比CV-S3高 11.33个百分点，比DDF高8.16个百分点. 当噪声水平为20%时，AFP方法的F1指标比CV-S1高1.26个分点，比CV-S2高 0.11个百分点，比CV-S3高6.09个百分点，比DDF高4.28个百分点. 当噪声水平为40%时，AFP方法的F1指标比CV-S1高0.64个百分点，比CV-S2低1.66个百分点，比CV-S3高 2.33个百分点，比DDF高2.88个百分点. 其他噪声水平下呈现类似趋势，不再赘述. 实验结果表明，在噪声不是很高的情况下，AFP方法在SMIT上稳定地优于CV方法；在噪声很高的情况下，AFP方法仍优于CV-S1和CV-S3方法；另外，AFP稳定地优于DDF方法.

图 22 SMIT上噪声5%时的性能对比

Figure 22. Performance comparison over SMIT at noise level 5%

下载: 全尺寸图片幻灯片

图 23 SMIT上噪声20%时的性能对比

Figure 23. Performance comparison over SMIT at noise level 20%

下载: 全尺寸图片幻灯片

图 24 SMIT上噪声40%时的性能对比

Figure 24. Performance comparison over SMIT at noise level 40%

下载: 全尺寸图片幻灯片

同时，在真实数据集CHE和CHW上进行了比较. 首先，在原始数据集CHW上训练分类模型，然后分别用AFP, CV, DDF方法对数据集进行清洗，比较在清洗前和清洗后的数据上训练分类器的性能指标. 表5显示了在真实数据集上的比较结果. AFP方法的平均F1指标提高5.19个百分点，CV-S1和CV-S2分别提高1.06和0.22个百分点，DDF提高3.13个百分点. AFP方法性能的优越主要因为2个原因：首先，AFP方法根据类簇在示例数据集和弱标签数据集上的一致性来识别锚异常，充分利用了人工标注的知识，也利用了弱标签数据集的可用信息. 其次，采用迭代框架，逐步缩小模糊区间来推断异常标签，保证了清洗效果的可靠和稳步提升.

表 5 真实数据集上AFP，CV，DDF方法的对比

Table 5. Comparison of AFP, CV and DDF on Real Dataset %

方法	precision	recall	F1	df1
不清洗	57.74	55.95	55.24
AFP	62.70	60.45	60.43	5.19
CV-S1	61.15	56.03	56.30	1.06
CV-S2	58.26	55.69	55.46	0.22
CV-S3	58.59	56.51	55.07	−0.17
DDF	63.65	57.41	58.37	3.13

下载: 导出CSV

| 显示表格

6. 结　　论

根据心电图（ECG）判断心脏异常是临床广泛应用的心脏健康检测技术. 目前，自动异常检测主要采用有监督学习技术来实现. 由于生物电信号的多样性和相关性，一个好的分类器通常需要依赖大量的高质量标签样本，才能保证分类器的精度和泛化性. 这点对于当前流行的深度学习技术尤为重要. 然而，高质量的心电标注不仅需要专业的心电知识，而且要耗费大量的时间和精力. 实际中，经常会有一些标注缺失或错误的心电数据集，如何对这些弱标签的心电数据进行清洗，提高标注质量，使其变得可用，是一个很有价值的问题.

设有一个包含所有正确标签的示例数据集，可大可小，这在实际中完全可行. 问题转化为在示例数据集的辅助下，对弱标记数据集进行标签清洗，将其转化为一个干净数据集. 由于一个心电异常通常表现出不同的特征模式，提出了一种基于标签特征模式的标签清洗方法. 该方法首先确定高置信度属于实例的锚标签，它们是相关标签集的子集. 然后，以迭代方式清洗其他弱标签. 本文总结为3个方面：1）根据示例数据和弱标签数据的一致性来识别锚特征模式，充分结合了人工知识和数据的统计特性来提高标签区分能力. 2）提出了挖掘标签发现和排除规则的具体方法. 前者用于包含相关标签，而后者用于删除无关标签. 3）采用迭代框架逐步清洗标签，保证清洗效果的可靠和稳定. 在真实和模拟数据集上的实验结果证明了方法的有效性. 未来将研究根据病症的因果关系提高清洗效果.

作者贡献声明：韩京宇负责论文思路、实验方案、论文撰写和修改；陈伟和赵静负责实验和数据整理；郎杭负责相关文献查阅和方法改进；毛毅提供实验平台和专业知识指导.

图 1 AFP方法的步骤

Figure 1. The steps of AFP

下载: 全尺寸图片幻灯片

图 2 WD上模式排序算法流程图

Figure 2. Flow chart of algorithm for pattern ordering on WD

下载: 全尺寸图片幻灯片

图 3 迭代清洗算法流程图

Figure 3. Flow chart of iterative cleaning algorithm

下载: 全尺寸图片幻灯片

图 4 二分类器更新算法流程图

Figure 4. Flow chart of updateDiscriminator

下载: 全尺寸图片幻灯片

图 5 噪音水平10%时准确率随置信度阈值的变化

Figure 5. acc changing with ct at noise level 10%

下载: 全尺寸图片幻灯片

图 6 噪音水平30%时准确率随置信度阈值的变化

Figure 6. acc changing with ct at noise level 30%

下载: 全尺寸图片幻灯片

图 7 噪音水平10%时准确率随正相关阈值的变化

Figure 7. acc changing with rt at noise level 10%

下载: 全尺寸图片幻灯片

图 8 噪音水平30%时准确率随正相关阈值的变化

Figure 8. acc changing with rt at noise level 30%

下载: 全尺寸图片幻灯片

图 9 噪音水平10%时准确率随阈值ε的变化

Figure 9. acc changing with threshold ε at noise level 10%

下载: 全尺寸图片幻灯片

图 10 噪音水平30%时准确率随阈值ε的变化

Figure 10. acc changing with threshold ε at noise level 30%

下载: 全尺寸图片幻灯片

图 11 噪声5%的消融实验

Figure 11. Ablation experiment at noise level 5%

下载: 全尺寸图片幻灯片

图 12 噪声10%的消融实验

Figure 12. Ablation experiment at noise level 10%

下载: 全尺寸图片幻灯片

图 13 噪声20%的消融实验

Figure 13. Ablation experiment at noise level 20%

下载: 全尺寸图片幻灯片

图 14 噪声30%的消融实验

Figure 14. Ablation experiment at noise level 30%

下载: 全尺寸图片幻灯片

图 15 噪声40%的消融实验

Figure 15. Ablation experiment at noise level 40%

下载: 全尺寸图片幻灯片

图 16 真实数据集上的消融实验

Figure 16. Ablation experiment on real dataset

下载: 全尺寸图片幻灯片

图 17 在SCHE上噪声5%时的性能比较

Figure 17. Performance comparison over SCHE at noise level 5%

下载: 全尺寸图片幻灯片

图 18 SCHE上噪声10%时的性能对比

Figure 18. Performance comparison over SCHE at noise level 10%

下载: 全尺寸图片幻灯片

图 19 SCHE上噪声20%时的性能对比

Figure 19. Performance comparison over SCHE at noise level 20%

下载: 全尺寸图片幻灯片

图 20 SCHE上噪声30%时的性能对比

Figure 20. Performance comparison over SCHE at noise level 30%

下载: 全尺寸图片幻灯片

图 21 SCHE上噪声40%时的性能对比

Figure 21. Performance comparison over SCHE at noise level 40%

下载: 全尺寸图片幻灯片

图 22 SMIT上噪声5%时的性能对比

Figure 22. Performance comparison over SMIT at noise level 5%

下载: 全尺寸图片幻灯片

图 23 SMIT上噪声20%时的性能对比

Figure 23. Performance comparison over SMIT at noise level 20%

下载: 全尺寸图片幻灯片

图 24 SMIT上噪声40%时的性能对比

Figure 24. Performance comparison over SMIT at noise level 40%

下载: 全尺寸图片幻灯片

表 1 CHE和CHW实验数据集中的异常标签

Table 1 Abnormality Labels in CHE and CHW Datasets

标签名		标签名
心房颤动		室性期前收缩
窦性心动过缓		交界性期前收缩
窦性心律不齐		左前分支阻滞
I度房室传导阻滞		左心室肥大
窦性心动过速		下壁心肌梗死
前间壁心肌梗死		完全性左束支阻滞
左心房肥大		不完全性右束支阻滞
完全性右束支阻滞		房性期前收缩

下载: 导出CSV

表 2 本文中主要符号含义

Table 2 Meanings of Key Notations in Our Paper

符号	含义
$U=\{l^1，…,l^{\,k}，…,l^{\,u}\}$	所有异常（标签）
ob_j，f_k	实例，特征
ft（ob）	实例ob的特征向量
ED，WD	示例数据集、弱标签数据集
CD	干净数据集
TD	ED和WD中锚标签样本形成的数据集
cl（ob_i），rl（ob_i）	ob_i的弱标签集和相关标签集
al（ob）	实例ob的锚标签集
$\overline {ED}$ （l）， $\underline {ED}$ （l）	ED中含和不含标签l的样本
$\overline {WD}$ （l）， $\underline {WD}$ （l）	WD中含和不含标签l的样本
${\overline {FC} ^{}}$ （l）， ${\underline {FC} ^{}}$ （l）	标签l的正样本和负样本上的所有类簇
${\overline C _i}$ （l）， ${\underline {C}_{\,i} }$ （l）	标签l的正样本和负样本上的第i个类簇
fp_j（l）	l对应的第j个异常特征模式
$\overline {FP}$ （l），FP（l）	l正样本和负样本上异常特征模式集
fq（l）	标签l在数据集上的出现次数
AWD（FP¹，FP²）	异常特征模式集合FP¹，FP²的平均Wasserstein距离
supp，conf，cort	支持度、置信度和正相关度
st，ct，rt	支持度、置信度和正相关度的阈值
dr（ob，l）	标签l属于实例ob的判别比
$\theta^{\,l}$	标签l属于实例的分割阈值
$\rho^{\,l}$	标签l属于实例的模糊间隔长度
lf（ob）	实例ob的生存指数

下载: 导出CSV

表 3 MIT-BIH数据集中的异常标签

Table 3 Abnormality Labels in MIT-BIH Dataset

标签名		标签名
左束支传导阻滞		右束支传导阻滞
心室融合心跳		房性期前收缩
交界性逸搏		正常心跳
室性期前收缩		异常房性早搏

下载: 导出CSV

表 4 TP, FP, FN的含义

Table 4 Meanings of TP, FP and FN

指标名称	含义
TP	将正例预测为正例的数量
FP	将负例预测为正例的数量
FN	将正例预测为负例的数量

下载: 导出CSV

表 5 真实数据集上AFP，CV，DDF方法的对比

Table 5 Comparison of AFP, CV and DDF on Real Dataset %

方法	precision	recall	F1	df1
不清洗	57.74	55.95	55.24
AFP	62.70	60.45	60.43	5.19
CV-S1	61.15	56.03	56.30	1.06
CV-S2	58.26	55.69	55.46	0.22
CV-S3	58.59	56.51	55.07	−0.17
DDF	63.65	57.41	58.37	3.13

下载: 导出CSV

参考文献(45)

[1]	World Health Organization. Cardio-vascular diseases (CVDs) [EB/OL]. [2021-06-11]. https:// www.who.int/en/news-room/fact-sheets/detail/cardiovascular-diseases-(cvds)
[2]	Liu Feifei, Liu Chengyu, Zhao Lina, et al. An open access database for evaluating the algorithms of electrocardiogram rhythm and morphology abnormality detection[J]. Journal of Medical Imaging and Health Informatics, 2018, 8(7): 1368−1373 doi: 10.1166/jmihi.2018.2442
[3]	杨虎. 心肌梗死心电图诊断与进展[M]//心电图专业人员培训教材. 北京: 北京大学医学出版社, 2005: 18−34 Yang Hu. Diagnosis of myocardial infarction in electrocardiogram and recent progress [M]//Course Book of Electrocardiogram Specialty. Beijing: Beijing University Medical Press, 2005: 18−34 (in Chinese)
[4]	田枫,沈旭昆. 弱标签环境下基于语义邻域学习的图像标注[J]. 计算机研究与发展,2014,51(8):1821−1832 Tian Feng, Shen Xukun. Image annotation by semantic neighborhood learning from weakly labeled dataset[J]. Journal of Computer Research and Development, 2014, 51(8): 1821−1832 (in Chinese)
[5]	金林鹏,董军. 面向临床心电图分析的深层学习算法研究[J]. 中国科学:信息科学,2015,45(3):398−416 Jin Linpeng, Dong Jun. Deep learning research on clinical electrocardiogram analysis[J]. SCIENTIA SINICA Informationis, 2015, 45(3): 398−416 (in Chinese)
[6]	郑伟哲,仇鹏,韦娟. 弱标签环境下基于多尺度注意力融合的声音识别检测[J]. 计算机科学,2020,47(5):120−123 Zheng Weizhe, Qiu Peng, Wei Juan. Sound recognition and detection based on multi-scale attention fusion in weak label environment[J]. Computer Science, 2020, 47(5): 120−123 (in Chinese)
[7]	Li Yaoguang, Cui Wei. Identifying the mislabeled training samples of ECG signals using machine learning[J]. Biomedical Signal Processing and Control, 2019, 47: 168−176 doi: 10.1016/j.bspc.2018.08.026
[8]	Pasolli E, Melgani F. Genetic algorithm-based method for mitigating label noise issue in ECG signal classification[J]. Biomedical Signal Processing and Control, 2015, 19: 130−136 doi: 10.1016/j.bspc.2014.10.013
[9]	Clifford G D, Liu Chengyu, Moody B, et al. AF classification from a short single lead ECG recording: The PhysioNet/computing in cardiology challenge 2017[C/OL]//Proc of the 18th Computing in Cardiology(CinC). Piscataway, NJ: IEEE, 2017[2022-02-02]. https://cinc.org/archives/ 2017/pdf/065−469.pdf
[10]	Cristina G V, Alexander B, Oriella G, et al. Two will do: Convolutional neural network with asymmetric loss, self-learning label correction, and hand-crafted features for imbalanced multi-label ECG data classification[C/OL]//Proc of the 22nd Computing in Cardiology. Piscataway, NJ: IEEE, 2021[2022-02-02]. https://www.cinc.org/archives/ 2021/pdf/CinC2021−024.pdf
[11]	Frenay B, Verleysen M. Classification in the presence of label noise: A survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 845−869 doi: 10.1109/TNNLS.2013.2292894
[12]	Han Yufei, Sun Guolei, Shen Yun, et al. Multi-label learning with highly incomplete data via collaborative embedding[C]//Proc of the 24th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2018: 1494−1503
[13]	Wu Lei, Jin Rong, Jain A K. Tag completion for image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 716−727 doi: 10.1109/TPAMI.2012.124
[14]	Zhou Zhihua. A brief introduction to weakly supervised learning[J]. National Science Review, 2017, 5(1): 44−53
[15]	Varma P, Ré C. Snuba: Automating weak supervision to label training data[J]. Proceedings of the VLDB Endowment, 2018, 12(3): 223−236 doi: 10.14778/3291264.3291268
[16]	Lee W S, Liu Bing. Learning with positive and unlabeled examples using weighted logistic regression[C]//Proc of the 20th Int Conf on Machine Learning. Palo Alto, CA: AAAI, 2003: 448−455
[17]	Na B, Kim H, Song K, et al. Deep generative positive-unlabeled learning under selection bias[C]// Proc of the 29th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2020: 1155–1164
[18]	Dong Haochen, Li Yufeng, Zhou Zhihua. Learning from semi-supervised weak-label data [C]// Proc of the 32nd AAAI on Artificial Intelligence. Palo Alto, CA: AAAI, 2018: 2926−2933
[19]	丁家满,刘楠,周蜀杰,等. 基于正则化的半监督弱标签分类方法[J]. 计算机学报,2022,45(1):69−81 Ding Jiaman, Liu Nan, Zhou Shujie, et al. Semi-supervised weak-label classification method by regularization[J]. Chinese Journal of Computers, 2022, 45(1): 69−81 (in Chinese)
[20]	Ding Hu, Xu Jinhui. Random gradient descent tree: A combinatorial approach for SVM with outliers [C]// Proc of the 29th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2015: 2561−2567
[21]	Xu Guibiao, Cao Zheng, Hu Baogang, et al. Robust support vector machines based on the rescaled hinge loss function[J]. Pattern Recognition, 2017, 63: 139−148 doi: 10.1016/j.patcog.2016.09.045
[22]	He Fengxiang, Liu Tongliang, Geoffrey I W, et al. Instance-dependent PU learning by Bayesian optimal relabeling [J]. arXiv preprint, arXiv: 1808. 02180, 2018
[23]	Basile T M A, Mauro N D, Esposito F, et al. Density estimators for positive-unlabeled learning[M]// New Frontiers in Mining Complex Patterns. Berlin: Springer, 2017: 49−64
[24]	Chaudhari S, Shevade S. Learning from positive and unlabelled examples using maximum margin clustering[C]// LNCS 7665: Proc of the 19th Int Conf on Neural Information Processing. Berlin: Springer, 2012: 465−473
[25]	Gong Chen, Shi Hong, Liu Tongliang, et al. Loss decomposition and centroid estimation for positive and unlabeled learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(3): 918−932 doi: 10.1109/TPAMI.2019.2941684
[26]	Zhang Minling, Zhou Zhihua. A review on multi-label learning algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(8): 1819−1837 doi: 10.1109/TKDE.2013.39
[27]	Gibaja E, Ventura S. A tutorial on multilabel learning[J]. ACM Computing Surveys, 2015, 47(3): 1−38
[28]	Boutell M R, Luo Jiebo, Shen Xipeng, et al. Learning multi-label scene classification[J]. Pattern Recognition, 2004, 37(9): 1757−1771 doi: 10.1016/j.patcog.2004.03.009
[29]	Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification[J]. Machine Learning, 2011, 85(3): 333−359 doi: 10.1007/s10994-011-5256-5
[30]	Fürnkranz J, Hüllermeier E, Mencía E L, et al. Multilabel classification via calibrated label ranking[J]. Machine Learning, 2008, 73(2): 133−153 doi: 10.1007/s10994-008-5064-8
[31]	Tsoumakas G, Katakis I, Vlahavas I. Random K-Labelsets for multi-label classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(7): 1079−1089 doi: 10.1109/TKDE.2010.164
[32]	Zhang Minling, Zhou Zhihua. ML-KNN: A lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038−2048 doi: 10.1016/j.patcog.2006.12.019
[33]	Clare A, King R D. Knowledge discovery in multi-label phenotype data[C]//Proc of the 5th European Conf on Principles of Data Mining and Knowledge Discovery. Berlin: Springer, 2001: 42−53
[34]	Elisseeff A, Weston J. A kernel method for multi-labelled classification[C]// Proc of the 14th Int Conf on Neural Information Processing Systems: Natural and Synthetic. Cambridge, MA: MIT Press, 2001: 681−687
[35]	李峰,苗夺谦,张志飞,等. 基于互信息的粒化特征加权多标签学习K近邻算法[J]. 计算机研究与发展,2017,54(5):1024−1035 Li Feng, Miao Duoqian, Zhang Zhifei, et al. Mutual information based granular feature weighted k-nearest neighbors algorithm for multi-label learning[J]. Journal of Computer Research and Development, 2017, 54(5): 1024−1035 (in Chinese)
[36]	Liu Tongliang, Tao Dacheng. Classification with noisy labels by importance reweighting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(3): 447−461 doi: 10.1109/TPAMI.2015.2456899
[37]	Himanshu K, Naresh M, Sastry P S. Robust learning of multi-label classifiers under label noise[C]// Proc of the 7th ACM India Special Interest Group on Knowledge Discovery and Data Mining. New York: ACM, 2020: 90−97
[38]	陈庆强,王文剑,姜高霞. 基于数据分布的标签噪声过滤[J]. 清华大学学报:自然科学版,2019,59(4):262−269 Chen Qingqiang, Wang Wenjian, Jiang Gaoxia. Label noise filtering based on the data distribution[J]. Journal of Tsinghua University: Science and Technology, 2019, 59(4): 262−269 (in Chinese)
[39]	Han Jingyu, Sun Guangpeng, Song Xinhai, et al. Detecting ECG abnormalities using an ensemble framework enhanced by Bayesian belief network[J]. Biomedical Signal Processing and Control, 2022, 72(A): 103320
[40]	Liu F T, Ting K M, Zhou Zhihua. Isolation-based anomaly detection[J]. ACM Transactions on Knowledge Discovery from Data, 2012, 6(1): 1−39
[41]	Ferguson T S. A Bayesian analysis of some nonparametric problems[J]. The Annals of Statistics, 1973, 1(2): 209−230
[42]	David M B, Michael I J. Variational methods for the Dirichlet process[C]// Proc of the 21st Int Conf on Machine Learning. New York: ACM, 2004: 89−96
[43]	Černý V. Thermo dynamical approach to the traveling salesman problem: An efficient simulation algorithm[J]. Journal of Optimization Theory and Applications, 1985, 45: 41−51 doi: 10.1007/BF00940812
[44]	Han Jiawei, Kamber M, Pei Jian. Data Mining: Concepts and Techniques[M]. 3rd ed. San Francisco: Morgan Kaufmann, 2012: 38−47
[45]	George M, Roger M. MIT-BIH Arrhythmia Database [DB/OL]. (2005-02-24)[2021-03-07]. https://physionet.org/content/mitdb/1.0.0/

施引文献(7)

期刊类型引用(2)

1.	孟祥福，石皓源. 基于Transformer模型的时序数据预测方法综述. 计算机科学与探索. 2025(01): 45-64 . 百度学术
2.	伍阳，陈科基. 物联网海量不均衡数据组内方差SNM清洗算法. 现代电子技术. 2025(03): 124-128 . 百度学术

其他类型引用(5)

资源附件(0)

图(24) / 表(5)

计量

文章访问数: 181
HTML全文浏览量: 41
PDF下载量: 95
被引次数: 7

1. 相关工作
1.1 弱标签心电图数据学习
1.2 PU学习
1.3 多标签分类
1.4 噪声标签清洗
2. 问题和方法概述
3. 标签清洗规则的构造
3.1 基于异常特征模式识别锚异常
3.2 挖掘标签发现和排除规则
3.2.1 在TD上挖掘标签发现规则
3.2.2 在TD上挖掘标签排除规则
3.3 构造二分类器
4. 迭代清洗WD中的弱标签
4.1 弱标签预处理
4.2 迭代清洗弱标签
5. 实验评估
5.1 影响标签发现规则和排除规则的因素
5.1.1 影响标签发现规则的因素
5.1.2 影响标签排除规则的因素
5.2 消融实验
5.3 比较研究
6. 结　　论

1. 相关工作
1.1 弱标签心电图数据学习
1.2 PU学习
1.3 多标签分类
1.4 噪声标签清洗
2. 问题和方法概述
3. 标签清洗规则的构造
3.1 基于异常特征模式识别锚异常
3.2 挖掘标签发现和排除规则
3.2.1 在TD上挖掘标签发现规则
3.2.2 在TD上挖掘标签排除规则
3.3 构造二分类器
4. 迭代清洗WD中的弱标签
4.1 弱标签预处理
4.2 迭代清洗弱标签
5. 实验评估
5.1 影响标签发现规则和排除规则的因素
5.1.1 影响标签发现规则的因素
5.1.2 影响标签排除规则的因素
5.2 消融实验
5.3 比较研究
6. 结　　论

参考文献(45)

施引文献

资源附件(0)

基于异常特征模式的心电数据标签清洗方法

计量

出版历程

A Label Cleaning Method of ECG Data Based on Abnormality-Feature Patterns

1. 相关工作

1.1 弱标签心电图数据学习

1.2 PU学习

1.3 多标签分类

1.4 噪声标签清洗

2. 问题和方法概述

3. 标签清洗规则的构造

3.1 基于异常特征模式识别锚异常

3.2 挖掘标签发现和排除规则

3.2.1 在TD上挖掘标签发现规则

3.2.2 在TD上挖掘标签排除规则

3.3 构造二分类器

4. 迭代清洗WD中的弱标签

4.1 弱标签预处理

4.2 迭代清洗弱标签

5. 实验评估

5.1 影响标签发现规则和排除规则的因素

5.1.1 影响标签发现规则的因素

5.1.2 影响标签排除规则的因素

5.2 消融实验

5.3 比较研究

6. 结 论

期刊类型引用(2)

其他类型引用(5)

计量

出版历程

目录

1. 相关工作

1.1 弱标签心电图数据学习

1.2 PU学习

1.3 多标签分类

1.4 噪声标签清洗

2. 问题和方法概述

3. 标签清洗规则的构造

3.1 基于异常特征模式识别锚异常

3.2 挖掘标签发现和排除规则

3.2.1 在TD上挖掘标签发现规则

3.2.2 在TD上挖掘标签排除规则

3.3 构造二分类器

4. 迭代清洗WD中的弱标签

4.1 弱标签预处理

4.2 迭代清洗弱标签

5. 实验评估

5.1 影响标签发现规则和排除规则的因素

5.1.1 影响标签发现规则的因素

5.1.2 影响标签排除规则的因素

5.2 消融实验

5.3 比较研究

6. 结 论

6. 结　　论

6. 结　　论