睡眠作为人体不可或缺的生理过程,与健康状况、认知功能及生活质量密切相关。公开睡眠数据集为睡眠医学研究、算法开发(如睡眠阶段自动识别)、智能设备优化等领域提供了基础支撑,有效降低了研究门槛,推动了跨机构、跨领域的合作创新。本文将从数据集的核心价值出发,按应用场景分类介绍典型公开睡眠数据集,并总结其选用要点。
一、公开睡眠数据集的核心价值
公开睡眠数据集的价值主要体现在三个维度:其一,为基础研究提供数据支撑,帮助研究者分析睡眠结构与疾病(如睡眠呼吸暂停、失眠)、年龄、生活习惯的关联;其二,为算法开发与验证提供标准基准,尤其是在睡眠阶段自动分期、睡眠障碍筛查等任务中,数据集可用于模型训练、参数调优及性能对比;其三,促进技术转化落地,助力智能手环、睡眠监测仪等消费级设备的算法迭代与精度提升,推动睡眠健康产业的发展。
二、典型公开睡眠数据集分类介绍
根据数据采集场景、规模及核心用途,公开睡眠数据集可分为临床医疗级、通用研究级、消费级设备采集三大类,各类数据集在数据精度、标注信息、获取难度上存在显著差异,适用于不同研究需求。
(一)临床医疗级数据集:高精度、强标注,适用于疾病关联研究
此类数据集通常由医院或专业医疗机构采集,基于多导睡眠图(PSG)等金标准设备,包含详细的生理信号与临床诊断信息,数据精度高、标注权威,是睡眠障碍机制研究与临床算法开发的核心资源。
1.MIT-BIH Polysomnographic Database(MIT-BIH睡眠数据库)
该数据集由美国麻省理工学院(MIT)和波士顿贝斯以色列女执事医疗中心联合构建,是睡眠研究领域最经典、应用最广泛的数据集之一。数据采集对象包含18至97岁的健康人群及睡眠障碍患者(如睡眠呼吸暂停综合征患者),共收录44个受试者的整夜PSG记录,每个记录时长约8小时。
数据内容涵盖脑电图(EEG)、眼电图(EOG)、肌电图(EMG)、心电图(ECG)等核心生理信号,采样频率为100Hz。所有数据均由专业睡眠技师按照标准睡眠分期规则(如AASM标准)完成睡眠阶段(清醒期、N1期、N2期、N3期、REM期)标注,部分记录还包含呼吸事件、肢体运动等异常事件标注。该数据集可通过MIT生理信号数据库平台免费获取,适用于睡眠阶段自动分期算法的基准测试、睡眠生理特征分析等研究。
2.Sleep Heart Health Study(SHHS)
由美国国家心脏、肺和血液研究所(NHLBI)发起,是全球规模较大的睡眠与心血管健康关联研究数据集。数据采集覆盖美国11个临床中心,共纳入约6400名受试者,年龄跨度为40岁以上,包含大量中老年人群及心血管疾病高危人群。
数据集核心内容为受试者的整夜PSG记录(含EEG、EOG、EMG、呼吸气流、血氧饱和度等信号),以及长达10年以上的随访数据(如心血管事件发生情况、死亡结局等)。此外,还包含详细的基线调查问卷信息,涵盖人口统计学特征、生活习惯(如吸烟、饮酒)、既往病史等。该数据集的标注信息包括睡眠分期、睡眠呼吸暂停低通气指数(AHI)等关键指标。研究者需通过NHLBI数据申请平台提交申请并签署数据使用协议后获取,适用于睡眠障碍与心血管疾病关联分析、长期预后预测等临床研究。
3.European Data Format Sleep Archive(EDF Sleep Archive)
由荷兰特温特大学主导构建,是一个聚焦于睡眠障碍诊断与分析的多中心数据集。数据来源于欧洲多个睡眠中心,包含正常睡眠者及失眠、睡眠呼吸暂停、发作性睡病等多种睡眠障碍患者的PSG数据,共收录超过200个整夜记录。
数据以欧洲数据格式(EDF)存储,便于主流生理信号分析软件(如Matlab、Python的mne库)读取,包含EEG、EOG、EMG、ECG、呼吸信号等,部分记录还附带视频监测数据。标注信息除睡眠分期外,还包含专业医师的临床诊断报告。该数据集可通过特温特大学官网免费获取,适用于睡眠障碍亚型识别、临床诊断辅助算法开发等研究。
(二)通用研究级数据集:规模大、易获取,适用于算法训练
此类数据集多由高校或科研机构主导采集,兼顾数据规模与标注质量,部分采用半自动化标注结合人工校验的方式,数据获取流程相对简便,适用于机器学习、深度学习算法的大规模训练与优化。
1.Sleep-EDF Database Expanded(Sleep-EDF扩展数据库)
在早期Sleep-EDF数据集基础上扩展而来,由瑞士苏黎世大学和荷兰特温特大学联合构建,包含两个子数据集:Sleep-EDF 78和Sleep-EDF 2018。其中Sleep-EDF 78收录22名健康受试者的PSG数据,Sleep-EDF 2018则扩展至197名受试者,涵盖不同年龄层(20-100岁),其中包含大量老年人群数据,为年龄相关睡眠特征研究提供了支撑。
数据内容包括EEG、EOG、EMG信号及体温、心率等生理指标,采样频率为100Hz或256Hz。睡眠分期标注遵循R&K标准或AASM标准,部分记录还包含睡眠日志信息(如入睡时间、主观睡眠质量评分)。该数据集可通过PhysioNet平台免费下载,因其规模适中、标注清晰,成为初学者开展睡眠算法研究的常用数据集,也适用于年龄对睡眠结构影响的分析。
2.ISRUC-Sleep Database
由葡萄牙科英布拉大学睡眠研究与治疗中心构建,是一个分为多个子集的系列数据集(ISRUC-Sleep S1至S4),总规模超过1000个睡眠记录,涵盖健康人群及睡眠障碍患者。其中S1子集包含100个无标注的PSG记录(适用于无监督学习),S2-S4子集则包含带有睡眠分期标注的记录,标注精度由专业睡眠技师保障。
数据包含EEG(多通道)、EOG、EMG、ECG、呼吸信号等,采样频率为256Hz,数据格式兼容主流分析工具。该数据集的特色在于提供了不同质量的标注数据(如部分子集包含粗标注和细标注),可满足不同算法(如弱监督学习、半监督学习)的训练需求。研究者可通过科英布拉大学官网免费获取,适用于大规模睡眠分期算法开发、睡眠信号降噪算法验证等场景。
3.Chinese Sleep Research Society Database(CSRSD,中国睡眠研究会数据集)
由中国睡眠研究会联合国内多家医院构建,聚焦于中国人的睡眠特征与睡眠障碍现状,填补了亚洲人群睡眠数据集的空白。数据集包含约5000名受试者的睡眠数据,涵盖健康人群、失眠患者、睡眠呼吸暂停患者等,其中青少年、中年、老年群体的比例均衡,更符合中国人口结构特征。
数据类型包括PSG数据(临床级)和可穿戴设备数据(消费级),PSG数据包含详细的生理信号与睡眠分期标注,可穿戴设备数据则涵盖睡眠时长、睡眠连续性等指标。此外,还关联了受试者的饮食习惯、工作压力、中医体质等特色信息,为中西医结合睡眠研究提供了数据支撑。该数据集需通过中国睡眠研究会官方平台申请获取,适用于针对中国人的睡眠健康研究、本土化算法开发等场景。
(三)消费级设备采集数据集:规模大、场景广,适用于生活化研究
此类数据集由智能手环、睡眠监测仪等消费级设备采集,数据规模庞大、覆盖人群广泛,采集场景多为家庭日常睡眠环境,更贴近真实生活中的睡眠状态,但数据精度低于PSG,标注信息相对简单,适用于睡眠行为分析、人群睡眠特征统计等研究。
1.Fitbit Sleep Dataset
由美国Fitbit公司公开的基于其智能手环采集的睡眠数据集,包含数万用户的睡眠数据,采集周期从数天至数年不等,覆盖全球不同地区、不同年龄段的用户。数据内容主要基于心率、运动传感器(加速度计)推断的睡眠指标,如总睡眠时长、睡眠效率、入睡潜伏期、清醒次数、睡眠阶段(粗略分为深睡、浅睡、REM睡)等。
该数据集还关联了用户的基本信息(如年龄、性别、地域)及使用习惯(如佩戴时间),部分子集包含用户的主观睡眠评分。数据格式为结构化数据,便于统计分析,但需注意其睡眠阶段划分精度低于PSG。研究者可通过Fitbit开发者平台申请获取,适用于大规模人群睡眠行为模式分析、睡眠与生活方式关联研究、消费级设备算法优化等场景。
2.Apple Watch Sleep Dataset(Apple Research App)
通过Apple Research应用招募志愿者采集,包含数十万用户的睡眠数据,采集设备为Apple Watch。数据内容基于心率传感器、陀螺仪、加速度计等多模态数据融合推断,涵盖睡眠时长、睡眠阶段(深睡、浅睡、REM睡、清醒)、心率变异性(HRV)与睡眠的关联等指标。
部分子集还包含用户主动上报的睡眠相关症状(如失眠频率、日间嗜睡程度)及健康指标(如体重、运动情况)。该数据集的优势在于样本量极大,且覆盖不同健康状态的人群,可用于睡眠健康大数据分析、基于可穿戴设备的睡眠障碍初步筛查算法开发等。数据需通过Apple Research数据平台申请获取,且需遵守严格的用户隐私保护协议。
三、公开睡眠数据集的选用要点
研究者在选用公开睡眠数据集时,需结合研究目标、技术条件等因素综合判断,核心要点包括:
1.匹配研究场景:临床疾病研究优先选择医疗级数据集(如SHHS、MIT-BIH),算法大规模训练优先选择通用研究级数据集(如ISRUC-Sleep),生活化睡眠行为分析则适合消费级数据集(如Fitbit Sleep Dataset)。
2.关注数据质量:重点核查数据的采样频率(高频数据适用于生理信号细节分析)、标注精度(专业技师标注优于算法自动标注)、样本代表性(如年龄、地域、疾病类型是否符合研究对象)。
3.明确获取条件:部分数据集需签署数据使用协议(如SHHS),部分需学术机构认证,需提前了解获取流程及隐私保护要求,避免违规使用。
4.结合技术工具:确认数据集格式与常用分析工具(如Matlab、Python的mne库、TensorFlow)兼容,减少数据预处理的工作量。
四、总结与展望
公开睡眠数据集为睡眠研究的多元化发展提供了重要支撑,从临床级的高精度数据到消费级的大规模数据,形成了覆盖不同需求的数据集体系。未来,随着可穿戴设备技术的进步与多中心合作的深化,公开睡眠数据集将呈现“多模态融合”(如结合音频、视频数据)、“长时序追踪”(如数年的睡眠变化数据)、“跨域关联”(如关联基因组、代谢组数据)的趋势,进一步推动睡眠健康研究从基础理论走向临床应用与生活化服务。研究者应合理利用现有数据集,同时注重数据隐私保护与规范使用,共同推动睡眠研究领域的创新发展。