当前位置: 首页 > 范文大全 > 公文范文 >

浅谈数据挖掘

时间:2022-04-11 09:26:31  浏览次数:

【摘要】数据挖掘技术应用于医学领域,有助于从海量信息中提取有价值信息,为疾病的诊治及临床研究提供科学依据。医学数据挖掘是一门涉及面广、技术难度大的新兴交叉学科。本文主要介绍数据挖掘概念,数据挖掘主要方法,数据挖掘过程及前景展望,为进一步深入研究打下理论基础。

【关键词】数据挖掘;挖掘特点;挖掘方法;挖掘过程

引言

随着电子科技的飞速发展,在医疗机构中有大量的医疗数据被记录下来。此外,有关病人和疾病的电子格式的数据日益增多,通过临床日常工作和各项检查数据进行的数据采掘研究也逐年增加。因此,掌握医学数据挖掘的能力越来越成为开展基础医学和临床医学等医学课题的先决条件。数据挖掘技术,是指从大量的、不完全的、有噪声的、模糊的数据中,提取隐含的、未知的、非平凡的及有潜在的应用价值的信息或模式,帮助决策者调整市场策略,减少风险,做出正确的判断和决策。下面介绍医学数据挖掘特点以及几种在医学上常用的数据挖掘方法。

1.数据挖掘特点

挖掘医学数据库跟挖掘其它类型的数据库相比,具有其自身的独特性。具体特点如下:

1.1 医学数据挖掘隐私性

医学数据不可避免地涉及到患者的一些隐私信息,有些隐私涉及伦理甚至法律问题。电子资源共享之前须征得患者关于隐私共享公开的授权,否则不仅对患者造成不良影响,产生不良后果,而且也对医院的整体形象及信誉诸多方面造成严重的负面效应。医学数据挖掘者有义务和职责在保护患者隐私的基础上进行科学研究,并且确保这些医学数据的安全性和机密性。

1.2 医学数据的多样性

由于医学数据是从医学影像、实验数据以及医生与病人的交流中获得的,所以原始的医学数据具有多种形式。医学数据包括影像、信号、纯数据、文字、动画,音频,视频等多种形式。医学数据的多样性是它区别于其它领域数据的最显著特征。

1.3 医学数据的不完整性

医学数据搜集是以治愈患者为直接目的,而处理是以寻找某种疾病的一般规律为目的,关于一种疾病不可能有完整的全部信息,许多医学信息的表达记录本身就有模糊的特点。此外,人为因素也可能导致据记录的偏差和残缺,如病情叙述主观性较强。这些因素都导致了医学数据挖掘的不完整特性。

1.4 医学数据的冗余性

医学数据库是一个庞大的数据资源,每天都会有大量的记录存储到数据库中,其中可能会包含重复的、无关紧要的、甚至是相互矛盾的记录。例如,有些患者信息差异较小,病种,诊断结果,检查方式,治疗方式,预后情况都几近相同,这不仅增加了数据的样本量,也为检索带来了很大困难,也就是说,医学数据具有冗余性这一特点。

1.5 医学数据挖掘的动态性

医学数据挖掘的动态性,有时候也称医学数据挖掘的时间性,指数据与时间密切相关,如不同疾病的发病季节有着显著特征。此外,医学上的心脑电图,心率,血压等都是与时间密切相关的函数,因此,医学数据挖掘具有动态性这一特点。

2.医学数据挖掘方法

2.1 关键问题

关键问题主要包括数据的预处理,信息融合技术,快速的挖掘算法以及确保知识的准确性和可靠性。

2.2 主要方法

2.2.1 自动疾病预测趋势和行为

通过对病例的数据挖掘,对人体病例的体征数据进行分析对比,从而学习到新的预测病例的方法,可以提前预测疾病的发生,及时挽救患者的生命。采用的技术主要有线性,非线性和广义的回归模型,以及神经网络技术。其中人工神经网络技术具有很强的自组织性,鲁棒性和容错性,在医学数据挖掘上具有广泛的应用。有学者以美国麻省理工学院的心律失常数据库的心电图为原始数据,采用不同分类模型,对心电图的5种异性波形进行分类,为预测心脏病的发生提供了科学依据。

2.2.2 关联分析

关联是反映一个事件和其他事件之间的依赖或联系。关联分析主要用于DNA序列间相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因素分析等。其处理包括两个步骤:第一步是利用标准关联规则挖掘算法挖掘有关的关联规则,第二步是基于所挖掘出的关联规则构造出一个分类器。关联规则有如下优点:可以产生清晰有用的结果;支持间接数据挖掘;可以处理变长数据;计算的消耗量可以预见。

2.2.3 聚类分析

聚类分析是对输入集中的记录进行分类。聚类分析是一种探索性统计分析方法,是在没有经验的情况下对数据进行分类。聚类技术主要包括传统的模式识别方法和数学分类学,例如决策树归纳,贝叶斯分类,神经网络技术,基于知识的案例推理,遗传算法,粗糙集等。

2.2.4 模糊系统

模糊系统是建立在模糊数学上的一种推理方式,经常与神经网络联合应用。可以从心脏图像中分析心室过早收缩,也可以对肝脏超声图像进行分析。

2.2.5 进化计算

进化算法是从生物进化规律中得出的一种优化算法。在医学数据挖掘中的主要应用有:为二尖瓣脱垂综合征患者提供治疗决策。也可以应用于对脊柱侧凸进行分类。

3.医学数据挖掘过程

医学数据挖掘过程主要包括如下几个步骤:(1)理解数据;(2)准备数据;(3)数据挖掘;(4)评估知识;(5)知识应用。

4.医学数据挖掘展望

我国医学数据极为丰富,但运用数据挖掘技术处理海量信息仍处于初级阶段。医学数据挖掘是一门涉及面广,技术难度大的新兴交叉学科,需要从事计算机,统计学的科研人员与医务工作者广泛合作。可以预见数据采掘技术在医学领域中具有广阔的应用前景,随着大型数据库和网络技术的普及应用,必将有大量的电子格式的数据在国内的各行各业、尤其是医疗部门中出现,信息专业的研究与开发人员应当抓住机遇,做好技术上的准备,迎接挑战。数据挖掘也为医学更好的服务患者开辟的新的途径,随着理论研究的深入及不断的实践探索,相信数据挖掘技术会在医学的方方面面发挥越来越大的作用。

参考文献

[1]Han JW,Kamber M.Data mining: concepts and techniques.3rd Edition.San Francisco:Morgan Kaufmann,2011:1-8.

[2]陈功,范晓薇,蒋萌,等.数据挖掘与医学数据资源开发利用[J].北京生物医学工程,2010,29(3):323-328.

[3]朱凌云,吴宝明.医学数据挖掘的技术方法及应用[J].生物医学工程杂志,2003,20(3):559-562.

[4]李敬社,等.数据挖掘技术的方法和最新进展[J].现代电子技术,2004,6:54-56.

[5]武森.数据仓库与数据挖掘[M].北京:冶金工业出版社,2003.

推荐访问: 浅谈 数据挖掘