`
deepfuture
  • 浏览: 4336850 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79462
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:68459
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:101599
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:281403
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14630
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:65669
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31361
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45265
社区版块
存档分类
最新评论

理解连续数据的离散化

 
阅读更多

在进行多属性的决策问题研究时,人工神经网络、模糊集、粗糙集、概念格、统计决策分析等算法经常出现,但是这些算法在处理问题时都会对现实作出这样或者那样的假设,比如:属性之间相互独立、服从某种分布规律,或者要求属性要尽可能的少,以便简化处理算法和计算过程,可是实际情况往往不是能够满足这些假设,粗集理论的出现为解决这一类的问题提供拉很好的方案,但是粗集又是基于集合理论,处理的对象是离散变量,不是实际中经常遇到的连续变量,于是如何将连续变量科学、合理的转变称为符合实际数据分布特征的离散量,就成为粗集开发技术的入门瓶颈,最近对于数据离散化处理技术进行了大量的资料搜集和分析,数据的离散化处理实际上就是根据某种相似性或者相异性来对数据进行分类,关键是相似性或者相异性如何定义,这是问题的难点,很多算法的不同本质上讲,其实就是在这一点上有所区别而已。分别利用K-均值和SOM网络实验了连续数据的离散化处理,发现原来SOM仅仅是受了很多约束条件的K-均值算法,并无吓人之处,不过SOM网络试验结果相当的令人满意,以下是实际效果:

**************对于数据库信息进行离散化处理******************

                                      原始数据10e6d4a1ce9.jpg

                                      离散化结果10e6d4a6c79.jpg

**********对于状态监测连续数据进行离散化处理****************

                                   原始数据10e6d4aeea0.jpg

                                      离散化处理结果10e6d4bd2ae.jpg

^_^,这个时候就可以开始神奇的粗集之旅了!

分享到:
评论

相关推荐

    论文研究-基于词出现和信息增益的连续属性离散化方法.pdf

    连续属性的离散化是文本分类任务中数据预处理阶段的一项重要技术。针对机器学习领域中的诸多优秀算法只能处理离散属性的特点,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法(multi-interval ...

    离散化算法:Class-Attribute Contingency Coefficient:对于离散连续数据,CACC是2008年提出的一种很有前途的离散化方案-matlab开发

    它们不仅能对连续属性进行简明的总结,帮助专家更轻松地理解数据,还能让学习更准确、更快。 我们实现的 CACC 算法是基于论文 [1]。 至于代码,可以先打开“ControlCenter.m”,这里有一个简单的例子,还有一个酵母...

    离散化和数值概念层次树简介

    离散化技术方法可以通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。可以用一个标签来表示一个区间内的实际数据值。在基于决策树的分类挖掘中,消减属性取值个数的离散化...

    计算机科学中的算法设计与数据结构的离散性

    因此,无论计算机科学本身,还是与计算机科学及其应用密切相关的现代科学研究领域,都面临着如何对离散结构建立相应的数学模型,以及如何将已用连续数量关系建立起来的数学模型离散化,从而由计算机加以处理的问题。...

    数据挖掘分类算法研究

    本文首先介绍了数据分类的相关概念,分析了...连续属性离散化和对高维大规模数据降维,也是扩展决策树算法应用范 围的关键技术。本文主要以决策树为研究对象,对传统决策树进行了改进,从 而扩大了决策树的应用范围。

    大数据环境下的网络态势评估——模糊粗糙集方法探索.pdf

    态势评估是网络态势感知的核心环节,针对评估方法中的粗糙集方法,由于粗糙集只能应对离散型的态势因子,对于连续型的态势因子需要做离散化处理,离散化方法将损失精度,若离散化方法选取不当,甚至将改变原始态势...

    兰州大学数据挖掘与大数据分析 Assignment 2.zip

    数据集(20 分) • 从UCI dataset repository 中下载以下数据集 –(10 分)自行下载一个数据集,要求既包含连续的数值型属性,也包含离散的符号型属 性(D1); –(10 分)IRIS(D2), Wine Quality (red vinho ...

    数据分析与挖掘实验报告.doc

    因此连续 属性的离散化是制约粗糙集理论实用化的难点. 覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则. 首先在正例集合中任选一个种子,到反例集合中逐个比较.与字段取值构成的选择子...

    大数据分析报告与挖掘实验报告材料.doc

    因此 连续属性的离散化是制约粗糙集理论实用化的难点。 覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。 首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择...

    数据分析与挖掘实验报告(2).doc

    因此 连续属性的离散化是制约粗糙集理论实用化的难点。 覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。 首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择...

    数据分析与挖掘实验报告(1).doc

    因此连续 属性的离散化是制约粗糙集理论实用化的难点。 覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。 首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子...

    数据挖掘导论 中文完整版

    259 7.2 处理连续属性 261 7.2.1 基于离散化的方法 261 7.2.2 基于统计学的方法 263 7.2.3 非离散化方法 265 7.3 处理概念分层 266 7.4 序列模式 267 7.4.1 问题描述 267 7.4.2 序列模式发现 269 7.4.3 时限约束 271...

    统计学方法与数据分析(上下册)

    书中提供了多种多样的图示,如正态概率图、盒形图、散点图、矩阵图和残差图等,通过这些图,读者可以一方面理解数据的特点和概括数据的方法,--方面进一步理解有关统计方法的基本思想和特点。作者很重视统计在解决...

    R语言经典实例(中+英)

     5.19 由行数据初始化数据框 134  5.20 添加行至数据框 136  5.21 预分配数据框 137  5.22 根据位置选择数据框的列 138  5.23 根据列名选定数据框的列 142  5.24 更便捷地选定行和列 143  5.25 修改数据框的...

    与来自 UCI 机器学习的信用卡客户违约数据集共享我的 EDA 和建模工作的回购

    探索性数据分析 (EDA) 和使用来自UCI 机器学习的信用卡客户默认数据集的建模工作。 我运行了一个基本的 EDA,它 (i) 检查一些变量的分布并在非正态行为的情况下执行变量转换(对数、平方根和立方根),以及 (ii) ...

    MATAB神经网络30个案例分析,各个章节的代码实现,本人将其调试、分类、整理并附上运行结果,以供读者在翻阅更好的理解知识

    MATAB神经网络30个案例分析,各个章节的代码实现,本人将其调试、分类、整理并附上运行结果,以供读者在翻阅更好的理解知识 01-BP神经网络-分类 02-BP神经网络-拟合 03-GA-BP神经网络-拟合 04-GA-极值寻优 05-BP-...

    《计算机应用基础》(计算机应用基础实训指导)-第4章-信息处理技术基础.pptx

    下面从不同的角度说明数据的类型 按照数据连续性数据可分为离散数据和连续数据。 按照数据的确定性可分为确定性数据和不确定性数据。 按照数据有序性可分为有序数据和无序数据。 按照所采用的计量尺度不同可以分为、...

    pytour:用于创建高维数据动画投影的python包

    高维可视化的传统方法是问“哪种角度最适合理解雕像的外观?” 最初的React是,我们不应该只从一个角度看雕像,甚至不应该只是从不同角度的离散集合中看雕像。 取而代之的是,我们应该从各种不同的角度看待雕像,并...

    大数据常用的算法.docx

    第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中...

    大数据带来的四种思维.doc

    如:照片到电影,一分钟一张,一秒钟一张,一秒钟24张成了电影 量变质变定律有时间阶段发展影响和空间相关关联影响 离散思维向连续思维转换 让我来告诉大家,美国有一家创新企业Decide.com。它可以帮助人们做购买...

Global site tag (gtag.js) - Google Analytics