5分钟快速了解大数据，大数据挖掘与大数据分析的区别

作者：智业云日期：2019-05-21 热度：

数据分析和数据挖掘都是从数据库中发现知识、所以我们称数据分析和数据挖掘叫做数据库中的知识发现，严格意义上来讲，数据挖掘才是真正意义上的数据库中的知识发现。其简称为KDD。数据分析是从数据库中通过统计、计算、抽样等相关的方法，获取基于数据库的数据表象的知识，也就是指数据分析是从数据库里面得到一些表象性的信息。数据挖掘是从数据库中，通过机器学习或者是通过数学算法等相关的方法获取深层次的知识（比如属性之间的规律性，或者是预测）的技术。

大数据是什么？

根据维基百科的定义：当人们所处理的数据超过人们所容忍的时间范围的时候，那么我们就称该数据集为大数据。

我们在实际对大数据定义中，认为所有人给出的定义都是正确的，但是是不完全的。

大数据的诞生和发展

2005，google，GFS（google file system），后来成为了HDFS的前身

2006，google，MapReduce。

2007，google，Apache基金会用于创建Hadoop的开源社区。

2007，google，BigTable，HBase分布式数据库

2009，Spark

大数据的工作：

1.数据获取：爬虫（禁），数据接口获取（上游厂商），传感器

，开源数据（UCI）

2.数据存储：HDFS、Hbase、HIVE

3.数据分析：MapReduce离线计算引擎，Spark内存计算引擎……

4.数据挖掘：机器学习算法

大数据所有的相关计算，目前主要都是基于Hadoop引擎进行的计算，Hadoop是一个运行在通用硬件平台上的框架式软件。

大数据岗位有哪些

二，数据分析是什么？数据挖掘是什么？

数据分析和数据挖掘都是从数据库中发现知识、所以我们称数据分析和数据挖掘叫做数据库中的知识发现，严格意义上来讲，数据挖掘才是真正意义上的数据库中的知识发现。其简称为KDD。

数据分析是从数据库中通过统计、计算、抽样等相关的方法，获取基于数据库的数据表象的知识，也就是指数据分析是从数据库里面得到一些表象性的信息。

数据挖掘是从数据库中，通过机器学习或者是通过数学算法等相关的方法获取深层次的知识（比如属性之间的规律性，或者是预测）的技术。

所以，仅仅只依靠于数据分析，我们只能获取到一些表象性的信息，但是通过数据挖掘我们可以获取到很多相关的深层次的规律或者是一些预测性的信息。

数据挖掘的特点：

1.数据集大：只有数据集越大，得到的规律才能越贴近于正确的实际的规律，结果也才越准确。

2.不完整性：数据挖掘使用的数据，往往都是不完整的。

3.不准确性：又叫做噪声数据，在商业中用户可能会提供假数据，那么在工厂环境中或者是其他条件比较艰苦的环境里，那么正常的数据往往会收到电磁或者是辐射干扰，那么这个时候，数据就会出现超出正常值的情况。那么这些不正常的绝对不可能出现的数据，就叫做噪声，但是噪声需要和离群点分辨开。离群点指的是偏离了普遍规律的数据样本，它可能和基础规律相差很大，但是我们并不能说这个样本是一个噪声数据。比如，100岁的老人，买电脑，虽然这个情况基本不可能看的到，但是这个情况仍然是可能出现的。所以我们无法认为其是一个噪声假数据。所以我们称之为这个100岁老人的样本是一个离群点。

4.模糊的：模糊的可以和不准确性相关联。由于数据不准确，所以我们只能在大体上对数据进行一个整体的观察。或者我们可以解释为由于涉及到隐私信息，无法获知到具体的一些用户的内容，那么这个时候，我们如果想要做相关的分析操作，就只能在大体上做一些分析。无法精确进行判断。

5.随机性：随机性有两个解释，一个是获取的数据随机，我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习，那么一切的操作都属于是灰箱操作。

数据挖掘的基本步骤：

数据输入：输入要挖掘的数据

数据转换：做数据预处理的步骤，通过了数据转换之后，数据就是一个可用的，无冗余的、完整的、统一的、精确的数据集

（1）数据清理：对噪声数据和不一致的数据做清除操作。或者是对重复数据做删除，或者是对缺失数据做填充（众数、中位数、自己判断）。

（2）数据集成：将多个数据源的数据做整合。

（3）数据选择：选择需要的数据做挖掘。比如一个人买不买电脑和他叫什么没什么关系，所以就不需要输入到机器中进行分析。

（4）数据变换：不同的数据被通过数据集成集成到一起的时候，就会出现一个问题，叫做实体识别问题。那么数据变换除了解决实体识别问题以外，还需要统一不同的数据库的数据的格式。

数据挖掘：通过数学算法对数据进行分析，得到数据之间的规律，或者是我们所需要的知识。

模型评估：判断机器得到的模型是否是可用的，比如一个机器学习之后得到一个模型，该模型预测的准确率为10%，那么就不可用。所以模型评估很大一部分是在判断机器学习得到的知识是否是准确的，可用的。

数据输出：将结果数据输出，并且将得到的知识表示出来。对应了知识表示。

数据在进行挖掘时，我们往往都是通过某些属性得以判断某个结果，比如一个患者得了感冒、发烧、咳嗽、那么我们可以判断其得了肺炎，这个时候，我们是通过感冒、发烧、咳嗽三个属性分析得出是否得肺炎，那么前三个属性就是我们分析所需要的属性。通过对某些属性的分析我们就可以得到某一些结果。这就是数据挖掘的基本规律。

数据建模主要需要做如下操作，共主要分为两种方法：

1.将建模用数据分为两部分，一部分数据用于机器学习，建立模型使用。另一部分用于验证机器学习是否可用（准确率、精确率等参数）

2.机器学习对测试数据建立模型之后，生成一个图形化的报表，我们通过图分析来判断机器学习的准确性和可用性。

通过机器学习我们得到了什么？

机器学习得到的是一个模型，所谓模型，是一个判断的标准与方法。

属性：

1.标称属性：标识名称的属性，比如名字。标称属性可以没有顺序。标称属性往往无法用于数据挖掘。

2.二元属性：二元属性是一种特殊的标称属性，其主要是代表了对立的两个信息。二元属性有对称的和不对称的两种。

对称的：南北极、男女…………

不对称的：医院检测结果（阳性1、阴性0）

3.序数属性：多个数值之间可能会具有有意义的序，或者按照规律进行排名

4.数值属性：就是一个描述数值的属性，其分为了两种，一种叫做区间标度属性，一种叫比例标度属性

区间标度属性：可以比较差值，无法比较倍数，比如温度。你可以说25度比5度高20度，但是不能说25度比5度温暖5倍

比率标度属性：可以比较倍数，比如3km是1km的3倍。

数据质量的衡量标准：

准确性：由于我们收集到数据往往会出现不准确的情况，而这些是由各种原因造成的，比如传输过程中受到了干扰，比如人为手工写错等等。那么这个时候我们如果想要对数据进行分析，首先需要做的就是将数据中不准确的数据排除掉。

完整性：数据往往都是不完整的数据，由于本身来说，数据在收集的时候一般来说都是通过大量用户的填写或者收集得到的，但是这些数据中其实有很大的一部分，或者是我们分析的时候所感兴趣的数据往往都是存在有缺失的，所以这就对我们的分析造成了困扰，我们需要做的就是将数据进行填充。

一致性：

（1）表与表之间的数据不同或者是属性的名称不同而内容相同，对于机器来说很难识别。

（2）由于用户的信息同步或更新导致的数据不一致

（3）由于新旧数据并存导致的不一致

时效性：数据不能是绝对历史的，也可以称为过时的，也就是指数据需要有时效性。

可信性：数据需要具有信服力

可解释性：数据具有可信性的同时其实也就具有了可解释性，数据我们需要用合理的方式去进行解释。

是否需要离群点？

离群点是否需要其实取决于实际情况，一个点是否是离群点其实也取决于实际情况。如果我们现在统计岁数。如果有一个老人110岁。虽然很少见但是也是有可能出现的，所以其是一个离群点。但是如果我们分析的是青年人的购买力。那么这个时候110岁的老人就是一个噪声。那么离群点在某些情况下，是需要的，某些情况下，不需要，比如，年龄和买电脑的关系中，110岁老人明显不需要，所以这个时候就可以排除掉该样本。但是如果在银行的信用欺诈检测中，我们恰恰需要的就是检测出离群点。

数据归约：

数据归约主要是为了简化或者是强化数据集，通过归约我们可以使用尽量少的资源得到尽量好的结果。

那么数据归约主要有两种方式实现，第一种是维上卷、第二种是维下钻。

维上卷：比如现在我们需要统计广东省内居民消费习惯。那么这个时候我们就需要获取用户的数据信息。我们分析的时候没必要按照门牌号进行分析，所以这个时候我们就可以做维上卷操作，将分析属性中的地址，从详细的门牌号上卷为区级或者是市级的单位。这样做就可以简化输出的结果。而且本质来说，结果的准确性没有什么很大的影响。

维下钻：比如现在我们需要统计广东省内居民消费习惯。那么这个时候我们就需要获取用户的数据信息。我们分析的时候发现居民的地址写的都是广东省，那么这个时候地址范围就比较粗略，所以我们需要使用维下钻操作，将数据详细化，用于得到一个更准确的结果。

长按关注智业云计算

编辑：智业云计算

上一篇：常见的大数据应用场景
下一篇：河南云计算发展现状及河南云计算企业名录