5年前,我单位谈的都是数据挖掘,也举办这类竞赛,我们也掌握了数据挖掘的应用软件和数据挖掘标准流程,比如sas,clementine等数据挖掘平台。从我工作经历来讲,数据挖掘是比较大众化的说法,单位业务部门都知道这个概念,而机器学习属于专业化的说法,现在业务部门不清楚机器学习究竟是什么

大数据、数据分析和数据挖掘的区别是什么?

大数据、数据分析和数据挖掘的区别是什么

对于很多人来讲,这几个概念经常分不清,我当初入门的时候也一样,只不过那时候没有大数据的概念,作为一个数据分析从业者,其实并不需要关注这些名字直接的本质区别,只要明白一件事,数据最终是为了决策服务。鉴于大家对此还是有些好奇,这里我大概说说我的理解,希望和各位有所交流,不足之处还望大家指正。先看看数据分析与数据挖掘的区别:首先要搞懂,什么是数据,什么是信息,这两者本质的区别就是数据是存在的,不用人脑,而信息是需要人脑进行处理,上面意思呢?比如你装修完了房子,打算开始买家具,那么第一件事就是用尺子量房屋各处的长度和宽度,这些都是可以主观的看到的,客观存在的,这就是数据,而信息则不同,例如你要去买沙发,你会说,我们放5米的沙发刚好,4米的有些短,看着不大气,6米的太大了,看着不美观,那这种就属于信息,是需要人们经过大脑去判断的,属于主观,判断的依据就是数据(客观存在)。

其次,数据分析是对客观存在的已知的数据,通过各类维度的分析,得出一个结论,例如我们发现用户注册量下降:可以从:区域上看,某区域的注册量下降了x%渠道方面,搜索引擎带来的注册了下降了X%年龄来看,20岁~30岁的注册量下降了X%等等,这样不同的业务类型去看过去一段时间发展的趋势来做结论判断。数据挖掘则更注重洞察数据本身的关系,从而获得一些非显型的结论,这是我们从数据分析中无法得到了,例如关联分析可以知道啤酒与尿布的关系、决策树可以知道你购买的概率、聚类分析可以知道你和谁类似,等等,重在从各个维度去发现数据之间的内在联系因此两者的目的不一样,数据分析是有明确的分析群体,就是对群体进行各个维度的拆、分、组合,来找到问题的所在,而数据发挖掘的目标群体是不确定的,需要我们更多是是从数据的内在联系上去分析,从而结合业务、用户、数据进行更多的洞察解读。

举个例子来理解一下:比如一个分析师一直单身,想去找一个女朋友,他可以很迅速的知道这个女孩的身高、收入、学历等,但无法从这些数据中获知这个女孩是不是适合自己、她的性格如何,这时我们就需要从一些日常行为的数据进行推断,一种是主观的推断,我觉得、我估计、我认为,不可能在一起另一种是客观 主观的推断,比如整合微博数据(可以知道微博的内容、发送行为、关注的领域等),和自己的行为进行数据挖掘,来看看数据内在的匹配度有多高,这时候,你会说,我们在一起的概率有90%,从而建立信心,开始行动.....当然统计学上讲,100%的概率都未必发生,0%的概率都未必不发生,这只是小概率事件,不要让这个成为你脱单的绊脚石。

最后,思考的方式不同,一般来讲,数据分析是根据客观的数据进行不断的验证和假设,而数据挖掘是没有假设的,但你也要根据模型的输出给出你评判的标准。我们经常做分析的时候,数据分析需要的思维性更强一些,更多是运用结构化、MECE的思考方式,类似程序中的IF else分析框架(假设) 客观问题(数据分析)=结论(主观判断)而数据挖掘大多数是大而全,多而精,数据越多模型越可能精确,变量越多,数据之间的关系越明确什么变量都要,先从模型的意义上选变量(大而全,多而精),之后根据变量的相关系程度、替代关系、重要性等几个方面去筛选,最后全扔到模型里面,最后从模型的参数和解读的意义来判断这种方式合不合理。

以上就是我认为的三个区别,其实不论数据分析还是数据挖掘,能抓住老鼠的就是好猫,真的没必要纠结他们之前的区别,难道你给领导汇报时,第一部分是数据分析得出,第二部分是数据挖掘得出?他们只关注你分析的逻辑、呈现的方式。下来说说我理解的大数据,常常有人问我,感觉现在的大数据分析培训和讲解,都是把之前的各类数据分析资料,前面加了了“大”,然后变成了大数据分析培训....,其实想一想这位兄弟说的真TM对。

大数据对我的感觉并不是数据量大,也不是数据复杂,这些都可以用工具和技术去处理,而是它可以做到千人千面,而且是实时判断规则例如定向广告的推送,就是大数据,它根据你以往的浏览行为,可以准确的给你推相关的信息,基本做到了你一个人就是一个数据库,而不是一条数据。但我们所作的数据分析更多是针对群体的,而非针对每个个人。

要做到千人前面,侵犯你隐私数据是避免不了的,或多或少都有知道一些,而做到千人千面的大数据不就是要更多的了解你,引导你、杀你、留住你吗?为了达到这类手段,就要不断的去完善自家数据,甚至要购买数据来360度的让你在数据下裸奔,从而解决数据孤岛的问题所以大数据时代也显露出了各类问题,数据的隐私、数据杀熟、数据孤岛等,这也许就是我们目前看到大数据分析更看重的是技术、手段的原因,它其实是一门纯技术,但有时候确实可能需要艺术。

将来想从事数据挖掘工作,考研学什么专业好呢?

将来想从事数据挖掘工作,考研学什么专业好呢

我自己本科和研究生学的是统计,毕业后一直做的数据挖掘相关的的工作。我简单谈一下对这个问题的看法:简单来说,要看你自身的数学功底和计算机功底。如果计算机功底不怎么好,那建议学统计学:该专业所学的理论和模型方法和数据挖掘里面用到的很多方法和理论一致。但是数据挖掘里面用到的理论方法会更多样一些,也更深入一些。

另外就是统计模型和数据挖掘里面的算法模型在建模思路上面会有一些差异;如果计算机功底比较好,可以选目前比较流程的大数据相关的专业或者数据科学专业。这些专业所学的课程跟数据挖掘里面用到的方法和理论更加一致;当然在真正报考研究生的,无论是选择统计学(概率论与数理统计)专业还是选择大数据(或者数据科学)专业,都要认证去参考教育部所列的专业排名。

千万注意,千万注意,千万注意,重要的事情说三遍:是参考,不是完全信任。主要是因为教育部的排名有些明显还是有漏洞的。比如统计专业的排名里面在20名之后的很多学校是概率相关的专业不错,但统计真的比较乱。所以不要全信排名。大数据专业我也简单看过一些,也存在类似的问题。如果是在看不明白,最简单的方法就是找个专业一点人仔细去咨询一下。

人工智能这么火,数据挖掘和机器学习有什么区别?

人工智能这么火,数据挖掘和机器学习有什么区别

工作后,我首先知道的概念是数据挖掘,而不是机器学习。因此我想数据挖掘这个概念更加广泛,属于工程应用范畴。5年前,我单位谈的都是数据挖掘,也举办这类竞赛,我们也掌握了数据挖掘的应用软件和数据挖掘标准流程,比如sas,clementine等数据挖掘平台。这些平台多数基于图形化操作,应用门槛较低。最近两年才开始谈机器学习,深度学习和人工智能等概念。

从我工作经历来讲,数据挖掘是比较大众化的说法,单位业务部门都知道这个概念,而机器学习属于专业化的说法,现在业务部门还不清楚机器学习究竟是什么。其实很难严格去区分两者的关系,看看最权威的数据挖掘和机器学习的教材,你会发现它们大部分都是重复的。既然是两个名称,那么它们的侧重点应该是不一样的。我的理解是数据挖掘的后端与机器学习的前端重复,机器学习的后端与深度学习的前端重复。

数据挖掘的前端是数据收集,清洗和处理等,和大数据有关,都涉及数据仓库等内容,但机器学习并不关心这些,也就是说数据这种原材料对机器学习来说应该要事先准备好了,机器学习更加注重学习问题,努力像人类一样学习知识,理解世界。它们最大的区别是:数据挖掘注重挖掘数据中的规律和知识,但不关心数据为什么会产生这些规律和知识,也就说你只看到表象,并不知道本质原因。

而机器学习恰恰相反,机器学习更加注重学习数据的生成机制,即数据究竟由什么概率模型生成的。有时机器学习也叫统计学习就是这个原因。数据的生成机制出来了,那么数据中的规律自然而然就知道了。正是因为机器学习注重数据的生成机制学习,产生大量的研究内容,发展出核机器,极大似然估计,最大熵模型,最大后验估计,期望最大化算法,高斯过程,概率图模型,变分推理等工具。


文章TAG:数据挖掘  算法  论文  经典  十大  数据挖掘的十大经典算法  什么是数据挖掘论文  
下一篇