咱们先从一个生活场景切入:你打开购物APP,首页立马弹出“猜你喜欢”的商品;刷短视频时,系统总能推你爱看的内容;银行办信用卡时,几分钟就告诉你“审核通过”——这些背后,都藏着“数据挖掘”的影子。
有人说数据挖掘是“用电脑给数据算命”,也有人说它是“在数据垃圾堆里找宝藏”。其实都对,却又不全对。简单讲,数据挖掘就是用自动化的技术,从海量数据里挖出那些隐藏的、有用的规律和知识,就像考古学家从一堆泥土里筛出珍贵文物,只不过它挖的是“数据文物”。
接下来咱们就彻底掰扯明白:数据挖掘到底是啥、它和咱们常说的数据分析有啥不一样、挖数据要走哪些流程、有哪些核心“挖宝工具”、在生活里怎么发挥作用,全程不用专业术语,全是家常话。
一、先搞懂:数据挖掘到底是“啥玩意儿”?
要理解数据挖掘,得先拆清楚它的核心要素。就像学做饭得先懂“食材、工具、步骤”,搞懂数据挖掘也得从“挖什么、怎么挖、挖来干啥”这三个基本问题入手。
1. 挖的“原料”:不只是数字,还有各种“数据形态”
数据挖掘的原料就是“数据”,但这数据可不是简单的“1、2、3”,它就像一个大杂烩,啥样的都有。按“有没有固定格式”能分成两大类,咱们用“厨房食材”打比方就好懂了:
- 结构化数据:像切好的标准化食材
这类数据有明确的“格式规矩”,就像超市里按重量分装的净菜,拿过来就能直接用。比如Excel表格里的“姓名、年龄、消费金额”,银行APP里的“转账时间、金额、收款方”,这些数据都存在整齐的表格里,每一列的含义都清清楚楚。这是数据挖掘最常用的原料,处理起来最方便。
- 非结构化数据:像没处理的散装食材
这类数据没有固定格式,就像刚从菜市场买回来的带泥蔬菜,得先处理才能用。比如你发的朋友圈文字、刷的短视频、语音消息、医院的CT影像、电商评论区的吐槽,这些都是非结构化数据。它们占了现在数据总量的80%以上,挖起来更费劲,但藏的宝贝也更多。
不管是哪种数据,都得先“处理干净”才能挖。就像做饭前要洗菜、切菜,数据挖掘前也得把残缺的、错误的数据修好,把非结构化数据转成能分析的格式——这一步叫“数据预处理”,是挖宝的基础。
2. 挖的“目标”:找四种“宝贝”,解决实际问题
数据挖掘不是瞎挖,而是带着明确目标找“有用的规律”。这些规律主要分四种,覆盖了从“总结过去”到“预测未来”的全需求:
- 关联知识:发现“藏在一块的秘密”
就是找数据之间的“捆绑关系”,比如“买A的人大概率会买B”。最经典的例子是沃尔玛的“啤酒与尿布”——超市分析销售数据时发现,周末买尿布的男性顾客,有很多会顺便买啤酒。原来爸爸们买尿布时会给自己囤点酒,超市于是把两者放一起,销量立马涨了不少。咱们购物APP的“买了又买”推荐,就是靠这招挖出来的。
- 分类知识:给数据“贴标签、分好坏”
先给已有数据贴好标签,再让电脑学会“给新数据贴标签”。比如垃圾邮件过滤:先告诉电脑“含‘中奖’‘汇款’的邮件是垃圾邮件”,电脑学完后,收到新邮件就能自动分类。银行审核信用卡也是如此,把“有逾期记录、收入不稳定”的客户标为“高风险”,新申请时就靠模型自动判断该不该通过。
- 聚类知识:给“同类数据”找组织
没有标签时,让电脑自动把“长得像”的数据归为一类。比如电商平台给客户分群:电脑分析“购买频率、消费金额、浏览偏好”后,会自动把客户分成“高频高消的VIP”“偶尔买打折品的性价比用户”“只逛不买的潜力客户”,商家再针对不同群体搞促销,比瞎撒网管用多了。
- 时序知识:从“时间线”里找趋势
分析按时间排列的数据,预测未来的变化。比如奶茶店分析过去一年的销售数据,发现“夏天芒果味卖得最好,冬天热可可销量暴涨”,还能预测明年夏天大概要备多少芒果原料;股票分析软件里的“涨跌预测”,本质也是用这种方法挖时间数据里的规律。
3. 挖的“本质”:不是“分析数据”,是“发现新知”
很多人会把数据挖掘和数据分析搞混,其实两者差得老远。咱们用“侦探破案”来对比,一下子就能分清:
数据分析的核心目标是解释“过去发生了啥”,靠人主导,用统计、图表找答案,结果是明确的结论,比如“上月销量涨了20%”,典型场景是老板问“为啥上月销量下滑了”。
而数据挖掘的核心目标是发现“隐藏的规律”、预测“未来会发生啥”,靠算法自动挖,电脑自己找规律,结果是模型或规则,比如“买A的人70%买B”,典型场景是老板问“怎么让下月销量涨起来”。
小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!
喜欢大白话聊透人工智能请大家收藏:(www.qbxsw.com)大白话聊透人工智能全本小说网更新速度全网最快。