大数据产品经理必备数据挖掘知识概述

2018-12-2013:51:37互联网产品Comments3,662 views字数 2225阅读模式

了解数据挖掘知识是大数据产品经理必备的技能,经过了一段时间的深入学习,以及所负责项目中用到的数据挖掘内容,使我对数据挖掘有了更深一步的认识,但自认为还是小白阶段。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

路漫漫其修远兮,在这里,先将总结出来的数据挖掘常见知识点与大家分享,后面陆续更新更多的知识点及项目案例。希望能与君共勉!文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(此分享仅包含基础概念知识,旨在帮助大数据产品经理快速了解数据挖掘知识,并能在工作中与算法和开发团队顺利合作,对于更深入的研究如统计学等知识后面有机会再与大家分享~)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

第一部分 认识数据(1.1 认识数据 1.2 数据可视化)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

第二部分 数据预处理文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

第三部分 数据仓库相关知识文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

第四部分 频繁模式、关联和相关性文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

第五部分 分类挖掘文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

第六部分 聚类分析文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

第七部分 离群点检测文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

以上各部分,我将陆续与大家分享我的学习内容文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

第一部分 认识数据

1.1 认识数据

1.1.1 数据对象文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

什么是属性:是一个数据字段,表示数据对象的一个特征。在文献中,属性、维、特征和变量可以互相地使用。机器学习文献更倾向于使用术语“特征”,而统计学家则更愿意使用术语“变量”。数据挖掘和数据库的专业人士则用“属性”。例如,描述顾客对象的属性可能包括customer_ID、name和address.文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

属性向量:用来描述一个给定对象的一组属性称作属性向量(或特征向量)。涉及的属性(或变量)的数据分布称作“单变量”,分布涉及两个属性为“双变量”等等。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

1.1.2 属性类型文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

属性类型:一个属性的类型由该属性可能具有的值得集合决定。属性可以是标称的、二元的、序数的或数值的。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(1)标称属性文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

标称属性的值是一些符号或是事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类。这些值,不必具有意义的序。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

例如:hari_color(头发颜色)和marital_status(婚姻状况),是两个描述人的属性。hari_color(头发颜色)可能为黑色、棕色、红色、赤褐色、白色、灰色等、属性marital_status的值可能是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性,他们是无有意义的序。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(标称属性是有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或中位数(中值)没有意义。然后,意见有意义的事情是使该属性最常出现的值,这个值称为众数,是一种中心趋势度量,后面我们将会介绍到)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(2)二元属性文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

二元属性是一种标称属性,只是两个类别或状态:0或1,其中0通常表示该属性不出现,二1 表示出现。二元属性又称布尔属性,如果两种状态对应于true和false的话。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(3)序数属性文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

序数属性其可能的值之间具有有意义的序或秩评定。其值如小、中、大;成绩A+、A、A-、B+;军阶有列兵、一等兵、专业军士、下士、中士等;文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

序数属性的中心趋势可以用它的众数和中位数(有序序列的中间值)表示,但是不能定义均值。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(4)数值属性文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

以上介绍的标称、二元和序数属性都是定性的。即,他们描述对象的特征,而不给出实际大小的数量。而数值属性是定量的,即她可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比例标度的。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(5)离散属性与连续属性文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

机器学习领域开发的分类算法通常把属性分成离散的或是连续的。每种类型都可以用不同的方法处理。离散属性具有优先或无限可数个值,可以用或不用整数表示。如属性hari_color、smoker、medical_test和drink_size都有有限个值,因此是离散的。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

如果属性不是离散的,则它是连续的。连续属性一般使用浮点变量表示。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

1.1.3 数据的基本统计与描述文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(1)中心趋势度量:均值、中位数和众数文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

均值:数据集的最常用、最有效的数值度量是均值。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

大数据产品经理必备数据挖掘知识概述文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

这对应于数据库系统提供的内置聚集函数average(SQL的avg())。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

有时对于每个值可以有一个权重相关联,权重反应他们所依附的对应值的意义、重要性或出现的频率,公式如下:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

大数据产品经理必备数据挖掘知识概述这称做加权算数均值加权平均文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

中位数:对于倾斜(非对称)数据,数据中心的更好度量是中位数。中位数是有序数据值得中间值。它把数据较高的一半与较低的一半分开的值。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

假定给定某属性X的N个值按递增排序,如果N是奇数,则中位数是该序集中的中间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。在X是数值属性的情况下,嘉定约定,中位数取做最中间两个值的平均值。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

众数:众数是另一种中心趋势度量。数据集的整数是集合中出现最频繁的值。因此,可以对定性和定量属性确定众数。可能是最高频率对应多个不同值,导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的,双峰的和三峰的。一般地,具有两个或更多众数的数据集是多峰的。在另一种极端的情况下,如果每个数据值仅出现一次,则它是没有众数的。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

(2)度量数据散布:极差、四分位数、方差、标准方差、离群点文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

极差:设某数值属性集合,极差位其最大值(max())与最小值(min())之差。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

分位数:假设属性X的数据以数值递增排序,想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集。如图:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

大数据产品经理必备数据挖掘知识概述文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

四分位数:3个数据点,他们把数据分布划分成4个相等部分,使得每部分表示数据分布的四分之一。通常称为四分位数。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

方差和标准方差:方差和标准方差都是数据散布度量,他们指出数据分布的散布程度。低标准方差以为数据观察趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域中。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

大数据产品经理必备数据挖掘知识概述文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

本文由 @一毛硬币 原创发布于人人都是产品经理。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/cp/8906.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/cp/8906.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定