进入大数据的真实世界-数据挖掘入门和应用 林海老师(1天) 课程背景 时移而势变,互联网带来了“大数据(BigData)”的爆发,企业和个人被卷入了新的数字化洪流。你的客户、你的员工已经被悄无声息的改变,工业时代的致胜秘籍和战略空间已经不再继续有效,大数据给我们带来了新的价值创造方式。 目前,市面上流行的大数据培训一部分侧重于实现算法和公式推导,适合编程人士学习,但过于晦涩,需要较高的学历基础,另外一部分侧重于创新理念和案例介绍,适合普及概念,但缺乏实战性,不利于深度的理解和把握,无法为我所用。 为了弥补这些不足,融业务和技术创新于一体,林海老师根据长时间的理论和实践经验,开发了本门课程,将会带给学员全新的知识体验,启发自己的大数据思维,获得大数据算法的框架和使用指引,可以在工作中灵活运用,帮助企业洞察问题、发现规律和改进方向,并能够运用所学知识,结合公司实际情况,再造自己的数字化业务。 主要话题 数据分析思维的“破”与“立” 世界认知的重构:数据分析的模型和算法 数据分析实战:从代码中观测世界的变化 创新:“始”于问题,庖丁解牛、“终”于解决 课程大纲 第一单元 思维转变:从报表统计思维进入数据分析思维 一、 入门:数据是对“事实”的观测 二、 转变:数据思维意味着什么 1、主动找数据变为被动推荐 2、抽样数据变为全集数据 3、要求精确变为欢迎复杂 4、事后分析变为实时监控 5、专家分析变为机器学习 6、由流程为核心变为以数据为核心 7、由客户分类变为个性化服务 8、由人与人连接变为人与机器连接 第二单元 认知重构:进入模型和算法统治的世界 一、数据分析三大核心模型 1、分类:真与假;好与坏;高、中、低。不会分类,就不会思考 2、预测:输入变量,求得结果。代表了掌握规律的能力,生活是可预知的 3、相关性:模糊、近似、有关,是一种简便的、粗略的全盘操控能力 二、五大初级算法 1、相关性分析:最入门、最常用、最刚需的分析方法 2、散点图分析:最被忽略的探索性分析方法 3、概览性分析:教科书上都不重视的全局总览的分析方法 4、回归分析:最容易理解的由x推导出y的方程式分析法 5、聚类分析:最粗暴的物以类聚人以群分的分析方法 三、六大中级算法 1、降维分析:数据太多,抓住主要数据的方法 2、决策树分析:最容易理解的决策分析 3、关联规则分析:貌似没有规模,却可以寻找一个规律 4、相似性分析:当前最热门的分析方法,如:人脸识别、指纹识别 5、可视化分析:河流图、风向图、热力图等各种别具一格的数据呈现方式 6、文本分析:从大量的文字中快速提取关键信息 四、两大大数据高级算法 1、神经网络算法:最牛逼的模拟大脑的算法,如埃尔法狗围棋 2、支持向量机算法:实用性和准确性较强的一个机器学习算法 第三单元 操作实战:从代码中观测到的“真实”世界 一、学会用数据分析创新性的解决问题 1、What:问题是什么 2、Judgement:能用数据分析解决吗 3、Prerequisite:具备数据基础吗 4、ModelSelect:选择哪个模型 5、Visualization:怎么呈现结果 6、Design:设计流程,形成文档 二、学会用代码去测试和逼近真相 1、数据获取(导入数据、爬取数据) 2、数据探索分析、概览分析 3、明确分析目的 4、选择x和y 5、对格式进行转换 6、选择模型(模型选择准则) 7、使用交叉验证规则,切分数据 8、用模型进行训练 9、分析模型预测结果 10、确定最优模型 11、使用和预测 12、报告和呈现
|