大数据入门学习？-云栖社区-阿里云

2019年05月11日原文

大数据有非常大的价值，不管是从帮助企业创造营收还是从提高效率、节省企业成本角度。大数据要是做好了，将会是一个企业增长的发动机，推动业务突飞猛进的发展。要实现大数据的价值，真正让大数据为企业创造贡献，首先必须要积累有大数据，把日常的业务和用户行为数据收集起来

大数据入门学习？

b724000519b96352ad5a ?微笑数据工程师?2019-03-17 10:55

第一部分：了解大数据平台架构

大数据有非常大的价值，不管是从帮助企业创造营收还是从提高效率、节省企业成本角度。大数据要是做好了，将会是一个企业增长的发动机，推动业务突飞猛进的发展。要实现大数据的价值，真正让大数据为企业创造贡献，首先必须要积累有大数据，把日常的业务和用户行为数据收集起来。有些数据是可再生资源，但更多的数据是不可再生资源，大数据学习交流扣qun:74零零加4一3八yi这就需要我们搭建一个平台负责数据的采集、规整、运算、存储、应用、展现等，有了这样一个大数据平台，我们才能做好数据的积累，从小数据到大数据，数据是企业的资产，好的数据是企业的优质资产。大数据平台该怎样搭建呢？请看下面这幅图，不管我之前在阿里还是在腾讯工作，还是到哪个企业工作，基本上我都是通过这幅图进行一些简单的适应企业的调整，就可以完全搬过来使用了。

5c586a57f8f742579f5f87ac50eb661f

针对上面这幅图，有几点跟大家讲解说明下：

1）大数据平台由三个平台+一个服务组成：工具平台，大数据仓库基础平台、大数据门户，其中，工具平台又包含运维平台和数据采集平台，大数据门户又包含大数据分析平台和大数据产品应用平台。

2）讲讲每个平台的作用。

运维平台主要负责整个大数据平台的任务调度、任务监控、元数据管理、权限管理等，分别由调度系统、任务监控中心、元数据管理系统、权限管理系统等系统组成。

大数据采集平台主要负责把数据采集到大数据仓库平台中。企业的大数据来源从大的角度来说，主要是从三个方面获取数据，业务系统、行为日志采集系统、外部数据来源。每一个方面来源又包含途径，大家可以看上面的图就了解。这里特别要强调的是外部数据来源，可以通过网络爬虫工具收集，通过和相应的合作方进行数据交换，通过从数据商那里采购过来，也有极少部分可以通过一些大公司的开放平台接口获取，比如阿里、腾讯等。

大数据基础平台，在传统的关系数据库时代，这个平台也是企业必须要做的平台，只不过当时叫数据仓库系统，在大数据时代，我称作为大数据仓库基础平台。这部分是整个大数据平台的核心。我们接下来会详细讨论。

大数据门户，是数据成果的集成一体化平台，包含大数据分析平台和数据应用平台。大数据门户作为整个数据部门的窗口，所有数据研究成果都会展现在数据门户中，极大的方便了企业各层级、各职能人员使用数据。我们接下来也将会详细讨论下这部分内容。

用户服务，使用我们数据的人主要有公司的各层级的管理人员、数据分析人员、运营人员、产品经理、技术研发工程师、企业的投资相关方，还可能有部分的公司提供对外的数据服务。提供服务的方式有多种多样，或通过大数据门户、或通过API接口、或是直接在分析报告中体现。

第二部分：掌握大数据常用工具组件

hadoop和Spark是两种不同的大数据处理框架，他们的组件都非常多，往往也不容易学，我把他们两者整理在一幅图中，给大家一个全貌的感觉。初学者可以针对如下图中的组件，逐个的去研究攻破。至于各组件的详细介绍、相关联系和区别，以及它们在大数据平台建设中的具体实施关注点。

1b93e0b427ce456182c1223d5824da8a

以上这些大数据组件是日常大数据工作中经常会碰到的，每个组件大概的功能，我已经在图中做了标识。下面，针对这幅图我给大家两点重要提示：

a.蓝色部分，是Hadoop生态系统组件，黄色部分是Spark生态组件，虽然他们是两种不同的大数据处理框架，但它们不是互斥的，Spark与hadoop 中的MapReduce是一种相互共生的关系。Hadoop提供了Spark许多没有的功能，比如分布式文件系统，而Spark 提供了实时内存计算，速度非常快。有一点大家要注意，Spark并不是一定要依附于Hadoop才能生存，除了Hadoop的HDFS，还可以基于其他的云平台，当然啦，大家一致认为Spark与Hadoop配合默契最好摆了。

b.技术趋势：Spark在崛起，hadoop和Storm中的一些组件在消退。大家在学习使用相关技术的时候，记得与时俱进掌握好新的趋势、新的替代技术，以保持自己的职业竞争力。

HSQL未来可能会被Spark SQL替代，现在很多企业都是HIVE SQL和Spark SQL两种工具共存，当Spark SQL逐步成熟的时候，就有可能替换HSQL；

MapReduce也有可能被Spark 替换，趋势是这样，但目前Spark还不够成熟稳定，还有比较长的路要走；

Hadoop中的算法库Mahout正被Spark中的算法库MLib所替代，为了不落后，大家注意去学习Mlib算法库；

Storm会被Spark Streaming替换吗?在这里，Storm虽然不是hadoop生态中的一员，但我仍然想把它放在一起做过比较。由于Spark和hadoop天衣无缝的结合，Spark在逐步的走向成熟和稳定，其生态组件也在逐步的完善，是冉冉升起的新星，我相信Storm会逐步被挤压而走向衰退。

第三部分：关于自学与培训

入门学习大数据，一个方面可以通过自学，另一个方面可以通过参加培训机构的培训，但是，参加培训是否真有用吗？对于哪些人适用参加培训？请看我的分享：

对于学习大数据的同学来说，参加培训肯定是有用的，这毫无疑问。关键在于作用的大小，选择的培训机构，是不是值得你耗费时间和金钱去参加培训。什么情况下，参加培训可以发挥最大的价值呢？我有3点建议，供大家参考:

第一点，自己开始学大数据，但是真的找不到门路，不知道从何入手，不知道该安装哪些大数据软件工具、怎样配置一套学习环境的时候。当然，这一点也可以通过咨询专家解决；

第二点，自己有一定大数据基础，日常学习中，碰到各种问题，一个人摸索，效率较低，希望创建一个多人学习交流的环境，结交更多的大数据同学，以加快速度学习成长的时候。

第三点，家庭环境比较好，或者是工作了几年的同学，在培训费上面比较容易接受，可以参加培训加快自己的成长。

总而言之，参加大数据培训就是以金钱换取时间（快速成长，快速入门）和空间（创造更好的多人学习交流环境），能否发挥更大的价值，就要看个人的情况和选择怎样的培训机构了。大数据学习交流扣qun:74零零加4一3八yi一个好的培训机构不仅能够让你快速的学到大数据方面的知识，更是锻炼了你的项目实战能力，让你快速找到一份满意的大数据工作，让你顺利进入到大数据领域工作，开展你的大数据职业生涯。既然培训机构这么重要，我们该如何选择呢？大家知道，培训机构不仅有线下的培训机构，更有众多的线上教育平台，那么该如何选择呢？

首先，我们比较下他们之间的优劣势：

线上教育平台，资源众多，我们可以以比较低成本甚至免费就能获取到物美价廉的教程，学习时间上我们也比较好控制，随时可分配自己的学习时间，对于有一定基础的同学来说，会是一个非常好的选择；

线下培训机构，由于受空间和时间的限制，学员必须在指定时间指定地点完成学习，培训机构提供了练习测试的环境、提供了训练数据，也有老师给学员做指导，更有同学之间的交流切磋，对于有充分时间的零基础学员来说，通过强迫集中式学习，会更容易入门上手。

其次，不管选择线上培训课程还是线下培训机构，核心点就是要扬长避短，充分利用他们之间的优势，如果自己能够在电脑上配置一套测试练习环境、找到一门适合自己的线上优质课程，那么线上课程也一样能收到很好的效果。

最后，如果要在众多的线下培训机构中选择一家靠谱的，我想可以看几点，

第一点，看是否能提供真实的项目去实习，这一点非常关键且最重要。真实的项目，让你身入奇境，通过项目中，知道大数据日常工作的内容有哪些，除了你日常学习的高大上技术以外，其实是还有很多琐碎的工作的。几个项目下来，你去找工作就轻车熟路，如同跳槽换工作一样简单，面试毫无问题。当然啦，这一类机构貌似极其少，因为要找到真实大数据项目去做的培训机构真的不多。

第二点，如果培训机构拿不到真实的大数据项目，那么要看其设置的培训案例是否是在日常企业中应用最广泛的领域，案例和技能培训紧密结合，设法让学员学习后，到企业工作，案例可以作为标准的模板，能够灵活的运用学习的大数据技能。