初识大数据,一定要知道的知识!

初识大数据,一定要知道的知识! 初识大数据一定要知道的知识初识大数据一、大数据的发展历程二、大数据的核心概念三、大数据的影响四、大数据的核心技术一、大数据的发展历程第一阶段萌芽期(20世纪90年代至21世纪初)随着数据挖掘理论和数据库技术的逐步成熟一批商业智能工具和只是管理技术开始被应用如数据仓库、专家系统、知识管理系统等。第二阶段成熟期(21世纪前10年)Web2.0应用迅猛发展非结构化数据大量产生传统处理方法难以应对带动了大数据技术的快速突破大数据解决方案逐渐走向成熟形成了并行计算与分布式系统两大核心技术谷歌的GFS 和 MapReduce 等大数据技术受到追捧Hadoop 平台开始大行其道。第三阶段大规模应用期(2010年以后)大数据应用渗透各行各业数据驱动决策信息社会智能化程度大幅提高随着数据价值时代的来临2016年左右已经属于移动互联网时代了。大数据平台的普及也催生了更多的大数据应用场景。新问题也不断的产生如为了快速实现业务需求烟囱式开发模式导致了不同业务线的数据是完全割裂的这样造成了大量数据指标的重复开发不仅研发效率低、同时还浪费了存储和计算资源使得大数据的应用成本越来越高。但在此时马云喊出了「数据中台」的概念「One DataOne Service」的口号开始响彻大数据界。数据中台的核心思想是避免数据的重复计算通过数据服务化提高数据的共享能力赋能业务。数据湖通过原始数据分类存储到不同的数据池然后在各个数据池中将数据整合转化为容易分析的统一存储格式进行存储。这种方式极大的方便用户对数据进行分析和利用从而产生经济效益。二、大数据的核心概念大数据特征变化从刚开始的 3V(Volume、Variety 和 Velocity) 到后来的 4V(Volume、Variety 、 Velocity 和 Value) 到现如今的5V、6V、7V等等这里我展示了5V的特征大量化Volume 非结构数据的超大规模和增长总数据的80~90% 比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍。价值化Value 大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析机器学习人工智能vs传统商务智能多样化Variety 大数据的异构和多样化很多不同的形式文本 图像 视频 机器数据无模式或者模式不明显不连贯的语法或句义快速化Velocity 实时分析而非批量式分析数据输入处理与丢弃立竿见影而非事后见效。真实性Veracity大数据中的内容是与真实世界中的发生息息相关的研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。三、大数据的影响大数据对科学研究的影响1、第一种范式实验科学 (在最初的科学研究阶段人类采用实验来解决一些科学问题著名的比萨斜塔实验就是一个典型实例)2、第二种范式理论科学 (随着科学的进步人类开始采用各种数学、几何、物理等理论。构建问题模型和解决方案)3、第三种范式计算科学 (随着1946年人类历史上第一台计算机ENLAC 的诞生人类社会开始步入计算机时代科学研究也进了一个以“计算”为中心的全新时期)4、第四种范式数据秘籍型科学 (随着数据的不断积累其宝贵价值日益得到体现物联网和云计算的出现更是促成了事物发展从量变到质变的转变使人类社会开启了全新的大数据时代)虽然第三种方式和第四种方式都是利用计算机来进行计算但是二者还是有本质的区别。在第三种研究范式中一般是先提出可能的理论再搜集数据然后通过计算来验证。而对于第四种研究范式则是先有了大量数据已知的数据然后通过计算得出之前未知的理论。大数据对思维方式的影响来自维克多 · 迈尔 · 舍恩伯格 在《大数据时代生活、工作与思维的大变革》1、全样而非抽样2、效率而非精确3、相关而非因果四、大数据的核心技术听到大数据当然离不开 Hadoop ,而Hadoop有三个核心分别为:HDFS、MapReduce、Yarn(Hadoop 2.0版本推出)HadoopHadoop 的介绍1、Hadoop 最早起源于Nutch项目 Nutch 的设计目标是构建一个大型的全网搜索引擎包括网页抓取、索引、查询等功能但随着抓取网页数量的增加遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2、2003年、2004年谷歌发表了三篇论文为该问题提供了解决方案。(俗称三驾马车)有兴趣的人可以去了解下——分布式文件系统(GFS) 可用于处理海量网页的存储——分布式计算框架 (MapReduce) 可用于处理海量网页的索引计算问题3、Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE , 并从Nutch项目中剥离成独立项目 Hadoop , 到2008年1月Hadoop 称为 Apache 顶级项目。狭义上来说hadoop 就是单独指代 hadoop 这个软件HDFS : 分布式文件系统MapReduce : 分布式计算系统Yarn : 分布式样式集群资源管理广义上来说hadoop 指代大数据的一个生态圈包括很多其他的软件Hadoop 2.x 版本架构模型介绍第一种 NameNode 与 ResourceManager 单节点架构模型文件系统核心模块NameNode: 集群当中的主节点主要用于管理集群当中的各种数据。SecondaryNameNode: 主要能用于hadoop 当中元数据信息的辅助管理。DataNode : 集群当中的从节点主要用于存储集群当中的各种数据。数据计算核心模块ResourceManager : 接收用户的计算请求任务并负责集群的资源分配。NodeManager : 负责执行主节点APPmaser分配的任务。第二种NameNode 单节点与ResourceManager高可用架构模型第三种NameNode 高可用与ResourceManager 单节点架构模型第四种: NameNode 与 ResourceManager 高可用架构模型ZKFC监控NameNode 。Journal Node 同步NameNode 信息。《网络安全从零到精通全套学习大礼包》96节从入门到精通的全套视频教程免费领取如果你也想通过学网络安全技术去帮助就业和转行我可以把我自己亲自录制的96节 从零基础到精通的视频教程以及配套学习资料无偿分享给你。网络安全学习路线图想要学习 网络安全作为新手一定要先按照路线图学习方向不对努力白费。对于从来没有接触过网络安全的同学我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线大家跟着这个路线图学习准没错。配套实战项目/源码所有视频教程所涉及的实战项目和项目源码学习电子书籍学习网络安全必看的书籍和文章的PDF市面上网络安全书籍确实太多了这些是我精选出来的面试真题/经验以上资料如何领取以上资料如何领取文章来自网上侵权请联系博主