网赢中国专注大数据营销 [会员登录][免费注册][网赢中国下载]我要投稿|加入合伙人|设为首页|收藏|RSS
网赢中国是大数据营销代名词。
大数据营销
当前位置:网赢中国 > 行业资讯 > 营销战略 > 大数据营销营销战略 > 怎么搞个大数据平台?
怎么搞个大数据平台?
编辑:李华芳 发布时间: 2016-1-26 9:20:00    文章来源:百度百家
大数据营销




Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。


原文链接:https://dzone.com/articles/commercial-and-open-source-big 


解决问题时需要哪些技能呢?


直觉和数据分析能力。


当你去处理还没发生的事件,即便是很大数据量的分析,也需要一定程度的直觉。但很明显基于数据分析的决策比直觉意见更可信,因为它排除了决策人的偏好、品味和经验,客观对待问题。


毫无疑问数据很重要,但不断增长的数据使得数据处理越来越难。我们需要的不仅仅是数据,还有技术。大数据科技存储了大量的数据,搜索出有意义的可视化数据,通过预测数据为应用程序进行内部业务处理。为让大家更为清楚地了解大数据平台技术,本文把不同的平台技术分类成三方面:“存储系统”、“处理系统”和“分析方法”,并且描述相关的产品和技术。


存储系统方面


Parallel DBMS


NoSQL


这两个系统都用外扩方法存储大数据。


Parallel DBMS


目前的RDBMS技术适用于所有单系统邻域,专业的架构类系统让处理OLAP,文本,串流,和高纬度数据变得更出色。同时随着环境的变化,RDBMS对此也在OLTP处理领域做出了相应的改变。


NoSQL


NoSQL,是一个新存储系统的总括,为了简化碎片简易定义的数据模型而出现。它是分布的基础,并使得在一个分布复制环境或者约束隔离下的要求没那么严格。


VoltDB


VoltDB系统是由适合高性能的OLTP环境的格式组成,通过水平分割表数据建立高速率的OLTP系统。



图1展示了要求仅在一个分区内操作的某个任务连续地在相应的分区内被执行,并且需要在多个分区处理的某一任务被协调者处理。如果有很多操作需要在几个分区处理,行和大小不宜过大。


SAP HANA


SAP HANA是SAP公司的一个基于记忆的存储系统。它的特点是组织一个系统最佳化的分析任务,比如OLAP。如果所有数据在系统内存内,那么重中之重是突破内存和CPU缓存之间的瓶颈。为了最小化缓存缺失,处理带有时间的连续数据是更有利的,这意味着分析许多OLAP时列结构表可能更有利。


面向列的表有很多优势,典型实例是一个高数据压缩率和处理速度。如果一个相同的数据域,与完全整合在一起的数据块相比,几个数据域对数据压缩更好。下面的图展示了行结构和列结构方法的简明对比。



Vertica


Vertica是OLAP专业的数据库,它通过列方法在磁盘上存储数据。不共享方式的MPP结构包含一个最佳化写入的存储,写入更快,在压缩的形式下读入存储,并且管理双侧数据流元组移动。下面的图3帮助理解Vertica结构:



Greenplum


Greenplum是一个非共享MPP结构的数据库,基于PostgreSQL产生。保存的数据可以选择行或列方式。数据存储在服务器段,并且由日志传输的方式测试段单位复制使得其可用。



1.一个由SMP结构主机运行的查询执行计划和聚集的结构,而由MPP结构在S-BLADE节点处理查询来执行。


2.每个S-BLADE是通过一种被称作FPGA特殊的数据处理器(现场可编程门阵列)和磁盘连接而成。


3.每个S-BLADE和主机使用IP地址连接到网络。


与其他系统不同,FPGA对数据进行压缩过滤、记录或柱;在事务处理方面,它具有过滤或转换功能。在处理大数据的时候,它遵循的是在执行位于数据操作的数据时尽可能减少不必要数据的原则。



处理方面


并行处理的关键点是各个击破,即数据被分割在独立的类型,之后并行地处理它。就像矩阵乘法,它可以分割和运行每个运算。大数据处理的意思是把一个问题分割成几个小操作,并且将他们整合成一个单一的结果。但如果有操作依赖,那么不可能最好地使用并行操作,在保存和处理数据时很有必要考虑这些因素。


多核处理


被广泛熟知的处理大数据的技术是一个分布式数据多核处理的过程框架,比如Apache Hadoop.


通过多核处理方法的数据有以下特征:


通过使用内置硬盘,而非特殊存储方式。


当很多电脑参与处理,一般情况下假设会有系统错误和硬件错误,而非例外。


通过简化抽象的Maps和Reduce的基本操作,你可以解决很多复杂的问题。即使是不熟悉平行程序的程序员也能轻松执行数据的并行处理。


通过使用大量计算机来实现高流通量。


下图展示了map-reduce方法的实现流程。存储在HDFS的数据被分给一个可行的工作者和一个表达值类型,并将结果存放在本来磁盘。数据服从减少过程,并生成一个结果文件。



Dryad


Dryad是一个图形框架,它能通过形成程序之间的数据通道加工并行数据。开发者用Map或者reduce 框架的就可以直接写Map和Reduce函数,而如果用Dryad,他们需要做图来处理相应的数据。如下图7描述了数据处理在Dryad和UNIX’s 通道的比较。



Dryad使DAG类型的数据流成为可能。尽管并行数据运算框架为处理大数据提供了足够的函数,但没有经验的开发者或数据分析员以及未成年人在用系统进入的时候仍会遇到障碍。因此,我们需要一种方法通过更高的标准抽象概念来帮助数据处理更简便。


Apache Pig


Apache Pig 提供一个更高标准的数据过程结构,允许通过结合处理大数据。它支持Pig Latin语言,有如下特征:


1.提供高标准结构,比如一个关系,包,和元组,包括int, long,和两个基本类型。


2.提供关系运算,比如FILTER, FOREACH, GROUP, JOIN, LOAD 和STORE。


3.你也可以指定自定义用户功能。


一个通过Pig Latin指明的数据处理程序,转换成逻辑执行计划,接着再转换成Map-Reduce 执行计划。下图显示Pig运算过程。



Apache Pig 是一个访问方式,使大数据处理程序在编程语言中成为可能,叫C或者Java。另外一个类似的访问方式是Google’s Sawzall.


一些技术帮助说明了数据处理,比如SQL,在编程语言中没有说明数据处理过程。典型的例子比如Apache Hive, Google Tenzing和微软的SCOPE.


Apache Hive



为了支持来自用户的扩张,它允许用户用标量值,集合体以及表格水平阐明功能。


分析方面


GNU R


GNU R 是软件环境,包含了专供统计分析和制图以及程序包的程序语言。它确保了一个平滑的矢量和矩阵数据过程从而优化语言上的统计核算。


在过去,R是使用单一CPU将数据放入电脑记忆中进行分析,但由于增加的数据要处理,它已经有了很多的发展。有些典型的例子如下:


利用多核的DoSMP 程序包;


Bigmemory package: 存储数据的共享存储器。它只存储关键的内存值并将其存在磁盘中;


雪包:它使R程序在计算机簇环境中执行成为可能。


如下图示范雪包如何在簇环境中处理数据的,这是一个典型的分类和攻克方法。



Map-Reduce运算已经越来越普通,我们可以看到技术,比如RHIPE, RHadoop包和Ricardo, 那里MR运算和R都是集合形式。还有rhive 包,它结合了如Apache Hive这样高标准数据处理技术。


Apache Mahout 应用于扩大数据分析运算。不仅Apache Hadoop,它也可以在多样环境中执行。它也通过存储数学库和Java 手机的方式提供有效包,比如向量矩阵或者其他NoSQL数据库作为数据资源的功能。


以上我们通过对大数据的存储、处理以及分析三个方面来了解大数据平台技术,我们希望大数据最终在处理技术上发挥自身作用,而将数据和技术要素结合起来则可以获得显著的结果。


参与人员:策划-徐睿艺、樊茜茜;编译-蔡志玉 ;编辑-连颖静 ;


推广-申洪浩、程杰超、周宇琪、李华芳


转载声明:欢迎转载,请您在转载时保留署名和引用信息。


欢迎您在知乎或微信上关注我们。





大数据营销
编辑推荐
图片行业资讯
  • 如何用营销手法提升线下店面的进店率? 以茶叶店为例
  • 干货丨十年广告人的经验告诉你:整合营销到底该怎么做?
  • 如何判断你的产品是否健康?这3个指标来告诉你
  • 网页增重不可控?试试 OneAPM Cloud Test
  • 我是怎样不关站通过备案的
营销资讯搜索
大数据营销
推荐工具
    热点关注
    大数据营销
    大数据营销
    大数据营销
    大数据营销
     

    大数据营销之企业名录

    网络营销之邮件营销

    大数据营销之搜索采集系列

    大数据营销之QQ号采集

    大数据营销之QQ精准营销

    大数据营销之QQ消息群发

    大数据营销之空间助手

    大数据营销之QQ联盟

    大数据营销之QQ群助手
     
    设为首页 | 营销资讯 | 营销学院 | 营销宝典 | 本站动态 | 关于网赢中国 | 网赢中国渠道 | 网站RSS | 友情链接
    本站网络实名:网赢中国  国际域名:www.softav.com  版权所有 2004-2016  深圳爱网赢科技有限公司
    邮箱:web@softav.com 电话:+86-755-26010839(十八线) 传真:+86-755-26010838
    在线咨询:点击这里给我发消息 点击这里给我发消息 点击这里给我发消息  点击这里给我发消息  点击这里给我发消息

    深圳网络警
    察报警平台
    公共信息安
    全网络监察
    经营性网站
    备案信息
    不良信息
    举报中心
    中国文明网
    传播文明
    分享