为什么Spark将成为数据科学家的统一平台
数据科学是一个广阔的领域。我自认是一个数据科学家,但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营,而我正处于第二阵营。
统计科学家使用交互式的统计 -- 2016-4-19
|
|
程序员2016年4月:Spark核心技术与实践
Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,由UC伯克利大学AMPLab实验室开发(2009)并于2010年开源,在2014年成为Apache基金会的顶级项目。2014年至2015年,Spark经历了高速发展,Data -- 2016-4-14
|
|
科普文:从大数据到Hadoop,Spark,Storm
大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Vel -- 2016-3-18
|
|
Spark on Mesos详解
去学习
内容简介
Apache Spark有三种分布式部署方式,包括Spark On Mesos模式、Spark -- 2016-3-14 9:00:21
|
|
大数据未来是什么?Spark会宣布Hadoop“死刑”?
说到大数据,很多人都会提及Hadoop 与 Apache Spark。Hadoop解决了大数据的可靠存储和处理问题。但因为其本身的工作流程一板一眼,只擅长静态存储对象的批式处理,有自身的局限和不足。Spark应运而生,受到追捧,甚至被认 -- 2015-12-18 18:27:00
|
|
在Azure HDInsight中安装和使用Spark-其它
Spark本身用Scala语言编写,运行于Java虚拟机(JVM)。只要在安装了 Java 6以上版本的便携式计算机或者集群上都可以运行spark。如果您想使用Python API需要安装Python解释器(2.6或者更高版本),请注意Spark暂不支持Py -- 2015-6-4
|
|
从WordCount看Spark大数据处理的核心机制(2)-其它
在上一篇文章中,我们讲了Spark大数据处理的可扩展性和负载均衡,今天要讲的是更为重点的容错处理,这涉及到Spark的应用场景和RDD的设计来源。 Spark的应用场景 Spark主要针对两种场景: 机器学习,数据挖掘, -- 2015-6-5
|
|
从Hadoop到Spark的架构实践-Hadoop
当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆;同年,Spark Meetup在北京、上海、深圳和杭州四个城市举办,其中仅北京就成功举办了5次,内容更涵盖Spark Core、Spark S -- 2015-6-8
|
|
论SparkStreaming的数据可靠性和一致性-其它
眼下大数据领域最热门的词汇之一便是流计算了,而其中最耀眼的无疑是来自Spark社区的SparkStreaming项目。 对于流计算而言,最核心的特点毫无疑问就是它对低时的需求,但这也带来了相关的数据可靠性问题。 2Drive -- 2015-6-23
|
|
Databircks连城:Spark SQL结构化数据分析-其它
数据科学家们早已熟悉的R和Pandas等传统数据分析框架 虽然提供了直观易用的API,却局限于单机,无法覆盖分布式大数据场景。在Spark 1.3.0以Spark SQL原有的SchemaRDD为蓝本,引入了Spark DataFrame API,不仅为Scala、 -- 2015-6-23
|
|
Spark和Hadoop是朋友不是敌人-Hadoop
6月15日,IBM 宣布计划大规模投资 Spark 相关技术,此项声明会促使越来越多的工程师学习 Spark 技术,并且大量的企业也会采用 Spark 技术。 Spark 投资的良性循环会使 Spark 技术发展更加成熟,并且可以从整个大数 -- 2015-7-15
|
|
Spark大数据框架驱动快速分析-其它
Spark大数据分布式计算框架得到数据工程师的极大关注,但是到目前为止它的吸引力仅限于此。但是,用户认为它有一个主要特性可以帮助它扩大影响力:速度。 企业越来越多地使用自助分析应用程序,它们变得很容易操作 -- 2015-7-28
|
|
王团结:如何用Hadoop/Spark构建七牛数据平台-Hadoop
继“ YARN or Mesos?Spark痛点探讨 ”、“ Mesos资源调度与管理的深入分享与交流 ”、及“ 主流SQL on Hadoop框架选择 ”之后,CSDN Spark微信用户群邀请了王团结为大家分享Hadoop/ -- 2015-7-31
|
|
Spark与Hadoop亦友非敌_明与暗角力!开源云平台中的拼图“玩具”-Hadoop
熟悉大数据的人一定对Hadoop工具不陌生,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。之前谈到Hadoop,业界总与MapReduce放在一起,但其实HDFS和MapReduce一样都是Hadoop框架最核心的设计。笔者了解到软 -- 2015-8-25
|
|
SparkStreaming向Hbase中写数据(一)-HBase
在SparkStreaming中统计了数据之后,我们需要将结果写入外部文件系统。本文,以向Hbase中写数据,为例,说一下,SparkStreaming怎么向Hbase中写数据。首先,需要说一下,下面的这个方法。foreachRDD(func)最通用的输出操作,把 -- 2015-8-26
|
|
Apache Spark 不过时的六大理由-其它
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop -- 2015-8-27
|
|
与 Hadoop 对比,如何看待 Spark 技术-Hadoop
Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存 -- 2015-9-9
|
|
Spark修炼之道(基础篇)——Linux大数据开发基础:第七节:进程管理-其它
本节主要内容进程管理简介进程管理常用命令计划任务1. 进程管理简介(1)进程概念进程是操作系统中非常重要的一个概念,进程是程序的执行过程,相对于程序,进程是动态的,在linux系统中,它与用户权限相关,程序与进程并没有 -- 2015-9-2
|
|
Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架-Hadoop
因为Spark的项目比Hadoop项目更活跃大约为50%,所以Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。 Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代 -- 2015-9-14
|
|
Apache Spark 1.5新特性介绍-其它
Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章从DataFrame执行后端优化(Tungsten第一阶段)、DataFrame/SQL/Hive、机器学习MLlib等角度告诉你答案。 Apache Spark社区刚刚发布 -- 2015-9-10
|
|
七种最常见的Hadoop和Spark项目-Hadoop
如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。 有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事 -- 2015-9-8
|
|
|
页码:
1 [2] [3] [4] [5] 下一页
|