-
Spark读取txt , 并结构化后执行 SQL操作
1.准备 idea , 配置好scala ,需要有 Spark sql包 !注意:如果自己Spark能跑 ,就不要复制我的POM了,代码能直接用. ---------------贴一下POM , 我用的是Spark版本是 2.4.3, Spark_core以及sql是2.11<?xml ...
-
Spark之spark.sql spark-shell之spark.sql
目录spark-shell之spark.sql数据结构订单表: badou.orders字段(string)行为表: badou.priors字段(string)登录spak-shell练习product 统计/特征统计product被购买的数据量统计product被reordered的数量(再次购...
-
spark-submit介绍
参考资料: https://blog.csdn.net/qingqing7/article/details/79103297
-
Spark笔记-treeReduce、reduce、reduceByKey
参考资料:http://*.com/questions/32281417/understadning-treereduce-in-sparkhttp://*.com/questions/34078430/treereduce-vs-reducebyke...
-
Spark Executor Driver资源调度小结【转】
一、引子 在Worker Actor中,每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程,Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseG...
-
Spark学习笔记--Graphx
浅谈Graphx: http://blog.csdn.net/shangwen_/article/details/38645601Pregel: http://blog.csdn.net/shangwen_/article/details/38479835Bagel: http://ju.outof...
-
Spark笔记--使用Maven编译Spark源码(windows)
1. 官网下载源码 source code,地址: http://spark.apache.org/downloads.html2. 使用maven编译:注意在编译之前,需要设置java堆大小以及永久代大小,避免mvn出现内存溢出的情况。windows下设置:%MAVEN_HOME%inmvn.cm...
-
spark 作业提交流程
https://blog.csdn.net/jediael_lu/article/details/76735217
-
PyCharm搭建Spark开发环境 + 第一个pyspark程序
一, PyCharm搭建Spark开发环境Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。参照这个配置本...
-
开发 openfire + spark + smack 有关问题,坐等大神
c_a_3();开发 openfire + spark + smack 问题,坐等大神 我用下面的很简单的代码给spark上的levin发送Howdy消息,为什么spark端收不到呢? XMPPConnection connection = new XMPPConnection("localho...
-
Spark常用算子-value数据类型的算子
package com.test;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List;import java.util.Map;import org.ap...
-
Spark常用算子-KeyValue数据类型的算子
package com.test;import java.util.ArrayList;import java.util.List;import java.util.Map;import org.apache.spark.Partitioner;import org.apache.spark.Spa...
-
Spark-运行时架构
Spark运行时架构在分布式环境下,Spark集群采用的时主/从结构。在一个Spark集群中,有一个节点负责*协调,调度各个分布式工作节点。这个*协调节点被称为驱动器(Driver),与之对应的工作节点被称为执行器节点(executor).驱动器节点可以和大量的执行器节点进行通信,它们也都作为独...
-
spark-submit [options]
执行时需要传入的参数说明如下:Usage: spark-submit [options] <app jar | python file> [app options]参数名称含义--master MASTER_URL可以是spark://host:port, mesos://host:po...
-
spark-shell --conf
1 spark-shell --conf -h 2 Usage: ./bin/spark-shell [options] 3 4 Options: 5 --master MASTER_URL spark://host:port, mesos://host:port, yar...
-
SPARK 中 DriverMemory和ExecutorMemory
spark中,不论spark-shell还是spark-submit,都可以设置memory大小,但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字上大概可以猜出大概。具体就是说driver memory并不是master分配了多...
-
Spark总结
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分...
-
Spark之Action算子
Spark算子分为两大类,本文介绍Action类算子。(1)reduce算子 按照官网的解释,传入的参数是一个函数,一个双参数,返回值唯一的函数,建议,该函数是可交换的,是可联合的,如此,才能实现正确的并行计算。这里的函数,我平时用过加法操作,最大值操作,最小值操作;记得大数据里提过这个概...
-
Spark构成
RDDSpark基本的数据结构叫弹性分布式数据集(Resilient Distributed Datasets,简称RDD).概念: 一个分布于集群节点的只读数据集合,并以容错的、并行的方式进行维护. 为了解决MapReduce的性能问题,Spark使用RDD作为分布式程序的工作集合,它...
-
spark集群环境主机日志文件太多,超出了ext3文件系统一级子目录的个数默认为31998(个),准确地说是32000个,导致集群不正常
2016-12-02问题:spark集群环境主机日志文件太多,超出了ext3文件系统一级子目录的个数默认为31998(个),准确地说是32000个,导致集群不正常解决方案:手动情况日志文件,并修改配置文件:/home/mr/spark/conf/spark-defaults.conf使spark.w...
您的位置:首页 > 标签 “spark” 相关文章