“spark”相关文章

Spark读取txt , 并结构化后执行 SQL操作

1.准备 idea , 配置好scala ,需要有 Spark sql包 !注意:如果自己Spark能跑 ,就不要复制我的POM了,代码能直接用. ---------------贴一下POM , 我用的是Spark版本是 2.4.3, Spark_core以及sql是2.11<?xml ...

2023-11-29 16:29:10

Spark之spark.sql spark-shell之spark.sql

目录spark-shell之spark.sql数据结构订单表: badou.orders字段(string)行为表: badou.priors字段(string)登录spak-shell练习product 统计/特征统计product被购买的数据量统计product被reordered的数量(再次购...

2023-11-29 11:59:14

spark-submit介绍

参考资料: https://blog.csdn.net/qingqing7/article/details/79103297

2023-11-29 11:53:15

Spark笔记-treeReduce、reduce、reduceByKey

参考资料：http://*.com/questions/32281417/understadning-treereduce-in-sparkhttp://*.com/questions/34078430/treereduce-vs-reducebyke...

2023-11-29 11:01:15

Spark Executor Driver资源调度小结【转】

一、引子在Worker Actor中，每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程，Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseG...

2023-11-29 10:54:47

Spark学习笔记--Graphx

浅谈Graphx: http://blog.csdn.net/shangwen_/article/details/38645601Pregel: http://blog.csdn.net/shangwen_/article/details/38479835Bagel: http://ju.outof...

2023-11-29 10:46:52

Spark笔记--使用Maven编译Spark源码(windows)

1. 官网下载源码 source code，地址： http://spark.apache.org/downloads.html2. 使用maven编译：注意在编译之前，需要设置java堆大小以及永久代大小，避免mvn出现内存溢出的情况。windows下设置：%MAVEN_HOME%inmvn.cm...

2023-11-29 10:39:14

spark 作业提交流程

https://blog.csdn.net/jediael_lu/article/details/76735217

2023-11-29 09:23:05

PyCharm搭建Spark开发环境 + 第一个pyspark程序

一, PyCharm搭建Spark开发环境Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6通常情况下，Spark开发是基于Linux集群的，但这里作为初学者并且囊中羞涩，还是在windows环境下先学习吧。参照这个配置本...

2023-11-28 14:11:14

开发 openfire + spark + smack 有关问题，坐等大神

c_a_3();开发 openfire + spark + smack 问题，坐等大神我用下面的很简单的代码给spark上的levin发送Howdy消息，为什么spark端收不到呢？ XMPPConnection connection = new XMPPConnection("localho...

2023-11-28 09:43:39

Spark常用算子-value数据类型的算子

package com.test;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List;import java.util.Map;import org.ap...

2023-11-26 14:31:18

Spark常用算子-KeyValue数据类型的算子

package com.test;import java.util.ArrayList;import java.util.List;import java.util.Map;import org.apache.spark.Partitioner;import org.apache.spark.Spa...

2023-11-26 14:17:47

Spark-运行时架构

Spark运行时架构在分布式环境下，Spark集群采用的时主/从结构。在一个Spark集群中，有一个节点负责*协调，调度各个分布式工作节点。这个*协调节点被称为驱动器(Driver)，与之对应的工作节点被称为执行器节点(executor).驱动器节点可以和大量的执行器节点进行通信，它们也都作为独...

2023-11-26 13:56:18

spark-submit [options]

执行时需要传入的参数说明如下：Usage: spark-submit [options] <app jar | python file> [app options]参数名称含义--master MASTER_URL可以是spark://host:port, mesos://host:po...

2023-11-26 12:53:37

spark-shell --conf

1 spark-shell --conf -h 2 Usage: ./bin/spark-shell [options] 3 4 Options: 5 --master MASTER_URL spark://host:port, mesos://host:port, yar...

2023-11-26 12:50:24

SPARK 中 DriverMemory和ExecutorMemory

spark中，不论spark-shell还是spark-submit，都可以设置memory大小，但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字上大概可以猜出大概。具体就是说driver memory并不是master分配了多...

2023-11-26 12:44:52

Spark总结

Spark简介 spark 可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。 spark发展迅猛，框架比hadoop更加灵活实用。减少了延时处理，提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分...

2023-11-25 10:42:41

Spark之Action算子

Spark算子分为两大类，本文介绍Action类算子。（1）reduce算子按照官网的解释，传入的参数是一个函数，一个双参数，返回值唯一的函数，建议，该函数是可交换的，是可联合的，如此，才能实现正确的并行计算。这里的函数，我平时用过加法操作，最大值操作，最小值操作；记得大数据里提过这个概...

2023-11-25 10:24:02

Spark构成

RDDSpark基本的数据结构叫弹性分布式数据集(Resilient Distributed Datasets,简称RDD).概念: 一个分布于集群节点的只读数据集合,并以容错的、并行的方式进行维护. 为了解决MapReduce的性能问题,Spark使用RDD作为分布式程序的工作集合,它...

2023-11-24 08:33:38

spark集群环境主机日志文件太多，超出了ext3文件系统一级子目录的个数默认为31998(个)，准确地说是32000个，导致集群不正常

2016-12-02问题：spark集群环境主机日志文件太多，超出了ext3文件系统一级子目录的个数默认为31998(个)，准确地说是32000个，导致集群不正常解决方案：手动情况日志文件，并修改配置文件：/home/mr/spark/conf/spark-defaults.conf使spark.w...

2023-11-24 07:57:43