• Spark读取txt , 并结构化后执行 SQL操作

    1.准备 idea , 配置好scala ,需要有   Spark sql包 !注意:如果自己Spark能跑 ,就不要复制我的POM了,代码能直接用. ---------------贴一下POM , 我用的是Spark版本是 2.4.3,  Spark_core以及sql是2.11<?xml ...

    2023-11-29 16:29:10
  • Spark之spark.sql spark-shell之spark.sql

    目录spark-shell之spark.sql数据结构订单表: badou.orders字段(string)行为表: badou.priors字段(string)登录spak-shell练习product 统计/特征统计product被购买的数据量统计product被reordered的数量(再次购...

    2023-11-29 11:59:14
  • spark-submit介绍

    参考资料: https://blog.csdn.net/qingqing7/article/details/79103297

    2023-11-29 11:53:15
  • Spark笔记-treeReduce、reduce、reduceByKey

    参考资料:http://*.com/questions/32281417/understadning-treereduce-in-sparkhttp://*.com/questions/34078430/treereduce-vs-reducebyke...

    2023-11-29 11:01:15
  • Spark Executor Driver资源调度小结【转】

    一、引子  在Worker Actor中,每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程,Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseG...

    2023-11-29 10:54:47
  • Spark学习笔记--Graphx

    浅谈Graphx: http://blog.csdn.net/shangwen_/article/details/38645601Pregel: http://blog.csdn.net/shangwen_/article/details/38479835Bagel: http://ju.outof...

    2023-11-29 10:46:52
  • Spark笔记--使用Maven编译Spark源码(windows)

    1. 官网下载源码 source code,地址: http://spark.apache.org/downloads.html2. 使用maven编译:注意在编译之前,需要设置java堆大小以及永久代大小,避免mvn出现内存溢出的情况。windows下设置:%MAVEN_HOME%inmvn.cm...

    2023-11-29 10:39:14
  • spark 作业提交流程

    https://blog.csdn.net/jediael_lu/article/details/76735217

    2023-11-29 09:23:05
  • PyCharm搭建Spark开发环境 + 第一个pyspark程序

    一, PyCharm搭建Spark开发环境Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。参照这个配置本...

    2023-11-28 14:11:14
  • 开发 openfire + spark + smack 有关问题,坐等大神

    c_a_3();开发 openfire + spark + smack 问题,坐等大神  我用下面的很简单的代码给spark上的levin发送Howdy消息,为什么spark端收不到呢?  XMPPConnection connection = new XMPPConnection("localho...

    2023-11-28 09:43:39
  • Spark常用算子-value数据类型的算子

    package com.test;import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List;import java.util.Map;import org.ap...

    2023-11-26 14:31:18
  • Spark常用算子-KeyValue数据类型的算子

    package com.test;import java.util.ArrayList;import java.util.List;import java.util.Map;import org.apache.spark.Partitioner;import org.apache.spark.Spa...

    2023-11-26 14:17:47
  • Spark-运行时架构

    Spark运行时架构在分布式环境下,Spark集群采用的时主/从结构。在一个Spark集群中,有一个节点负责*协调,调度各个分布式工作节点。这个*协调节点被称为驱动器(Driver),与之对应的工作节点被称为执行器节点(executor).驱动器节点可以和大量的执行器节点进行通信,它们也都作为独...

    2023-11-26 13:56:18
  • spark-submit [options]

    执行时需要传入的参数说明如下:Usage: spark-submit [options] <app jar | python file> [app options]参数名称含义--master MASTER_URL可以是spark://host:port, mesos://host:po...

    2023-11-26 12:53:37
  • spark-shell --conf

    1 spark-shell --conf -h 2 Usage: ./bin/spark-shell [options] 3 4 Options: 5 --master MASTER_URL spark://host:port, mesos://host:port, yar...

    2023-11-26 12:50:24
  • SPARK 中 DriverMemory和ExecutorMemory

    spark中,不论spark-shell还是spark-submit,都可以设置memory大小,但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字上大概可以猜出大概。具体就是说driver memory并不是master分配了多...

    2023-11-26 12:44:52
  • Spark总结

    Spark简介     spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。     spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。      spark核心部分...

    2023-11-25 10:42:41
  • Spark之Action算子

    Spark算子分为两大类,本文介绍Action类算子。(1)reduce算子      按照官网的解释,传入的参数是一个函数,一个双参数,返回值唯一的函数,建议,该函数是可交换的,是可联合的,如此,才能实现正确的并行计算。这里的函数,我平时用过加法操作,最大值操作,最小值操作;记得大数据里提过这个概...

    2023-11-25 10:24:02
  • Spark构成

    RDDSpark基本的数据结构叫弹性分布式数据集(Resilient Distributed Datasets,简称RDD).概念: 一个分布于集群节点的只读数据集合,并以容错的、并行的方式进行维护. 为了解决MapReduce的性能问题,Spark使用RDD作为分布式程序的工作集合,它...

    2023-11-24 08:33:38
  • spark集群环境主机日志文件太多,超出了ext3文件系统一级子目录的个数默认为31998(个),准确地说是32000个,导致集群不正常

    2016-12-02问题:spark集群环境主机日志文件太多,超出了ext3文件系统一级子目录的个数默认为31998(个),准确地说是32000个,导致集群不正常解决方案:手动情况日志文件,并修改配置文件:/home/mr/spark/conf/spark-defaults.conf使spark.w...

    2023-11-24 07:57:43