python大数据测试学习总结

最近,工作中要测试数据加工结果表和原表,原先没接触过这块的知识,学习总结下相关知识和概念:

1.环境安装

 Java(JDK8),python3.6.5, pycharm ,idea , pyspark

2.jpuyter概念理解:

      Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。在本文中,我们将介绍 Jupyter notebook 的主要特性,以及为什么对于希望编写漂亮的交互式文档的人来说是一个强大工具。
     Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等

本地网页jpuyter new 一个python时报错,多半是权限问题!

3.Anaconda与Pycharm的区别?

python自身缺少numpy、matplotlib、scipy、scikit-learn....等一系列包,需要我们安装pip来导入这些包才能进行相应运算,在cmd终端输入:pip3 install numpy就能安装numpy包了。

每次都额外安装所需要的包略麻烦,这时候我们可以采用anaconda了。anaconda是一个python发行版,包含了大量的包,使用anaconda无需再去额外安装所需包

PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发
注意:安装完anaconda,就不用在安装python了。
4.spark
Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口
spark-shell: 启动了 Spark 的 scala 解释器.
pyspark: 启动了 Spark 的 python 解释器.
sparkR: 启动了 Spark 的 R 解释器.
5.scala
Scala是一门多范式的编程语言,一种类似并集成面向对象编程函数式编程的各种特性,Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于Java ME, CLDC(Java Platform, Micro Edition Connected Limited Device Configuration)上。
6.groovy
Groovy 是 用于Java虚拟机的一种敏捷的动态语言,它是一种成熟的面向对象编程语言,既可以用于面向对象编程,又可以用作纯粹的脚本语言。使用该种语言不必编写过多的代码,同时又具有闭包和动态语言中的其他特性。
 
java,c++,c,python,go,php,shell,scala,groovy