数据分析常用模块及安装顺序 python离线包下载地址 python离线安装外部依赖包

官方网址:https://pypi.org/

具体地址:
https://pypi.org/project/pdfconv/ https://pypi.org/search/?q=major&o=

python常用模块使用地址

https://www.cnblogs.com/qinyujie/p/11608643.html#numpy-%E6%A8%A1%E5%9D%97

python离线安装外部依赖包

#网址https://www.cnblogs.com/sunyllove/p/9888955.html

 1.制作requirement.txt

  pip freeze > requirement.txt

内网安装外部依赖包办法:

例如:安装pytest包得时候会顺带安装pytest依赖包

离线下载安装包
下载单个离线包 - pip download -d your_offline_packages <package_name>
批量下载离线包 - pip download -d your_offline_packages -r requirements.txt
 离线安装
安装单个离线包 - pip install --no-index --find-links=/your_offline_packages/ package_name
批量安装离线包 - pip install --no-index --find-links=/your_offline_packages/ -r requirements.txt

安装时一定要注意是否具有依赖性!!!

安装离线

首先切换到安装包的目录下,然后
pip install  package.xxx.whl
或pip install package.xx.tar.gz

pip install msgpack

pip install html5lib

pip install --upgrade pandas

pip install jupyter_contrib_nbextensions

(1)numpy:(科学计算)高效处理数据,提供数组支持,很多模块都依赖它,是一个基础。

(2)pandas:数据探索和数据分析(两个重要的数据结构series 和dataframe)

(3)matplotlib:作图模块,可视化

(4)scipy:主要进行数值计算,支持矩阵计算,高等数学等数据处理,如积分,微分方程等

(5)statsmodels:统计分析

(6)Gensim:文本挖掘

(7)sklearn:机器学习

(8)keras、TensorFlow:深度学习

python在数据科学方面需要用到的库:

a。Numpy:科学计算库。提供矩阵运算的库。

b。Pandas:数据分析处理库

c。scipy:数值计算库。提供数值积分和常微分方程组求解算法。提供了一个非常广泛的特定函数集合。

d。Matplotlib:数据可视化库

e。Scikit-learn:机器学习库

安装顺序如下:

1.pip install numpy

2.pip install pandas

3.pip install scipy

(sudo apt-get install libatlas-base-dev gfortran //这一步是后面安装scipy所必需的. 备注:这个我没有先安装,直接就安装scipy)

4.pip install matplotlib

(安装matplotlib之前首先安装libpng。下载地址:http://pan.baidu.com/s/1o80C5Jk,解压进入该文件夹,输入python install setup.py。

安装freetype,下载地址:http://pan.baidu.com/s/1dE5yvbr,解压进入该文件夹,输入python install setup.py。

对于freetype.tar.bz2的包,先进行安装再解压,命令:yum install bzip2,bunzip2 freetype-2.6.3.tar.bz2,tar -xvf freetype-2.6.3.tar)

5.pip install -U scikit-learn

官方网址:https://pypi.org/

具体地址:
https://pypi.org/project/pdfconv/ https://pypi.org/search/?q=major&o=