1.http://www.datakit.cn/blog/2017/02/05/t_sne_full.html，其实这个讲的一般。

http://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis/

https://zhuanlan.zhihu.com/p/57937096，讲的不错。

tsne理论学习
1.SNE原理
2.SNE求解
3.对称TSNE
4.t-SNE

这是在高维空间中，通过仿射将欧几里得距离转换为点之间的相似性的概率分布，p值越大，表示i和j之间的相似性越高，其实也就是表示欧氏距离越小了。高维空间中使用的是高斯分布。

而未知的低维空间中也建立这么一个分布，sne中使用的同样是高斯分布：

tsne理论学习
1.SNE原理
2.SNE求解
3.对称TSNE
4.t-SNE

这样的话，想让两个空间中的分布尽可能相似相等，所以使用KL散度来度量：

tsne理论学习
1.SNE原理
2.SNE求解
3.对称TSNE
4.t-SNE

而我们可以看到，KL散度它是不对称的，它是有偏向性的，所以导致了SNE也有偏向性：当p较大，而q较小时损失之较大，翻译过来也就是点在高维空间中相似度较高，但低维空间相似度较小时，损失会比较大；那么sne就会倾向于选择高维空间中距离较远的，而低维空间中距离较近的，所以就说它倾向于保留数据的局部结构（这个时针对于低维空间来说的）。

//但我还是有点想不通，保留这个词不应该针对已知的高维空间吗？高维空间的局部结构不就是点尽可能地相似吗？总之这里感觉很矛盾，保留疑问。