spark本地跑一个自己写的dbscan算法,数据量稍微大一点就一直卡在这个地方,该怎么办?

spark本地跑一个自己写的dbscan算法,数据量稍微大一点就一直卡在这个地方,该怎么办?

问题描述:

1000条的时候可以跑得动,数据量1w条左右就一直卡在这个地方,要好长时间才能跑完

 

dbscan确实在样本大的时候时间开销也很大,这是算法本身决定的,但有很多改进的办法。

您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632

试试思路:不再计算两两样本的距离,改为选定一小部分初始样本集,只计算所有样本到初始样本集的距离