spark本地跑一个自己写的dbscan算法，数据量稍微大一点就一直卡在这个地方，该怎么办？

问题描述：

1000条的时候可以跑得动，数据量1w条左右就一直卡在这个地方，要好长时间才能跑完

答

dbscan确实在样本大的时候时间开销也很大，这是算法本身决定的，但有很多改进的办法。

答

您好，我是有问必答小助手，您的问题已经有小伙伴解答了，您看下是否解决，可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案，可以点击【采纳】按钮，给回答的小伙伴一些鼓励哦～～

ps:问答VIP仅需29元，即可享受5次/月有问必答服务，了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632

答

试试思路：不再计算两两样本的距离，改为选定一小部分初始样本集，只计算所有样本到初始样本集的距离

spark本地跑一个自己写的dbscan算法，数据量稍微大一点就一直卡在这个地方，该怎么办？

相关推荐