spark本地跑一个自己写的dbscan算法,数据量稍微大一点就一直卡在这个地方,该怎么办?
问题描述:
1000条的时候可以跑得动,数据量1w条左右就一直卡在这个地方,要好长时间才能跑完
答
dbscan确实在样本大的时候时间开销也很大,这是算法本身决定的,但有很多改进的办法。
答
您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632
答
试试思路:不再计算两两样本的距离,改为选定一小部分初始样本集,只计算所有样本到初始样本集的距离