Baidu2006笔试算法题
求助:Baidu2006笔试算法题
对给定的上亿条无序的url,请按照domain、site以及path分别排序,并请指出排序过程中可能会遇到的哪些问题?如何提高效率?
例如:http://www.baidu.com/path/about.html,domain、site以及path的定义分别如下:
Domain:baidu.com
Site:www.baidu.com
Path: www.baidu.com/path
上亿条?
怎么处理?内存吃得销吗? 是采用内部排序还是外部排序?
------解决方案--------------------
B+树?
------解决方案--------------------
看不懂,帮你顶
------解决方案--------------------
awk....
------解决方案--------------------
必然是外排序,还没看到那里,过两天再想想看。现在的想法是,按Domain分类,Domain内再分site,最后对path排序->site排序->domain排序,其中同一site的path排序可以在同一台机器上做,而且每个site内的path、site排序、domain排序是可以并行的。然后对具体的某个排序再选择合适的外排序算法。
对给定的上亿条无序的url,请按照domain、site以及path分别排序,并请指出排序过程中可能会遇到的哪些问题?如何提高效率?
例如:http://www.baidu.com/path/about.html,domain、site以及path的定义分别如下:
Domain:baidu.com
Site:www.baidu.com
Path: www.baidu.com/path
上亿条?
怎么处理?内存吃得销吗? 是采用内部排序还是外部排序?
------解决方案--------------------
B+树?
------解决方案--------------------
看不懂,帮你顶
------解决方案--------------------
awk....
------解决方案--------------------
必然是外排序,还没看到那里,过两天再想想看。现在的想法是,按Domain分类,Domain内再分site,最后对path排序->site排序->domain排序,其中同一site的path排序可以在同一台机器上做,而且每个site内的path、site排序、domain排序是可以并行的。然后对具体的某个排序再选择合适的外排序算法。