Baidu2006笔试算法题

求助:Baidu2006笔试算法题
对给定的上亿条无序的url,请按照domain、site以及path分别排序,并请指出排序过程中可能会遇到的哪些问题?如何提高效率? 
例如:http://www.baidu.com/path/about.html,domain、site以及path的定义分别如下: 
Domain:baidu.com 
Site:www.baidu.com 
Path: www.baidu.com/path 

上亿条?

怎么处理?内存吃得销吗? 是采用内部排序还是外部排序?




------解决方案--------------------
B+树?
------解决方案--------------------
看不懂,帮你顶
------解决方案--------------------
awk....
------解决方案--------------------
必然是外排序,还没看到那里,过两天再想想看。现在的想法是,按Domain分类,Domain内再分site,最后对path排序->site排序->domain排序,其中同一site的path排序可以在同一台机器上做,而且每个site内的path、site排序、domain排序是可以并行的。然后对具体的某个排序再选择合适的外排序算法。