浅谈长连接keepalive和套接字重用reuse对高并发的影响

做采集系统有两年了,第一年主要的设计和代码逻辑是别人写的。但是问题很多。

第二年真正由我接手后,修复了大量的业务逻辑。

遇到的一个核心问题就是数据丢失。最近客户也在问我采集上报的机制,是否使用长连接?我自己联想到套接字的reuse问题。

由于所作的这个项目有两千万的用户量,高峰期tcp连接达到15000到30000并发是每天都会发生的事情。

开始怀疑是这个机制设计得有问题。

再仔细回忆之前学C套接字时的资料,reuse机制是服务端的监听端口时用到的参数,并不会影响客户端SDK的断开重连,实际修改thrift源码测试发现也是如此。结论是reuse只影响服务端,不影响客户端的tcp连接。

而keep alive是http1.1的机制,它是一个http数据包的报头。带有这个报头的http通信就会维持长连接,数据没有数据通信,也会发送带有keepalive报头用来保活的空连接数据包。而我所用的采集系统使用TCP连接。

所以数据丢失跟这两个细节无关。