.net4.5中的HttpClinet是个非常强大的类,但是在最近实际项目运用中发现了些很有意思的事情。
起初我是这样用的:
using (var client = new HttpClient()) { }
但是发现相较于传统的HttpRequest要慢上不少,后来查阅资料,发现HttpClient不应该每使用一次就释放,因为socket是不能及时释放的,需要把HttpClient作为静态的来使用。
private static readonly HttpClient Client = new HttpClient();
再来后在使用过程当中需要密集的发送GET请求,但是总感觉慢,用fiddler查看,发现每次请求只并发了2次,代码是用semaphoreSlim信号量来控制的,最大数量为10。而电脑的配置为r5 1600,系统为win7 x64,按照道理来说并发10是没问题的,考虑到是否因为 ServicePointManager.DefaultConnectionLimit 限制了并发的数量,我修改了 ServicePointManager.DefaultConnectionLimit 的值为100,再次运行程序发现并发的数量还是2,于是上stackoverflow找到了这篇文章:
https://stackoverflow.com/questions/16194054/is-async-httpclient-from-net-4-5-a-bad-choice-for-intensive-load-applications
根据上面文章所讲,似乎HttpClient是不遵守ServicePointManager.DefaultConnectionLimit的,并且在密集应用中HttpClient无论是准确性还是效率上面都是低于传统意义上的多线程HttpRequest的。但是事实确实是这样的吗?如果真的是要比传统的HttpRequest效率更为底下,那么巨硬为什么要创造HttpClient这个类呢?而且我们可以看到在上面链接中,提问者的代码中HttpClient是消费了body的,而在HttpRequest中是没有消费body的。带着这样的疑问我开始了测试。
var tasks = Enumerable.Range(1, 511).Select(async i => { await semaphoreSlim.WaitAsync(); try { var html = await Client.GetStringAsync($"http://www.fynas.com/ua/search?d=&b=&k=&page={i}"); var doc = parser.Parse(html); var tr = doc.QuerySelectorAll(".table-bordered tr:not(:first-child) td:nth-child(4)").ToList(); foreach (var element in tr) { list.Enqueue(element.TextContent.Trim()); } doc.Dispose(); } finally { semaphoreSlim.Release(); } });
上面这段代码,是采集一个UserAgent大全的网站,而我的HttpClient及ServicePointManager.DefaultConnectionLimit是这样定义的:
static Program() { ServicePointManager.DefaultConnectionLimit = 1000; } private static readonly HttpClient Client = new HttpClient(new HttpClientHandler(){CookieContainer = new CookieContainer()});
经过多次试验,我发现,HttpClient是遵守了ServicePointManager.DefaultConnectionLimit的并发量的,默认还是2,大家仔细观察一下不难发现其实HttpClient是优先于ServicePointManager.DefaultConnectionLimit设置的,也就是说HttpClient比ServicePointManager.DefaultConnectionLimit要先实例化,接下来我把代码修改为这样:
static Program() { ServicePointManager.DefaultConnectionLimit = 1000; Client = new HttpClient(new HttpClientHandler() { CookieContainer = new CookieContainer() }); } private static readonly HttpClient Client;
然后再次运行,打开fiddler进行监视,发现这个时候程序就能够正常的进行并发10来访问了。
而HttpClient中的HttpMessagehandle也是一个非常有趣的地方,我们可以进行实际的情况来进行包装一下HttpMessageHandle,比如下面这段代码实现了访问失败进行重试的功能:
public class MyHttpHandle : DelegatingHandler { public MyHttpHandle(HttpMessageHandler innerHandler):base(innerHandler) { } protected override async Task<HttpResponseMessage> SendAsync(HttpRequestMessage request, CancellationToken cancellationToken) { for (int i = 0; i < 2; i++) { var response = await base.SendAsync(request, cancellationToken); if (response.IsSuccessStatusCode) { return response; } else { await Task.Delay(1000, cancellationToken); } } return await base.SendAsync(request, cancellationToken); } }
在实例化HttpClient的时候,把我们定义的handle传递进去:
private static readonly HttpClient Client = new HttpClient(new MyHttpHandle(Handler))
这样就实现了总共进行三次访问,其中任意一次访问成功就返回成功的结果,如果第二次访问还没成功就直接返回第三次访问的结果。