标签:style blog http java color os
本案例由于google每天每个账户能post20000次所以我们需要相对较长的时间来抓去google的数据信息。
主要思路:通过一定的zoom一个相对较大的zoom。我们尽可能的搜索我们的所有数据。 之后我们获取google的搜索数据如下图
我们要抓去的就是上面的小红点了。 我这边抓去全国的小区信息用一台服务器跑了20天左右将全国的小区信息基本上都抓到了。 小到县 镇 的小区信息也抓到了。 相对还是比较理想。当时分析消耗了大量的时间。 由于我需要获取这个小区名称以及地图的坐标点所以这块还是有一定的分析的技术含量的。
抓去的数据不是只有 一个页面我们需要post分页抓去。这点需要注意。代码当时只是比较简单的处理。 注重的是过程就不上传了。 给大家提供一些思路。
我们需要定义2个非常主要的google的url这两个是我们获取地址信息以及经纬度信息的关键点。
private string areaStr = "http://mt0.google.com/vt/pt?lyrs=m%40215000000&las={0}%3B{1}%3B{2}%3B{3}&z=14&ptv=1";
private string areaInfoStr = "http://mt0.google.com/vt/ft?lyrs=lmq:1000:%E5%B0%8F%E5%8C%BA|cc:CN|h:a|s:109146043351405611748|xc:14&las={0}&z=15&gl=cn&hl=zh-CN&xc=1";
程序的主要思路是将整个中国的范围包含在我们设置的区域里。 之后就程序自动拖动获取小区信息。 在抓去详细信息。
private void GetAraeInfo(string araeCode) { int zoom = 18; var objPar = new object[3]; objPar[0] = this.currentPointF.X; objPar[1] = this.currentPointF.Y; objPar[2] = zoom; wbGoogle.Document.InvokeScript("SetCenter", objPar); var latlngArr = wbGoogle.Document.InvokeScript("GetBounds").ToString().Split(‘,‘); this.subX = double.Parse(latlngArr[0]) - double.Parse(latlngArr[2]); this.subY = double.Parse(latlngArr[1]) - double.Parse(latlngArr[3]); string url = string.Format(areaStr, latlngArr[2], latlngArr[3], latlngArr[0], latlngArr[1]); GetInfo(url, araeCode); bool flag = false; while (true) { if (this.currentPointF.X > this.rightBottomPointF.X) { this.currentPointF.X = this.currentPointF.X - this.subX; } else { if (flag) { break; } this.currentPointF.Y = this.currentPointF.Y + this.subY; this.currentPointF.X = this.leftTopPointF.X; if (this.currentPointF.Y > this.rightBottomPointF.Y) { flag = true; } } //地图设置中心点 objPar[0] = this.currentPointF.X; objPar[1] = this.currentPointF.Y; objPar[2] = zoom; Console.WriteLine("X:" + this.currentPointF.X + " Y:" + this.currentPointF.Y); wbGoogle.Document.InvokeScript("SetCenter", objPar); latlngArr = wbGoogle.Document.InvokeScript("GetBounds").ToString().Split(‘,‘); url = string.Format(areaStr, latlngArr[2], latlngArr[3], latlngArr[0], latlngArr[1]); GetInfo(url, araeCode); Thread.Sleep(0); Application.DoEvents(); } }
获取html数据信息当然也是少不了的。
public static String GetHtml(string url) { try { HttpWebRequest req = HttpWebRequest.Create(url) as HttpWebRequest; req.Timeout = 30 * 1000; req.Method = "get"; req.ContentType = "application/x-www-form-urlencoded"; req.Accept = "*/*"; req.Headers.Add(HttpRequestHeader.AcceptLanguage, "zh-CN"); req.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)"; HttpWebResponse response = req.GetResponse() as HttpWebResponse; Stream stream = response.GetResponseStream(); MemoryStream buffer = new MemoryStream(); Byte[] temp = new Byte[4096]; int count = 0; while ((count = stream.Read(temp, 0, 4096)) > 0) { buffer.Write(temp, 0, count); } return System.Text.Encoding.GetEncoding("utf-8").GetString(buffer.GetBuffer());//.UTF8.GetString(); } catch { return String.Empty; } }
private void GetInfo(string url, string araeCode) { string html = GetHtml(url); if (string.IsNullOrWhiteSpace(html)) return; html = html.Substring(7, html.Length - 7); int index = html.IndexOf("]}"); var javascript = new JavaScriptSerializer(); html = html.Substring(0, index);//},{ var a = html.Split(‘,‘); List<area> areaLst = new List<area>(); for (int i = 0; i < a.Length; i = i + 5) { area area = new area(); area.id = a[i].Substring(5, a[i].Length - 6); area.zrange = a[i + 1] + a[i + 2]; area.layer = a[i + 3]; area.epoch = a[i + 4]; areaLst.Add(area); } foreach (var item in areaLst) { string tmpurl = string.Format(areaInfoStr, item.id); string insertHtml = GetHtml(tmpurl); string tmp = insertHtml; string baseStr = string.Empty; int indexTitle = tmp.IndexOf("base:"); if (indexTitle != -1) { tmp = tmp.Substring(indexTitle + 6, tmp.Length - indexTitle - 6); indexTitle = tmp.IndexOf("]"); if (indexTitle != -1) { baseStr = tmp.Substring(0, indexTitle); tmp = tmp.Substring(indexTitle, tmp.Length - indexTitle); } } List<AreaInfo> strLst = new List<AreaInfo>(); while (true) { AreaInfo areaInfo = new AreaInfo(); areaInfo.Offset = baseStr; areaInfo.AreaCode = araeCode;//行政区划码 areaInfo.ID = Guid.NewGuid(); string aStr = string.Empty; indexTitle = tmp.IndexOf("a:"); if (indexTitle != -1) { tmp = tmp.Substring(indexTitle + 3, tmp.Length - indexTitle - 3); indexTitle = tmp.IndexOf("]"); if (indexTitle != -1) { aStr = tmp.Substring(0, indexTitle); areaInfo.InnerOffset = aStr; tmp = tmp.Substring(indexTitle, tmp.Length - indexTitle); } } indexTitle = tmp.IndexOf("title:"); if (indexTitle != -1) { tmp = tmp.Substring(indexTitle + 6, tmp.Length - indexTitle - 6); //获取小区信息 indexTitle = tmp.IndexOf(","); if (indexTitle != -1) { string araeName = tmp.Substring(0, indexTitle).Replace("\\", "").Replace("\"", ""); areaInfo.Name = araeName; if (!strLst.Exists(p => p.Name == araeName)) { strLst.Add(areaInfo); //lsvAreaInfo.Items.Add(araeName); } tmp = tmp.Substring(indexTitle, tmp.Length - indexTitle); } } else { break; } Thread.Sleep(0); Application.DoEvents(); } Application.DoEvents(); Thread.Sleep(0); } }
至此我们就可以通过代码来获取google地图中你需要获取的信息。 此案例为获取全国小区信息。 当然我们需要获取其他查询的信息也是可行的。 具体的数据分析我并没用测试。但是原理应该是一样的。希望对你有帮助。
当然我的这个抓去时间主要是由于google的单用户访问次数有关。 可以购买相关的google产品获取想要的数据。
根据google地图抓去全国信息- 抓去全国小区以及新建楼盘信息,布布扣,bubuko.com
根据google地图抓去全国信息- 抓去全国小区以及新建楼盘信息
标签:style blog http java color os
原文地址:http://www.cnblogs.com/liuyunsheng/p/3840937.html