标签:现在 abd dom browser 模拟浏览器 学习 size 网页 ber
1,背诵单词:slender修长的,细长的 drift漂,漂流(物) diameter 直径 submarine 潜水艇 cocaine可卡因 plate金属板,片;盘子 philosophy 哲学,哲理 destiny 命运 machinery(总称)机器,机械 entail 使承担;需要 twist捻;拧;扭曲 massacre残杀,集体屠杀 integrity正直,诚实 clue线索,暗示 riddle谜,谜语 hound 猎狗;卑鄙的人 trim整齐的,整洁的 guilt 罪过,内疚 abdomen 腹 allocate 分配,分派;拨给 provision供应给养 magnificent华丽的,高尚的 liable有...倾向的
2,做爬取北京信件网页内容并学习Java爬虫使用htmlunit观看视频:https://www.bilibili.com/video/av62605696
htmlunit模拟浏览器:WebClient webClient=
new
WebClient(BrowserVersion.FIREFOX_52)
获取指定元素:1,通过getElementxxx方法获取 2,使用getByXpath()方法获取
对解析页面设置:
webClient.getOptions().setCssEnabled(
false
);
// 取消css支持
webClient.getOptions().setJavaScriptEnabled(
false
);
// 取消javascript支持
3,遇到的问题:北京信件的分页功能是用Ajax技术实现的,现在不知道通过爬取Ajax获取下一页数据,
4,明天计划:继续将爬取的数据进行分析并学习hive的使用
标签:现在 abd dom browser 模拟浏览器 学习 size 网页 ber
原文地址:https://www.cnblogs.com/lq13035130506/p/12297319.html