利用HtmlAgilityPack库进行HTML数据抓取

时间：2015-06-09 21:33:45 阅读：158 评论：0 收藏：0 [点我收藏+]

标签：

主要介绍基于XPATH的文本分析方式的实现，代码如下：

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

using HtmlAgilityPack;
namespace MyIdea.Spider
{
    class Program
    {
        static void Main(string[] args)
        {
            GetDataFromFile();
            GetDataFromUrl();
            Console.ReadKey();
        }

        static void GetDataFromFile()
        {
            HtmlDocument doc = new HtmlDocument();
            doc.Load(AppDomain.CurrentDomain.BaseDirectory.Replace(@"bin\Debug","") + "/test.html");
            Console.Write("==================html文件解析结果(test1)==================\n");
            Console.Write(string.Format("div节点2的内容：{0}\n", doc.DocumentNode.SelectNodes("/html/body/div/div")[1].InnerText));
            Console.Write(string.Format("div节点3中第一个div子节点内容：{0}\n\n", doc.DocumentNode.SelectNodes("/html/body/div/div/div")[0].InnerText));
        }

        static void GetDataFromUrl()
        {
            string url = "http://movie.douban.com/chart";
            string movieXpath = "/html/body/div[3]/div[1]/div/div[1]/div/div/table/tr/td[2]/div";
            HtmlWeb request = new HtmlWeb();
            HtmlDocument doc = request.Load(url);

            HtmlNodeCollection movieItems = doc.DocumentNode.SelectNodes(movieXpath);
            Console.Write("==========豆瓣电影排行榜页面电影信息解析结果(test2)==========\n");
            foreach (HtmlNode item in movieItems)
            {
                string title = item.Descendants("a").First().InnerText.Replace(" ","").Replace("\n","");
                string introduce = item.Descendants("p").First().InnerText.Replace(" ", "").Replace("\n", "");
                Console.WriteLine("\n<片名>："+title);
                Console.WriteLine("<介绍>：" + introduce);
            }
        }
    }
}

技术分享

解析结果

技术分享

利用HtmlAgilityPack库进行HTML数据抓取

标签：

原文地址：http://www.cnblogs.com/huangzelin/p/4564380.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行