C#中使用正则表达式提取超链接地址的集中方法

时间：2014-07-29 17:24:42 阅读：267 评论：0 收藏：0 [点我收藏+]

一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。

Regex reg = new Regex(@"(?is)<a[^>]*?href=([‘""]?)(?<url>[^‘""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>");
MatchCollection mc = reg.Matches(yourStr);
foreach (Match m in mc)
{
  richTextBox2.Text += m.Groups["url"].Value + "\n";//得到href值
  richTextBox2.Text += m.Groups["text"].Value + "\n";//得到<a><a/>中间的内容
    }
方法2:
<PRE class="brush: c-sharp;">Regex r;
Match m;
r = new Regex("href\\s*=\\s*(?:\"(?<1>[^\"]*)\"|(?<1>\\S+))",
RegexOptions.IgnoreCase|RegexOptions.Compiled);
for (m = r.Match(inputString); m.Success; m = m.NextMatch())
{
Console.WriteLine("Found href " + m.Groups[1] + " at " + m.Groups[1].Index);
}
</PRE>

方法3：提取img src的
<PRE class="brush: c-sharp;">Regex reg = new Regex(@"(?i)<img[^>]*?\ssrc\s*=\s*([‘""]?)(?<src>[^‘""\s>]+)\1[^>]*>");
MatchCollection mc = reg.Matches(yourStr);
foreach (Match m in mc)
{    Console.Write(m.Groups["src"].Value + "\n");
}
</PRE>

方法4：
提取img src
<PRE class="brush: c-sharp;">
/// <summary>
/// 获取Img的路径
/// </summary>
/// <param name="htmlText">Html字符串文本</param>
/// <returns>以数组形式返回图片路径</returns>
    public static string[] GetHtmlImageUrlList(string htmlText)
  {
   Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""‘]?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""‘<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);
   //新建一个matches的MatchCollection对象保存匹配对象个数(img标签)
   MatchCollection matches = regImg.Matches(htmlText);
   int i = 0;
   string[] sUrlList = new string[matches.Count];
   //遍历所有的img标签对象
   foreach (Match match in matches)
    {
    //获取所有Img的路径src,并保存到数组中
    sUrlList[i++] = match.Groups["imgUrl"].Value;
    }
         return sUrlList;
   }</PRE>

C#中使用正则表达式提取超链接地址的集中方法,布布扣,bubuko.com

C#中使用正则表达式提取超链接地址的集中方法

标签：使用 io for cti html ar line htm

原文地址：http://www.cnblogs.com/xuxiaoshuan/p/3875541.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行