贝壳之家

PHP代码:获取指定URL页面中的所有链接

评分 7.7, 满分 10 分 (7 票)
Loading...

以下代码可以获取到指定URL页面中的所有链接,即所有a标签的href属性:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
// 获取链接的HTML代码
$html = file_get_contents('http://www.example.com');

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate('/html/body//a');

for ($i = 0; $i < $hrefs->length; $i++) {
   $href = $hrefs->item($i);
   $url = $href->getAttribute('href');
   echo $url.'<br />';
}

这段代码会获取到所有a标签的href属性,但是href属性值不一定是链接,我们可以在做个过滤,只保留http开头的链接地址:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
// 获取链接的HTML代码
$html = file_get_contents('http://www.example.com');

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate('/html/body//a');

for ($i = 0; $i < $hrefs->length; $i++) {
   $href = $hrefs->item($i);
   $url = $href->getAttribute('href');
   
   // 保留以http开头的链接
   if(substr($url, 0, 4) == 'http')
      echo $url.'<br />';
}
露兜
ourwindow@163.com

业余编程爱好者。

标签: php
我要提问

3 条评论

点此留言
  1. china1040

    露兜儿 我有个问题想请教你-0-

  2. 购物生活好店品

    小教程,不错

  3. OneDou

    怎么不用正则呢?

发表评论

评分 7.7, 满分 10 分 (7 票)
Loading...