$url = "http://phpforum.su";
$html = file_get_contents($url);
preg_match_all("/<[Aa][\s]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\s]*([^ \"'>\s#]+)[^>]*>/", $html, $matches);
$urls = $matches[1];
/* Выводим все ссылки */
echo '<h1>внутренние (ведущие на этот же домен):</h1>';
for ($i = 0; $i < count($urls); $i++) {
if ($urls[$i][0] == '/') {
echo $url.$urls[$i]."<br />";
}
}
echo '<h1>внешние (ведущие на другой домен):</h1>';
for ($i = 0; $i < count($urls); $i++) {
if ($urls[$i][0] != '/') {
echo $urls[$i]."<br />";
}
}
Как исключить из кода неидексируемые ссылки? имеющие аттрибут rel="nofollow"