Спустя 3 часа, 39 минут, 15 секунд (30.10.2011 - 09:52) T1grOK написал(а):
Да, CURL, мощная штука. Шлем http заголовки, типо мы "люди-человеки" получаем страницу. Потом с помощью регулярки разгребаем все это дело.
Спустя 38 минут, 19 секунд (30.10.2011 - 10:30) Эли4ка написал(а):
очень плохо понимаю регулярные выражения..это как реализовать??
Спустя 26 минут, 32 секунды (30.10.2011 - 10:57) m4a1fox написал(а):
Эли4ка
Ну насколько я понимаю...нужно написать такую регулярку, кот. читает только теги <img> берет их src подставляет имя сайта - получаем полный путь....и как-то наверно из скачивает....
Ну насколько я понимаю...нужно написать такую регулярку, кот. читает только теги <img> берет их src подставляет имя сайта - получаем полный путь....и как-то наверно из скачивает....
Спустя 16 минут, 11 секунд (30.10.2011 - 11:13) Эли4ка написал(а):
m4a1fox
спасибо попробую..
спасибо попробую..
Спустя 3 минуты, 26 секунд (30.10.2011 - 11:16) m4a1fox написал(а):
Да не за что...
Когда сделаешь - поделишься?
Когда сделаешь - поделишься?
Спустя 14 минут, 29 секунд (30.10.2011 - 11:31) Эли4ка написал(а):
m4a1fox
да..если получится..
да..если получится..
Спустя 25 минут (30.10.2011 - 11:56) T1grOK написал(а):
Я начинал изучать парсинг с этого примера.http://php5lab.com/blog59.html
Спустя 14 минут, 31 секунда (30.10.2011 - 12:10) Гость Дмитрий написал(а):
Зачем писать регулярки, если уже есть готовые решения?
HTML парсер на PHP
HTML парсер на PHP
// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
// Find all images
foreach($html->find('img') as $element)
echo $element->src . '<br>';
Спустя 24 минуты, 34 секунды (30.10.2011 - 12:35) vital написал(а):
Вот вам парсер, к-й рекурсивно скачивает картинки с сайта. Не вашего, но суть понятна. Все что вам надо - подправить регулярку. Писал когда-то от нефиг делать.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title></title>
</head>
<body>
<?php
error_reporting(E_ALL);
ini_set('display_errors', 'On');
ini_set('max_execution_time',0);
function getImg($url) //ф-я которая будет скачивать картинку, ей передаем урл страницы
{
$ch = curl_init($url); //инициализируем курл с кучей разных настроек
curl_setopt($ch, CURLOPT_USERAGENT, 'User-Agent: Mozilla/4.0 (compatible; MSIE 5.01; Widows NT)');
curl_setopt($ch, CURLOPT_REFERER, 'google.com');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);
curl_setopt($ch, CURLOPT_POST, 0);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_NOBODY, 0);
$res = curl_exec($ch); //вызываем
preg_match('#\<img alt\="Cyanide and Happiness, a daily webcomic" src\=\"([^\"]+)\>#', $res, $match); //здесь регулярка к-я ищет теги <img> в исходнике страницы.
/* у меня такой был только один, если у вас много то вам надо использовать preg_match_all, к-я вернет массив совпадений, после чего форич по нему*/
//Дальше проверяем есть ли совпадение(в случае прег_матч_олл этого не надо)
if (isset($match[1]))
{
$filename = 'comics/' . substr($match[1], strrpos($match[1], '/') + 1); //составляем им файла
if (!file_exists($filename)) //и если его не сущевствует
{
file_put_contents($filename, file_get_contents($match[1])); //сохраняем на диск
}
}
//здесь я искал ссылку на следующую страницу, вам это не нужно по идее
preg_match('#\<a rel\="prev" href\=\"/comics/([0-9]+)/\"\>< Previous\</a\>#', $res, $match);
if (isset($match[1]) && is_numeric($match[1]))
{
echo 'last:'. $match[1].'<br/>';
getImg('http://www.explosm.net/comics/'.$match[1].'/');
}
curl_close($ch);
}
getImg("http://www.explosm.net/comics/134/");
?>
</body>
</html>
Спустя 23 минуты, 40 секунд (30.10.2011 - 12:59) killer8080 написал(а):
как вариант
$url = 'http://yandex.ru';
$content = file_get_contents($url);
preg_match_all('#<img.*src="(.+)".*>#isU', $content, $match);
echo '<pre>'.htmlspecialchars(print_r($match[1],1)).'</pre>';
Спустя 17 часов, 2 минуты, 10 секунд (31.10.2011 - 06:01) Эли4ка написал(а):
спасибо большое.