[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Парсинг нескольких страниц
shurik330
Здравствуйте.

$result = mysql_query("SELECT href FROM table");
$row = mysql_fetch_array($result);
do {
echo $row["href"];
}
while ($row = mysql_fetch_array($result));

Я вытащил из базы все ссылки на описание товаров.
Теперь мне нужно по каждой ссылки спарсить описание товара
Если делать так:

require_once("simpledom/simple_html_dom.php");

$result = mysql_query("SELECT href FROM table");
$row = mysql_fetch_array($result);
do {

$sait = file_get_contents('$row["href"]');

$html = new simple_html_dom(); // создаем объект

$html->load($sait); //загружаем HTML-код

$elements = $html->find(".class_name");
$i = 0;
$discription = array();

foreach($elements as $element) {
$discription[$i]['href'] = $element->plaintext;
$i++;
}

for($i=0; $i<sizeof($books); $i++){
//ЗАПИСЬ ОПИСАНИЯ В БАЗУ
}

}

while ($row = mysql_fetch_array($result));

то выдает следующее
Warning: file_get_contents($row["href"]) [function.file-get-contents]: failed to open stream: No such file or directory in /home/test.ru/discrip.php on line 21
Подскажите, как можно правильно спарсить информацию с нескольких страниц (страниц от 200 до 500)?
Спасибо.




Спустя 3 минуты, 48 секунд (17.12.2011 - 13:51) Игорь_Vasinsky написал(а):
у тя ссылки в каком виде храняться?

а правильно - это с multi curl - http://www.vasinsky.ru/

Спустя 10 минут, 57 секунд (17.12.2011 - 14:02) shurik330 написал(а):
Цитата (Игорь_Vasinsky @ 17.12.2011 - 10:51)
у тя ссылки в каком виде храняться?

а правильно - это с multi curl  - http://www.vasinsky.ru/

абсолютно все ссылки следующего вида:

http://www.sait.ru/deal/armand...

Спустя 6 минут, 44 секунды (17.12.2011 - 14:09) Игорь_Vasinsky написал(а):
проверь в каком виде они у тя из бд вылазят т.к.
Цитата
Warning: file_get_contents($row["href"]) [function.file-get-contents]: failed to open stream: No such file or directory

говорит что по адресу нет никого, переехали все.

Спустя 19 минут, 49 секунд (17.12.2011 - 14:28) shurik330 написал(а):
Цитата (Игорь_Vasinsky @ 17.12.2011 - 11:09)
проверь в каком виде они у тя из бд вылазят т.к.
Цитата
Warning: file_get_contents($row["href"]) [function.file-get-contents]: failed to open stream: No such file or directory

говорит что по адресу нет никого, переехали все.

выводит также через http:\\..
Я убрал кавычки одинарные
$sait = file_get_contents($row["href"]);
теперь выдает :
Fatal error: Maximum execution time of 30 seconds exceeded in /home/ektvvi/test.ru/simpledom/simple_html_dom.php on line 927

Спустя 9 минут, 22 секунды (17.12.2011 - 14:38) Игорь_Vasinsky написал(а):
http:// wink.gif

... ну что тут сказать, не успевает скрипт отработать в положенное время.

говорю же - multi curl () нужен

Спустя 5 минут, 48 секунд (17.12.2011 - 14:44) shurik330 написал(а):
Цитата (Игорь_Vasinsky @ 17.12.2011 - 11:38)
http:// wink.gif

... ну что тут сказать, не успевает скрипт отработать в положенное время.

говорю же - multi curl () нужен

А что теперь можно сделать?

Спустя 34 минуты, 45 секунд (17.12.2011 - 15:18) Игорь_Vasinsky написал(а):
получать данные не file_get_contents а с помощью мультикурла

Спустя 32 минуты, 13 секунд (17.12.2011 - 15:50) shurik330 написал(а):
Цитата (Игорь_Vasinsky @ 17.12.2011 - 12:18)
получать данные не file_get_contents а с помощью мультикурла

А как??
Можете дать ссылку на мануал??

Спустя 33 минуты, 15 секунд (17.12.2011 - 16:24) Игорь_Vasinsky написал(а):
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.