[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: php парсер
Страницы: 1, 2
mmsgold
да нет я проверил скрипт и ушли они в папку www.... к оригинальным названиям приклеилось впереди слово test, вот донор http://afisha.serpuhov.biz/
Игорь_Vasinsky
покажи свой код.

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
mmsgold

<?php
//Подключаем фаил с реализацией парсера. Этот файл находиться в архиве на офсайте
require 'simple_html_dom.php';
//Открываем html документ
$html = file_get_html('http://afisha.serpuhov.biz');
//Обращаться к элементам странциы можно используя селекторы, как, например, в css,
//используя при этом функцию find. Данная функция возвращает массив найденыых элементов
//Так если нужно получить все заголовки h2 с классом art-PostHeader, то сделать это можно так

foreach ($html->find('img') as $e) {
$server='z:\home\1-afisha-rest.ru\www\test\' ;
file_put_contents($server.basename($e->src) , file_get_contents($e->src));
}
?>


вот откуда взял скрипт
http://shatov.ru/blog/other/php-html-parser.html
Игорь_Vasinsky
$server = $_SERVER['DOCUMENT_ROOT'] ;
$donor = 'http://afisha.serpuhov.biz';

foreach ($html->find('img') as $e) {
file_put_contents($server.basename($e->src) , file_get_contents($donor.$e->src));
}


_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
mmsgold
неа)
Warning: file_get_contents() [function.file-get-contents]: php_network_getaddresses: getaddrinfo failed: ���� ���� ����������. in Z:\home\1-afisha-rest.ru\www\test.php on line 12
Игорь_Vasinsky
$server = $_SERVER['DOCUMENT_ROOT'] ;
$donor = 'http://afisha.serpuhov.biz';

foreach ($html->find('img') as $e) {
echo $donor.$e->src.'<br/>';
}


что кажет?

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Игорь_Vasinsky
ну видишь - адреса рабочие.

$server = $_SERVER['DOCUMENT_ROOT'] ;
$donor = 'http://afisha.serpuhov.biz';

foreach ($html->find('img') as $e) {
if(file_get_contents($donor.$e->src)){
file_put_contents($server.basename($e->src) , file_get_contents($donor.$e->src));
}
}




_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
mmsgold
сработало вытащило картинки в корень сайта, но почему всем добавило вначале к именам www.... и все равно вывалило
Warning: file_get_contents() [function.file-get-contents]: php_network_getaddresses: getaddrinfo failed: ���� ���� ����������. in Z:\home\1-afisha-rest.ru\www\test.php on line 13

Warning: file_get_contents(http://afisha.serpuhov.bizpa.jpg) [function.file-get-contents]: failed to open stream: php_network_getaddresses: getaddrinfo failed: ���� ���� ����������. in Z:\home\1-afisha-rest.ru\www\test.php on line 13

Warning: file_get_contents() [function.file-get-contents]: php_network_getaddresses: getaddrinfo failed: ���� ���� ����������. in Z:\home\1-afisha-rest.ru\www\test.php on line 13

Warning: file_get_contents(http://afisha.serpuhov.biziif.jpg) [function.file-get-contents]: failed to open stream: php_network_getaddresses: getaddrinfo failed: ���� ���� ����������. in Z:\home\1-afisha-rest.ru\www\test.php on line 13
и т.д.

Игорь_Vasinsky
какие то файлы не грузятся.

www...

глянь как бейснейм срабатывает

$server = $_SERVER['DOCUMENT_ROOT'] ;
$donor = 'http://afisha.serpuhov.biz';

foreach ($html->find('img') as $e) {
basename($e->src).'<br/>';
}


_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
mmsgold
нормально выводит названия
вот:

index_v2_095.png
pa.jpg
iif.jpg
212x118.jpg
t716.jpg
afisha_43.jpg
afisha_45.jpg
t715.jpg
afisha_43.jpg
afisha_45.jpg
t714.jpg
afisha_43.jpg
afisha_45.jpg
t713.jpg
afisha_43.jpg
afisha_45.jpg
t712.jpg
afisha_43.jpg
afisha_45.jpg
t711.jpg
и т.д.
Игорь_Vasinsky
Цитата
http://afisha.serpuhov.bizpa.jpg
http://afisha.serpuhov.biziif.jpg
http://afisha.serpuhov.biz212x118.jpg


эти пути разве не смущают?

$server = $_SERVER['DOCUMENT_ROOT'] ;
$donor = 'http://afisha.serpuhov.biz/';

foreach ($html->find('img') as $e) {
if(file_get_contents($donor.$e->src)){
file_put_contents($server.basename($e->src) , file_get_contents($donor.ltrim($e->src, '/')));
}
}


_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
mmsgold
Warning: file_get_contents(http://afisha.serpuhov.biz/../files/img/button-treyler.png) [function.file-get-contents]: failed to open stream: HTTP request failed! HTTP/1.1 400 Bad Request in Z:\home\test2.ru\www\index.php on line 13

ругается на эту строку, картинки снова вытащил, но названия снова такие же,,,wwwt712.jpg - к примеру, хотя оригинал собственно t712.jpg

Z:\home\test2.ru\ картинки здесь + папка www (берет ее имя? уже так было с папкой тест, добавляло тест вначале файла)
Игорь_Vasinsky
Цитата
$server = $_SERVER['DOCUMENT_ROOT'] ;

на
$server = $_SERVER['DOCUMENT_ROOT'] .'/';

Цитата
http://afisha.serpuhov.biz/../files/img/button-treyler.png)

ты видишь путь???

Цитата
file_put_contents($server.basename($e->src) , file_get_contents($donor.ltrim($e->src, '/')));


file_put_contents($server.basename($e->src) , file_get_contents($donor.ltrim($e->src, '/,../')));


_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
mmsgold
Игорь сайт который я хочу парсить http://afisha.serpuhov.biz/
картинки вытищил, все норм примерно представляю как вытаскивать и заносить в базу все это.... но , не все так уж и просто картинку, заголовок я вытаскиваю,,,, а вот текст (остальной), не получается, там он без идентификаторов, цеп из тегов (по дом дереву) не срабатывает ниче не вытаскивает, может нужен другой парсер, или этот можно как то модифицировать, я где то читал что в пхп есть встроенная библиотека прасера, ну или типа того что то.... укажите путь плиз
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.