[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: парсер
tanya12345
Парсю количество индексируемых страниц яндекса и гугла, тиц и pr, не подскажите почему не работает код:
Подскажите правильный вариант решения данной задачи!

<?

function
utf8win1251($s)
{
$out="";$c1="";$byte2=false;
for ($c=0;$c<strlen($s);$c++) {
$i=ord($s[$c]);
if ($i<=127) $out.=$s[$c];
if ($byte2) {
$new_c2=($c1&3)*64+($i&63);
$new_c1=($c1>>2)&5;
$new_i=$new_c1*256+$new_c2;
if ($new_i==1025) $out_i=168; else
if
($new_i==1105) $out_i=184; else $out_i=$new_i-848;
$out.=chr($out_i);
$byte2=false;
}
if (($i>>5)==6) {
$c1=$i;
$byte2=true;
}
}

return $out;
}





function getTIC($site)
{
$url = 'http://'.$site;
$str=file('http://bar-navig.yandex.ru/u?ver=2&show=32&url='.$url);
if ($str==false) {
$ans=false;
} else {
$is_find=preg_match("/value=\"(.\d*)\"/", join("",$str), $tic);

if ($is_find<1) {
$ans=0;
} else {
$ans=$tic[1];
}
}

return $ans;
}

function getGoogleIdx($site) //utf-8
{
// http://www.google.com/search?hl=en&q=site:blog.gtalex.ru
$buf = file_get_contents('http://www.google.com/search?hl=en&q=site:'.$site);
// of about <b>1,210,000</b> from
if (preg_match('!of\sabout\s<b>(.*?)</b>\sfrom!ism',$buf,$match)) {
return(str_replace(',','',$match[1]));
} else {
return(0);
}
}


function getYandexIdx($site) // utf-8
{
// http://yandex.ru/yandsearch?text=&site=ngs.ru&ras=1&site_manually=true
$buf = utf8win1251(file_get_contents('http://yandex.ru/yandsearch?text=&site='.$site.'&ras=1&site_manually=true'));
// нашлось 384 тыс. страниц
// нашлось 182 страницы

if (preg_match('!нашлось\s(\d+)\sответов!ism',$buf,$match)) {
return($match[1]);
}
if (preg_match('!нашлось\s(\d+)\&nbsp\;тыс\.\sответов!ism',$buf,$match)) {
return(1000*$match[1]);
}
return(0);
}

define('GMAG', 0xE6359A60);
function nooverflow($a)
{
while ($a<-2147483648)
$a+=2147483648+2147483648;
while ($a>2147483647)
$a-=2147483648+2147483648;
return $a;
}

function zeroFill ($x, $bits)
{
if ($bits==0) return $x;
if ($bits==32) return 0;
$y = ($x & 0x7FFFFFFF) >> $bits;
if (0x80000000 & $x) {
$y |= (1<<(31-$bits));
}
return $y;
}

function mix($a,$b,$c) {
$a=(int)$a; $b=(int)$b; $c=(int)$c;
$a -= $b; $a -= $c; $a=nooverflow($a); $a ^= (zeroFill($c,13));
$b -= $c; $b -= $a; $b=nooverflow($b); $b ^= ($a<<8);
$c -= $a; $c -= $b; $c=nooverflow($c); $c ^= (zeroFill($b,13));
$a -= $b; $a -= $c; $a=nooverflow($a); $a ^= (zeroFill($c,12));
$b -= $c; $b -= $a; $b=nooverflow($b); $b ^= ($a<<16);
$c -= $a; $c -= $b; $c=nooverflow($c); $c ^= (zeroFill($b,5));
$a -= $b; $a -= $c; $a=nooverflow($a); $a ^= (zeroFill($c,3));
$b -= $c; $b -= $a; $b=nooverflow($b); $b ^= ($a<<10);
$c -= $a; $c -= $b; $c=nooverflow($c); $c ^= (zeroFill($b,15));
return array($a,$b,$c);
}

function GCH($url, $length=null, $init=GMAG) {
if(is_null($length)) {
$length = sizeof($url);
}
$a = $b = 0x9E3779B9;
$c = $init;
$k = 0;
$len = $length;
while($len >= 12) {
$a += ($url[$k+0] +($url[$k+1]<<8) +($url[$k+2]<<16) +($url[$k+3]<<24));
$b += ($url[$k+4] +($url[$k+5]<<8) +($url[$k+6]<<16) +($url[$k+7]<<24));
$c += ($url[$k+8] +($url[$k+9]<<8) +($url[$k+10]<<16)+($url[$k+11]<<24));
$mix = mix($a,$b,$c);
$a = $mix[0]; $b = $mix[1]; $c = $mix[2];
$k += 12;
$len -= 12;
}
$c += $length;
switch($len) {
case 11: $c+=($url[$k+10]<<24);
case 10: $c+=($url[$k+9]<<16);
case 9 : $c+=($url[$k+8]<<8);
case 8 : $b+=($url[$k+7]<<24);
case 7 : $b+=($url[$k+6]<<16);
case 6 : $b+=($url[$k+5]<<8);
case 5 : $b+=($url[$k+4]);
case 4 : $a+=($url[$k+3]<<24);
case 3 : $a+=($url[$k+2]<<16);
case 2 : $a+=($url[$k+1]<<8);
case 1 : $a+=($url[$k+0]);
}
$mix = mix($a,$b,$c);
return $mix[2];
}

function strord($string)
{
for($i=0;$i<strlen($string);$i++) {
$result[$i] = ord($string{$i});
}
return $result;
}

function getPR($aUrl)
{
$aUrl = 'http://'.$aUrl;
$url = 'info:'.$aUrl;
$ch = GCH(strord($url));
$url='info:'.urlencode($aUrl);
$pr = @file("http://www.google.com/search?client=navclient-auto&ch=6$ch&ie=UTF-8&oe=UTF-8&features=Rank&q=$url");
$pr_str = @implode("", $pr);
return substr($pr_str,strrpos($pr_str, ":")+1);
}





echo '<style>.culture
{
background: #383737;
color: #CCCCCC;
font: 10pt verdana, geneva, lucida, "lucida grande", arial, helvetica, sans-serif;
}
</style>'
;

echo '<form method="POST">
<input type="text" name="web" class="culture">
<input type="submit" name="submit" value="Анализировать" class="culture">
</form>'
;

if(@$_POST['web'])
{
echo '<table border="1" cellpadding=5 cellspacing=0>';
echo '<tr><td>Page Rank</td><td>'; echo getPR($_POST['web']); echo '</td></tr>';
echo '<tr><td>Yandex Тиц</td><td>'; echo getTIC($_POST['web']); echo '</td></tr>';
echo '<tr><td>Страниц в Google</td><td>'; echo getGoogleIdx($_POST['web']); echo '</td></tr>';
echo '<tr><td>Страниц в Yandex</td><td>'; echo getYandexIdx($_POST['web']); echo '</td></tr>';

echo '</table>';
}

?>




Спустя 40 минут, 6 секунд (9.10.2011 - 15:47) Лена написал(а):
1. Для начала я бы посмотрела, возвращает ли что-нибудь file_get_contents, т.е. например в getGoogleIdx($site) сделала бы

$buf = file_get_contents('http://www.google.com/search?hl=en&q=site:'.$site);
print $buff;

и так в каждой функции, где мы получаем данные извне.

2. У вас избыточный код.
Например, вместо вашей utf8win1251($s) я бы просто использовала:
iconv('UTF-8', 'cp1251', $text);
вместо zeroFill() можно использовать стандартную функцию sprintf("%01.2f", $number);
а mix($a,$b,$c) если подойти с умом можно вообще заменить на shuffle. Я в код сильно не всматривалась.

3. Уберите везде заглушки @. Может, какие-то сообщения об ошибках появятся на экране, которые подскажут, почему данные не приходят.

Спустя 5 минут, 44 секунды (9.10.2011 - 15:53) tanya12345 написал(а):
После того, как я убрала заглушки, появилось при поиске PR:

Warning: file(http://www.google.com/search?client=navclient-auto&ch=6-772757682&ie=UTF-8&oe=UTF-8&features=Rank&q=info:http%3A%2F%2Fphpforum.ru) [function.file]: failed to open stream: HTTP request failed! HTTP/1.0 403 Forbidden in /home/n/ntprofi/monitor.tamb.info/public_html/d8.php on line 160

Warning: implode() [function.implode]: Invalid arguments passed in /home/n/ntprofi/monitor.tamb.info/public_html/d8.php on line 161

Как быть?

Работает только ТИЦ, кто-нибудь не мог бы со мной поделится кодом для поиска PR и кол-ва индексируемых страниц яндексом и гуглом?

Спустя 27 минут, 31 секунда (9.10.2011 - 16:21) Лена написал(а):
Адрес http://www.google.com/search?client=navcli...F%2Fphpforum.ru недоступен.
У вас ошибка в работе GCH(strord($url)); - она неправильный кусок url добавляет.

Спустя 9 минут, 48 секунд (9.10.2011 - 16:31) tanya12345 написал(а):
подскажите как ее можно изменить?не понимаю, пожалуйста..

Спустя 30 минут, 22 секунды (9.10.2011 - 17:01) Игорь_Vasinsky написал(а):
Для начала, чтб получить контент страницы используйте cURL, вместо file_get_content() и file()

    $url = "адрес страницы";

$ch = curl_init ();
curl_setopt ($ch , CURLOPT_URL , $url);
curl_setopt ($ch , CURLOPT_USERAGENT , "Mozilla/5.0");
curl_setopt ($ch , CURLOPT_RETURNTRANSFER , 1 );
$content = curl_exec($ch);
curl_close($ch);

//теперь вся страница в $content

Спустя 1 час, 4 минуты, 55 секунд (9.10.2011 - 18:06) tanya12345 написал(а):

Игорь_Vasinsky, я понимаю, сначала нужно получить контент страницы, а потом выбрать число сколько ответов нашлось яндексом. Но реализовать это не могу. Помогите пожалуйста) wub.gif

Спустя 3 часа, 7 минут, 15 секунд (9.10.2011 - 21:13) Игорь_Vasinsky написал(а):
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.