[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Поисковая система
Dron19
Всем привет, большущая просьба, у кого есть скрипт какой нибудь поисковой системы или кто знает как написать паука, который сам скачивает страницы, переходит по ссылкам на найденных страницах и индексирует, в общем как работает поисковик, если нет скриптов как примеров(хотя очень хотелось бы посмотреть код и на каких языках пишут кроме пхп), то можете хотя бы кто знает сказать мне как оно работает и на какой основе? Заранее всех благодарю.
Просто больше нет форума, куда можно написать эту тему, ПХП для знатоков самая оптимальная, еще раз СПАСИБО, с нетерпением ЖДУ ВАШИХ ОТВЕТОВ =)



Спустя 1 час, 31 минута, 16 секунд (27.10.2010 - 17:44) inpost написал(а):
CURL - получить ХТМЛ код страницы. Обычно роботы так и работают, получают страницу таким образом и сверяются по внутреннему алгоритму. Сам же робот каждый день улучшается, чего только стоит надпись: "Робот уже читает AJAX и FLASH" - уму не постижимо =)
А в целом, врядли на ПХП, тут либо Ruby либо ASP.NET, так как они мощнее, как мне кажется.

Спустя 1 час, 9 минут, 4 секунды (27.10.2010 - 18:54) Dron19 написал(а):
спасибо за ответ, то есть полноценный поисковик на пхп написать по вашему не актуально?

Спустя 7 минут, 1 секунда (27.10.2010 - 19:01) inpost написал(а):
Dron19
Актуально. Скорость обработки будет зависить от процессора, на котором размещен поисковик. Гугл поисковик размещен на десятках мощных процессоров, один бы просто не потянул такую ношу. Писать поисковик не актуально, потому что дорого. С другой стороны, говорят, что обычный ПХП медленее того же С в 100 раз, тогда для нормальной обработки и функционирования поисковика ты данные все сохраняешь через ПХП, а обрабатываешь и анализируешь через С.
Ну это так, моё ИМХО, эксперты смогут поправить меня немного =)

Спустя 18 минут, 38 секунд (27.10.2010 - 19:19) phpguest написал(а):
ты только мозги запаришь, лучше уже что то новое надумать и сделать... + поисковиков уже много.. врятли будет с него смысл... щас 60% гошей пользуются
30% яшай... и остальные уже всякие фуфики

Спустя 19 часов, 38 минут, 16 секунд (28.10.2010 - 14:57) Dron19 написал(а):
то есть как это, один сайт, гугл размецен на несколькихсерверах? То есть пол сайта на одном и пол на другом? Но гугл же не тоьлко на пхп написан, что нельзя на пхп разве создать исскуственный интеллект? И последний вопрос, С и С++ разве можно на сайтах использовать? Каким образом, что-то не пойму blink.gif

Спустя 3 минуты, 27 секунд (28.10.2010 - 15:01) twin написал(а):
Кто то писал тут, что у гугла есть страничка, с которой они пицу заказывают. Вот она на PHP smile.gif

Какой интеллект... PHP совсем не для этих целей.

На сайтах все что угодно можно использовать, особенно если сервер свой.

Спустя 4 минуты, 27 секунд (28.10.2010 - 15:05) inpost написал(а):
twin
Да-да, про пиццу я слышал =)

Спустя 5 минут, 19 секунд (28.10.2010 - 15:11) Dron19 написал(а):
то есть на пхп не рал написать такой интеллект, или реал, но тупая трата времени и лишняя морока?

Спустя 3 минуты, 23 секунды (28.10.2010 - 15:14) Dron19 написал(а):
Просто пхп знаю нормально, учил долго, терь лень изучать с++ smile.gif хотя хочется tongue.gif smile.gif, кто-нибудь подскажет, для каких целей нужно исполььзовать python?

Спустя 30 минут, 17 секунд (28.10.2010 - 15:44) inpost написал(а):
Dron19
ПХП - язык для создания домашних страничек (легкого и среднего уровня). В данный момент идет улучшение самого языка до сложных проектов. Это как ребёнок, ты можешь вложить кучу средств, а окажется лет через 15-20 бездарем, а можешь забросить, а его доведут до идеала.
Если не ошибаюсь, ПХП сделан на C или JAVA, получается это язык от языка, поэтому и медленее.
А вообще, все холиварят, какой язык лучше. Можешь в гугле ввести: php vs python - и получишь плюсы и минусы каждого языка, там целые статьи будут!

Спустя 2 минуты, 12 секунд (28.10.2010 - 15:47) Dron19 написал(а):
спс за помощь

Спустя 30 секунд (28.10.2010 - 15:47) Dron19 написал(а):
вот еще вопрос, можно сразу начать обучение С++? Без знаний С?

Спустя 2 минуты, 4 секунды (28.10.2010 - 15:49) inpost написал(а):
Dron19
Дык они все похожи =) Я знаю лишь ПХП, недавно папе помогал составить запрос в экселе (до этого ни разу не работал).

Спустя 2 минуты, 18 секунд (28.10.2010 - 15:51) Dron19 написал(а):
да я то понимаю, что он похоже, но все равно, я ничего не могу написать на нем, так все же, как лучше, после с изучать с++ или сразу его можно?

Спустя 4 часа, 14 минут, 3 секунды (28.10.2010 - 20:05) phpguest написал(а):
учи сразу c++ .... но смотря для чего, если для создание ПС то смысла нету) ты толком ничего не научишься. Либо обратится к профессионалу и хорошо заплатить чтобы она на твоих глазах что то писал и объяснял)

Спустя 2 дня, 17 часов, 59 минут, 47 секунд (31.10.2010 - 15:05) Dron19 написал(а):
да с++ я учу для себя, интересно, хочется писать проги какие-то, только уже для компа, а не для cgi сервера, может играми займусь)

Спустя 4 дня, 1 час, 47 минут, 21 секунда (5.11.2010 - 16:53) Ben написал(а):
Не обязательно учить С, для того чтобы начать изучать С++, smile.gif

А вообще - мой тебе совет - начинай сразу изучать C#, он более объектно ориентирован.

Спустя 3 часа, 39 минут, 38 секунд (5.11.2010 - 20:32) Dron19 написал(а):
а что на Си шарпе пишется? Чем он лучше С++? Си Шарп же только для виндовс и все! =)

Спустя 2 дня, 4 часа, 6 минут, 48 секунд (8.11.2010 - 00:39) kentaro написал(а):
Си # - более высокоуровневый нежели Си/Плюсы, так что если хочешь работать ближе к железу и с большей производительностью, то нужно учить плюсы. Но это только если учишь для себя. На рынке они сейчас особо не востребованны. Могу ещё посоветовать попутно захватить Object C, для написания софта для яблочных платформ.
Си # кстати, не только для винды, есть такой проект, как моно, с его помощью шарп и на линухах и на макосях идёт на ура... Вообще то Мелкомягие работают на кроссплатформеностью, и по-моему уже сейчас в студии можно писать для других ОСей

Спустя 5 дней, 13 часов, 46 минут (13.11.2010 - 14:25) RuLex написал(а):
Таки да, подтверждаю - C# вещь хорошая - под никсами есть проект порта. Плюс ко всему на нём можно ещё и под ASP писать. Короче универсальный язык для всего - я помнится на нём лет 5-6 назад, в бытность прыщавой студентотой, как раз тот же ИИ писал, но в рамках институтской программы. Препод офигевал, гы smile.gif

А насчёт поисковика - заморачивался не так давно для i2p сети, там поисковика не было, решил сначала написать (и таки снова на том же C#) - загрузку страниц сделал, начал делать индексатор, и вдруг стукнула моча в голову, я решил поискать готовое (хотя по-умному надо было бы сделать наоборот). Вообще, из того что нашёл, более-менее достойные вещи это Sphinx и YaCy. Вот как раз поиск I2P работает на YaCy. Советую присмотреться к готовым решениям (если просто нужно под какой-то проект готовый). А на PHP... я совсем не уверен, что такие вещи пишутся - начиная от главного минуса - однопоточности (хотя есть там какое-то дополнение к PHP, кажется, которое мультипоточность добавляет - но стоит ли овчинка?). Ибо тот же Yacy спокойно может одновременно всасывать по 100 страниц на относительно слабой машинке.

Спустя 20 часов, 17 минут, 28 секунд (14.11.2010 - 10:42) vagrand написал(а):
Цитата
А на PHP... я совсем не уверен, что такие вещи пишутся - начиная от главного минуса - однопоточности


Да ты шо. Если сам не знаешь как запускать скрипты на php в несколько потоков то не надо утверждать что он однопоточный. Я не скажу ничего по поводу YaCy, а вот Sphinx никакого отношения к "высасыванию" страниц не имеет. Его можно "натравить" на таблицу(ы) MySQL для семантического, полнотекстового поиска. Т.е. спокойно можно написать робота по сбору инфы с сайтов на PHP (при чем запускать его в несколько процессов на разных сервера), а сам поиск осуществлять при помощи Sphinx.





_____________
PHP+MySQL - уже изучил, осталось всего лишь это:
C,C++,C#,JavaScript,Python,Ruby,Perl,OpenGl,DirectX,ASP.NET - Намерен учить все
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.