Правила     Закладки     Карма    Календарь    Журналы    Помощь    Поиск    PDA    Чат   
        СМС-ки
   
Пейджер выключен!
Страницы: (2) [1] 2  ( Перейти к первому непрочитанному сообщению )  
Фильтр авторов:    показать 
  скрыть
  Ответ в темуСоздание новой темыСоздание опроса

> Создание своего поисковика на базе ИИ
ak167  
 ۩  [x] Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Ушел в отрыв!)))
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 327
Пользователь №: 19030
На форуме: 7 лет, 8 месяцев, 12 дней
Карма: 1

Не курю:
31 год, 2 месяца, 14 дней


Всем привет!
Вчера загорелся желанием создать свой поисковик. К счастью, кое-какие наработки в этой области уже имеются. Однако, рынок уже переполнен и в нём главенствуют Гугл с Яндексом. Но не всё потеряно! Я долго думал, как создать отличный поисковый алгоритм и, наконец, придумал. Тут пригодятся мои наработки в области искусственного интеллекта. Фишка будет заключаться в том, что в алгоритм будет встроен самообучающийся скрипт, который способен сам себя менять и учиться. С каждой тысячей запросов он будет думать всё лучше и лучше, и качество выдачи будет расти. Он будет видеть, что нужно пользователю и в следующий раз выдавать именно то, что нужно. Так рано или поздно он по качеству выдачи обгонит гугл. Но для этого нужно совершить миллионы абсолютно разных запросов. Где их взять? Это проблема номер 1.

Когда-то я работал в компании «Уралсиб». Это крупная федеральная корпорация, которая включает в себя банк, лизинг, страхование и т.п. Я был по части страхования, а именно проводил осмотр битых авто, считал сумму убытка, фотографировал и т.п. Клиентов было мало, поэтому у меня было много свободного времени на работе, и я периодически читал анкеты клиентов. Было интересно, что за люди и где они работают. Если человек был нужной мне профессии, то я с ним знакомился поближе. Так я за время своей работы успел надружить юристов, инструкторов по парашютному спорту, каратистов (а что? Вдруг кого-нибудь поколотить нужно будет:)), полицейских, программистов, администраторов сайта «Вконтакте», фотомоделей и т.п. Но вот однажды к нам приехал один человек в очках и на дорогом авто. Я, конечно, ради интереса глянул его анкету, а там место работы «ЯНДЕКС» ОАО или ЗАО (уж точно не помню). Я решил с ним подружиться и когда пошёл осматривать с ним его машину после ДТП, то действовал по отработанной схеме, а именно пожал ему руку, представился и начал общаться как с приятелем. Ему это понравилось и он ответил мне тем же. Так завязался разговор и наше с ним знакомство. Когда у него случилось ещё одно ДТП и он во второй раз приехал к нам, то, увидев меня, он уже говорил со мной как со старым приятелем: «Ооо, Лёха! Привет:) Как делишки? Как на личном? Что нового?». Так мы постепенно сдружились.
И вот однажды я решил, как бы невзначай, спросить у него как устроен Яндекс. Конечно, весь алгоритм он бы мне не сказал, так как это корпоративная тайна, но хотя бы парочку фишек о том, как он так хорошо ищет, я надеялся узнать. Тем более уже тогда у меня было хобби веб-программирование и меня эта тема очень интересовала. Тогда я зашёл из далека. Сначала спросил несколько других вопросов а именно «Сложно ли вообще программирование?» (прикинулся дурачком), «Как этому научиться?» и только потом задал вопрос: «А как Яндекс так хорошо ищет?». Тогда-то он мне и раскрыл пару фишек алгоритма Яндекса! Оказывается, он устроен гораздо сложнее, чем я тогда думал. Теперь эти знания мне очень пригодятся в построении своего поисковика.
На первых парах мой поисковик будет искать как древний Яндекс началах нулевых годов. Ведь я уверен, что знание одних только этих фишек де даст 100%-ую гарантию, что он будет искать, как Яндекс наших дней, но это всёравно значительно улучшит поиск. Какие именно фишки он мне раскрыл, я по понятным причинам не скажу.

Теперь ещё одна проблема – это железо и некоторый софт!
По моим подсчётам весь индекс рунета будет занимать от 5 до 25 Терабайт. Максимальный объём жёстких дисков, имеющихся в продаже в данный момент – это 10 Тб. Если его не хватит, то придётся исключить из поиска часть страниц с уровнем вложенности более 5. Так я отсею старую и неактуальную информацию новостных порталов, блогов и им подобных сайтов. Но что если и этого не хватит? Придёться ставить 2 жёстких диска. Как тогда распределить базу сайтов на них? С одним то проблем не было, а вот с двумя… Может лучше сделать 2 базы? Например, одна для сайтов с доменными зонами .ru и .su, а другая для .com. Так кстати и искать будет быстрее и это даст меньшие нагрузки на сервер. Хотя, если использовать одну базу данных но с вложениями, то думаю, что скорость будет одинаковая. Или я не прав?
Кроме того, встаёт ещё один вопрос: Какой нужен процессор, чтобы он обрабатывал такой объём информации? Предположим, на первых парах у моего поисковика будет 1000 посетителей в сутки, каждый задаёт по 2-3 запроса, это уже получается 3000 запросов в день. Справиться, например, Core i3? Скорости жёсткого диска равной 7200 оборотов в минуту хватит ли? Конечно, в базе будет включено индексирование, но хватит ли этого?
Ещё одной проблемой является размещение железа. Дело в том, что я живу с родителями, так как при моей зарплате в 40.000 снимать квартиру за 20.000 слишком накладно, ведь мне бы пришлось отдавать половину зп за жилье. А мой отец старый маразматик, который помешан на безопасности. Если видит, что что-то постоянно включено, когда меня нет, то начинает ругаться и тут же вырубает это из розетки. Так у нас дома постоянно выключен Wi-Fi-роутер, пока я не приду домой, стационарный телефон и т.п. Хорошо, что хоть холодильник не выключает. А теперь представьте, как я буду дома держать постоянно включённый сервер с поисковиком? Он будет шуметь, в нём светятся светодиоды! Стоит лишь отцу заглянуть в мою комнату, когда меня нет, и сервер будет обречён! Варианты решения этой проблемы, конечно, есть. Можно поставить бесшумный блок питания с пассивным охлаждением (такие есть, правда всего на 400 Вт), видеокарту использовать встроенную либо поставить простенькую Ge-Force 210 с одним только радиатором, все светодиоды заклеить изолентой и так далее. Но вот можно ли поставить пассивное охлаждение на процессор? У меня Core i7, 6 ядер! У него тепловой пакет 140! Тут одним радиатором не отделаешься, мне кажется. Есть правда ещё и второй комп, там старенький Core 2 DUO, такой можно и без кулера охлаждать. Но тут опять же встаёт вопрос о мощности. Потянет ли он хотя бы 3000 запросов в день?
Конечно, можно было бы просто арендовать сервер у какого-нибудь хостинг-провайдера, но это значит дать им доступ к моему поисковому движку. Представьте, что было бы, если б Яндекс хранил свой скрипт поиска не у себя, а на сторонних серверах. Какой-нибудь Вася Пупкин просто взял бы и скопировал его, а потом продал бы. Такое уже случалось, например, с сайтом Одноклассники. Их скрипт можно без проблем найти в интернете.
Как быть в такой ситуации?
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
bestxp  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



орангутанг
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 2059
Пользователь №: 36605
На форуме: 4 года, 3 месяца, 9 дней
Карма: 113




ну партицирование по гео признаку первое что даст тебе понимание как распределить все
партицирование по типу данных и тематике) тут уже привет нейронная сеть и тд) и тут ты 1 ж/д уже никак не отделаешься)


--------------------
PMПисьмо на e-mail пользователюСайт пользователяICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
brevis  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Здесь живет
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 313
Пользователь №: 39616
На форуме: 3 года, 12 дней
Карма: 35




Феерическая история. Но рано, пятница только завтра.

Для общего развития: Поиск Яндекса: архитектура.


--------------------
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Invis1ble  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме




******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 11933
Пользователь №: 23195
На форуме: 6 лет, 10 месяцев, 2 дня
Карма: 435

Трезвый :
7 лет, 9 месяцев, 1 день


Цитата
Тут пригодятся мои наработки в области искусственного интеллекта.

Цитата
http://phpforum.su/index.php?showtopic=90508


user posted image


--------------------
PMПисьмо на e-mail пользователюСайт пользователя
    1   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
ak167  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Ушел в отрыв!)))
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 327
Пользователь №: 19030
На форуме: 7 лет, 8 месяцев, 12 дней
Карма: 1

Не курю:
31 год, 2 месяца, 14 дней


bestxp, brevis, спасибо за подсказки.

Invis1ble, что вас смущает? Про ИИ никогда не слышали?smile.gif Да, может я пишу не идеальный код.
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
depp  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Здесь живет
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 384
Пользователь №: 40589
На форуме: 2 года, 5 месяцев, 21 день
Карма: 22




это прикол?
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
ak167  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Ушел в отрыв!)))
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 327
Пользователь №: 19030
На форуме: 7 лет, 8 месяцев, 12 дней
Карма: 1

Не курю:
31 год, 2 месяца, 14 дней


Цитата (depp @ 28.07.2016 - 09:27)
это прикол?

depp, конечно:) Четверг же. Сижу развлекаюсь=) А люди всерьёз воспринимают.
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Oyeme  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Reality is wrong. Dreams are for real
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 1720
Пользователь №: 16955
На форуме: 8 лет, 3 месяца, 1 день
Карма: 96




Что я только что прочитал...


--------------------
Programming: Private lessons via skype £45/h

Частные уроки в Лондоне / удаленно по skype.
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
waldicom  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Здесь живет
******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 6262
Пользователь №: 5552
На форуме: 8 лет, 10 месяцев, 18 дней
Карма: 164




Цитата (ak167 @ 28.07.2016 - 08:18)
Тут одним радиатором не отделаешься, мне кажется.

Твоя правда, радиаторов надо 2.


--------------------
Свои мозги еще никто не отменял.
Телепатов нету.
PM
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Игорь_Vasinsky  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



c начала 2017 года в Новосибирске.
******

Профиль
Журнал
Группа: ★ЛжеЭксперт★
Завсегдатай форума
Сообщений: 26380
Пользователь №: 21350
На форуме: 7 лет, 2 месяца, 11 дней
Карма: 737




да ну нах..


--------------------
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql (TSql, BI OLAP, MDX), Git, SVN, CodeIgnater, Yii 2, JiRA, Redmine, Bitbucket, Composer
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
sg.com  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Местный житель
****

Профиль
Группа: Пользователь
Сообщений: 159
Пользователь №: 42899
На форуме: 1 год, 27 дней
Карма: 3




если нет денег на создание бренда, ...алгоритмы ни кому не нужны
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Dezigo  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Indiana Jones
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 1008
Пользователь №: 5429
На форуме: 8 лет, 11 месяцев, 1 день
Карма: 46




Да все потянет, выгоняй отца из квартиры и запускай свой сервер.
100% все получится. laugh.gif
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
GET  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



TERRAFORMING ENGINEER
******

Профиль
Журнал
Группа: ★ЛжеЭксперт★
Завсегдатай форума
Сообщений: 3890
Пользователь №: 21196
На форуме: 7 лет, 2 месяца, 22 дня
Карма: 87




user posted image


--------------------
Не тот велик, кто не падал, а тот кто падал и поднимался.
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Zzepish  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Здесь живет
******

Профиль
Группа: ★ЛжеЭксперт★
Завсегдатай форума
Сообщений: 5583
Пользователь №: 32538
На форуме: 4 года, 11 месяцев, 29 дней
Карма: 56




GET
biggrin.gif
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
arbuzmaster  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Новичок
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 933
Пользователь №: 37872
На форуме: 3 года, 10 месяцев
Карма: 34




Цитата (waldicom @ 28.07.2016 - 14:56)
Цитата (ak167 @ 28.07.2016 - 08:18)
Тут одним радиатором не отделаешься, мне кажется.

Твоя правда, радиаторов надо 2.

Ещё пару UPS не забудь, один в квартире поставишь, а второй в УД(узле доступа провайдера), это так на случай отключения эл. энергии, а то как то не красиво людей без поисковика оставлять на время отключения. Да и еще спроси у провайдера какой по счету, твой коммутатор в кольце, если не первый и не последний, то придется еще UPS-ов докупить. wink.gif


--------------------
PMПисьмо на e-mail пользователюСайт пользователя
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:

Опции темыСтраницы: (2) [1] 2  Ответ в темуСоздание новой темыСоздание опроса