Спустя 1 час, 23 минуты, 15 секунд (21.07.2011 - 17:15) DySprozin написал(а):
Эли4ка
парсить = выдернуть нужную инфу
индексировать = обработать выдернутую инфу и сохранить в БД на сервере (;
т.о., парсинг предшествует индексации, по большому счету является ее частью
;;Яндекс Видео индексирует видео или парсит его?
он парсит и индексирует _информацию_ о видео, само видео он не сохраняет, т.е. удаленный ютюб ролик уже ни в каком кэше яши не найдешь (;
парсить = выдернуть нужную инфу
индексировать = обработать выдернутую инфу и сохранить в БД на сервере (;
т.о., парсинг предшествует индексации, по большому счету является ее частью
;;Яндекс Видео индексирует видео или парсит его?
он парсит и индексирует _информацию_ о видео, само видео он не сохраняет, т.е. удаленный ютюб ролик уже ни в каком кэше яши не найдешь (;
Спустя 11 часов, 20 минут, 52 секунды (22.07.2011 - 04:35) Эли4ка написал(а):
DySprozin
понятно..а как понять индексирует информацию о видео?объясни поподробнее пожалуйста..
понятно..а как понять индексирует информацию о видео?объясни поподробнее пожалуйста..
Спустя 8 часов, 16 минут, 39 секунд (22.07.2011 - 12:52) DySprozin написал(а):
Эли4ка
ну для того, чтобы это понять, достаточно заглянуть на video.yandex.ru и посмореть исходный текст (; правда, там все на жабаскрипте, потому в лоб не получится, но можно воспользоваться фичей оперы "проинспектировать элемент" (что-то подобное сейчас можно найти во всех нормальных браузерах)

вот тебе пара примеров. индексация ютюбовской видюшки, смотрим код:
Итак, Яндекс проиндексировал ютюб-видео, что это значит? Он занес в свою базу данных определенную информацию о нем, перечислим основные:
ну а также длину, ширину, прочие параметры...
Или вот: майловская видюшка, что там проиндексировал яндекс:
здесь уже яндекс проиндексировал гораздо меньше инфы: название видео, полный путь... ну и пара-тройка параметров по мелочи...
ну для того, чтобы это понять, достаточно заглянуть на video.yandex.ru и посмореть исходный текст (; правда, там все на жабаскрипте, потому в лоб не получится, но можно воспользоваться фичей оперы "проинспектировать элемент" (что-то подобное сейчас можно найти во всех нормальных браузерах)

вот тебе пара примеров. индексация ютюбовской видюшки, смотрим код:
Свернутый текст
Цитата |
< div class="b-video b-video_type_top b-video_isBEM_yes b-video_play_internal i-bem b-video_js_inited" onclick="return {'b\-video':{name:'b\-video',"filmId":"78992200", "type":"top", "events":{"hosting":{"onmousedown":"ya.counters.hit({'pid' : '197', 'cid' : '2194', 'a' : this, 'customUrl' : true, 'path' : 'to\\-hosting\\-from\\-player.top.youtube'});"}}, "author":"YouTube", "title":"Пешеходный переход во Вьетнаме", "url":"http:\/\/www.youtube.com\/watch?v=vSYdK9YFVO4", "hosting":"youtube.com", "duration":"25", "login":"4611686019350442875", "position":"19", "b-swfobject":{"id":"no-flash", "attributes":{"id":"flash"}, "iframe": {"src":"http:\/\/www.youtube.com\/embed\/vSYdK9YFVO4?fs=1&autoplay=1", "width":"425", "height":"355", "frameborder":"0"}}}}" > <div class="b-video__i"> < a class="b-pseudo-link" onmousedown="ya.counters.hit({'pid' : '197', 'cid' : '2330', 'a' : this, 'path' : '19'});" target="_blank" title="Пешеходный переход во Вьетнаме" href="http://www.youtube.com/watch?v=vSYdK9YFVO4" > <span class="b-video__preview-holster"/> <span class="b-video__preview"> <span class="b-video__preview__i"> < img class="b-video__preview__img" src="http://static.video.yandex.ru/getx/4611686019350442875/s3k58ofd93.3017/120x90.jpg" alt="" /> <span class="b-video__preview__time">00:25</span> </span> <i class="b-video__play"/> </span> </a> <div class="b-video__info-wrapper"> <a class="b-link b-video__title" onmousedown="ya.counters.hit({'pid' : '197', 'cid' : '2194', 'a' : this, 'customUrl' : true, 'path' : 'to\-hosting.top.youtube'});;ya.counters.hit({'pid' : '197', 'cid' : '2330', 'a' : this, 'path' : '19'});" target="_blank" href="http://www.youtube.com/watch?v=vSYdK9YFVO4">Пешеходный переход во Вьетнаме</a> </div> </div> </div> |
Итак, Яндекс проиндексировал ютюб-видео, что это значит? Он занес в свою базу данных определенную информацию о нем, перечислим основные:
- Название сервиса
- Название видео
- Адрес видео
- Хост (хотя его можно было получить из адреса, ну да ладно)
- Продолжительности видео (сек)
ну а также длину, ширину, прочие параметры...
Или вот: майловская видюшка, что там проиндексировал яндекс:
Свернутый текст
Цитата |
< div class="b-video b-video_isBEM_yes b-video_type_serp b-video_play_external i-bem b-video_js_inited" onclick="return {'b\-video':{name:'b\-video'}}" > <div class="b-video__i"> < a class="b-pseudo-link" onmousedown="ya.counters.hit({'pid' : '197', 'cid' : '2194', 'a' : this, 'reqid' : '1311326721508881\-1745396870238655391109916\-3\-040\-V', 'customUrl' : true, 'path' : 'to\-hosting.serp.imgmailru'});" target="_blank" title="КР.ЗЕРКАЛО №50" href="http://video.mail.ru/list/serega.it/2969/2979.html" > <span class="b-video__preview-holster"/> <span class="b-video__preview"> <span class="b-video__preview__i"> <img class="b-video__preview__img" src="http://video-tub.yandex.ru/i?id=83656-05-12" alt=""/> <span class="b-video__preview__time">1:36:09</span> </span> <i class="b-video__external"/> </span> </a> <div class="b-video__info-wrapper"> < a class="b-link b-video__title" onmousedown="ya.counters.hit({'pid' : '197', 'cid' : '2194', 'a' : this, 'reqid' : '1311326721508881\-1745396870238655391109916\-3\-040\-V', 'customUrl' : true, 'path' : 'to\-hosting.serp.imgmailru'});" target="_blank" href="http://video.mail.ru/list/serega.it/2969/2979.html" > КР.ЗЕРКАЛО №50 </a> <div class="b-video__desc"> РУССКИЙ <strong>ЮМОР</strong> . </div> </div> <div class="b-video__date">11.08.2010</div> <div class="b-video__host">video.mail.ru</div> </div> </div> |
здесь уже яндекс проиндексировал гораздо меньше инфы: название видео, полный путь... ну и пара-тройка параметров по мелочи...

Спустя 1 день, 22 часа, 57 минут, 18 секунд (24.07.2011 - 11:49) Эли4ка написал(а):
спасибо,помог.А для этого Яндекс писал парсер или робота?
Спустя 9 часов, 38 минут, 52 секунды (24.07.2011 - 21:28) DySprozin написал(а):
Эли4ка
скорее так: робота, одна из задач которого — парсинг (;
скорее так: робота, одна из задач которого — парсинг (;
Спустя 13 часов, 47 минут, 45 секунд (25.07.2011 - 11:16) Эли4ка написал(а):
понятно..спасибо.
Спустя 17 минут, 8 секунд (25.07.2011 - 11:33) Семён написал(а):
Сомневаюсь что Yandex напрямую парсит Youtube xD
Скорее всего всё работает по API
Скорее всего всё работает по API
Спустя 1 день, 5 часов, 45 минут, 13 секунд (26.07.2011 - 17:18) DySprozin написал(а):
Семён
ну не без этого (;
ну не без этого (;