Архів категорій »Пошукові системи «

Яндекс научився шукати в реальному часі

З недавнього часу Яндекс увійшов у нову епоху своєї еволюції відмінив АПдейти видачі. Фактично Апдейти тепер проходять кожної хвилини.

Інформацію можна прочитати на інфомаційному блозі Яндекса.

Легко ли быть зеркалом?

Яндекс всегда хотел быть зеркалом интернета. На 100% это невозможно, и мы хотим сделать вид, что мы — зеркало для тех, кто на нас смотрит. Мим за пустой рамкой несуществующего зеркала должен быть внимательным и иметь хорошую реакцию, чтобы создать иллюзию, что он — отражение. Мы в Яндексе работаем над технологиями «свежести», чтобы сделать отличия поискового индекса от интернета незаметными для людей.

Веб-мастера рунета знают, что последние несколько лет в Яндексе существовал так называемый «быстрый робот». В его задачу входила быстрая индексация и выкладывание на поиск наиболее ценных свежепоявившихся документов. Быстрый робот неплохо решал эту задачу, однако имел определенные ограничения.

Как и «большой робот», быстрый был построен по «пакетному» принципу: какое-то время готовил версию индекса с новыми документами, потом выкладывал ее на поиск. Это вносило задержку на время обработки, которую можно было сократить с помощью разных ухищрений для части документов до 20 минут, но нельзя было устранить полностью.

С момента запуска быстрого робота мир изменился. В интернете стало много людей, интересы которых далеки от технических проблем поиска, и у них вызывает крайнее изумление ситуация, когда страница на сайте есть, а в поиске ее нет. Именно поэтому правилом хорошего тона в ближайшие годы станет индексация нового за секунды.

Чтобы окончательно сделать из поискового индекса отражение, мы создали и запустили новые технологии — робот «Orange Crawler» и «Real-Time поиск». Основная разработка была сделана калифорнийским отделением Яндекса — Yandex Labs в сотрудничестве с программистами московского офиса.

Новый апельсиновый робот не прокачивает все страницы интернета, а извлекает из него свежий и сочный контент. Количество страниц в интернете бесконечно, поэтому важно их обходить в определенном порядке, чтобы в первую очередь были скачаны страницы с ценной информацией.

Веб — это не набор отдельных страниц, которые можно рассматривать независимо. Страницы сильно связаны друг с другом, данные о ссылках очень интенсивно используются в ранжировании и в отборе из всего бесконечного интернета страниц, интересных человеку.

Люди обычно попадают на новые урлы через первые страницы любимых сайтов или по ссылкам с других новых сообщений. Поисковый робот должен находить эти же ссылки, часто освежая старые страницы, и ходить по ссылкам из новых уже скачанных документов. Именно поэтому для получения качественных свежих данных робот просто обязан работать не только с новыми документами, а со всем вебом, зная его структуру.

Orange познает ссылочную структуру интернета. Для этого ему достаточно скачивать и переобходить только часть «старых» страниц — хоть и достаточно большую. Полученные знания позволяют Orange обнаруживать почти все новые страницы, выбирать из огромного их количества все хоть сколько-нибудь интересные и мгновенно рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом Orange документы обрабатывает Real-Time поиск — он подхватывает выбранные документы, индексирует их и за секунды выкладывает на поиск.

С помощью Orange мы достигли значительного улучшения свежести базы. В будущем мы сделаем его еще более агрессивным: Orange будет использовать все доступные источники информации об изменениях в интернете и реагировать на эти изменения мгновенно.

Кластер Orange Crawler реализован как распределенная вычислительная система: на каждой машине одновременно выполняются сотни небольших задач, результаты их работы в виде маленьких асинхронных сообщений отправляются на другие машины. На всем кластере сегодня обрабатывается более 100 тысяч сообщений в секунду. Подобная архитектура позволяет исключить задержки при обработке Real-Time информации, очень надежна и дает неограниченные возможности к масштабированию кластера.

Свежесть — еще одна составляющая в поиске, где простой эффект достигается сложными средствами. Хорошо, когда смотрящий в зеркало видит не особенности зеркала, а только то, что в нем отражается.

Федор Романенко и Екатерина Вебер, операторы сетевой соковыжималки

далі…

Popularity: 3% [?]

Покращення ранжування хлібними крихтами (частина 2)

Продовження статті Покращення ранжування хлібними крихтами (частина 1).

Потрібно враховувати розподілення ваги посилань при організації навігації у виді “хлібних крихт”. Зрозуміло, що сторінка вищого рівно отримає більше посилань, причому кількість посилань напряму залежить від кількості сторінок нищого рівня, які знаходяться під нею. Сторінки категорій, отримують більше посилань чим сторінки підкатегрій, причому сторінка, яка містить сотню підкатегорій отримає більше посилань, чим сторінки з десяткою підкатегорій.

Деякі вебмайстри при створені навігації “хлібні крихти” відштовхуються не від загальної структури сайту, а від найбільш популярних шляхів користувачів по сайту. Це може рабити Ваш сайт менш оптимізованим з точки зору пошукових систем, і може призвести до знизення PageRank. Цю проблему вирішують декількома способами. Перший варіант – сховати “хлібні крихти” від пошукових павуків. Інший – це реалізувати навігацію за допомогою Javascript.

Для сторінки оформлення заказу також можна використовувати навігацію “хлібні крихти”. Це дозволить зробити процес покупки більш прозорим. Також така навігацію дозволить їм вернутися на декілька кроків назад, щоб при необхідності змінити платіжну інформацію. Для зручності можна показувати зразу всі кроки, і помітити сірим кольором ті, які ще не завершені. Це все потрібно не так для SEO, як для юзабіліті.

Якщо реалізувати навігацію типу “хлібні крихти”, Ви можете використовувати, так називаючі “хлібні крихти бідняка” (poor man’s breadcrumb). Для цього необхідно на кожній сторінці Вашого онлайн каталога поставити посилання на сторінку верхнього рівня з релевантним анкором.
далі…

Popularity: 3% [?]

Покращення ранжування хлібними крихтами (частина 1)

хлібні крихти

хлібні крихти

Ви хочете покращити ранжування Вашого сайту? Вам допоможе метод внутрышньої перелінковки “Хлібні крихти” (Breadcrumbs). Цей метод не тільки покращує юзабіліті сайту але і ранжування в пошукових системах.

Завдяки “хлібним крихтам” відвідувач бачить, як сторінка (на якій він знаходиться) розташована у всій ієрархії сайту. Це дозволяє відвідувачу зразу переходити на сторінки верхніх рівнів. Наприклад сайт який продає товари, може мати наступний вид навігації типу “Хлібні крихти”: -> “Головна->Фотоапарати і оптика->цифрові фотоапарати->Ergo->ERGO DC 9393 Black”.

Якщо анкор посилань містить релевантні ключові слова, то це великий плюс. Наприклад у вищеописаному прикладі, посилання з текстом “цифрові фотоапарати” буду розумітися пошуковими системами, що ця сторінки релевантна цьому запита. Крім того текст посилання допомагає визначити пошуковим системам тематику сторінки.

Анкори типу: “далі”, “тисни тут” в порінянні з хлібними крихтами практично не впливають на ранжування. Вони по суті, вказують пошуковим системам, що сторінка релевантна ключовику “далі” або “тисни тут”.

В хлібних крихтах, головна сторінка, зазвичай має анкор “Головна”. Але ефективніше використовувати анкор, по якому Ви просуваєте головну сторінку (але щоб це не погіршувало юзабіліті сайту).

Продовження тут: Покращення ранжування хлібними крихтами.
далі…

Popularity: 4% [?]

Яндекс підкоряє світ

Запущена альфа версія yandex.com. По словах яндексоїдів англомовна версія потрібна, в першу чергу для організації кращої видачі для англомовних пошукових запитів, але за цим мужуть бути приховані більш амбіційні цілі.

Popularity: 4% [?]

Снежинск 1.1 в основній видачі Яндекса

Два дні тому в основній видачі Яндекса агоритм Снежинск змінився на Снежинск 1.1. Тестування розпочалося 10 березня на buki.yandex.ru і непередбачувано закінчилося за 5 днів.

Зараз змінилися результати пошуку результатів, які рахуються ГЕО-залежними. Часто можно в ТОПі побачити ДМІ які випередили комерційні сайти.

Popularity: 3% [?]

Яндекс обновив головну сторінку

Пару днів назад Яндекс почав  тестувати нову версію головної сторінки, за рахунком – уже 11. Кардинальних змін не відбулося. Появилось більше вільного мвсця, як говорить Яндекс, для віджетів.

Команда Яндекса збирає відгуки про новий дизайн. Всі зауваження і побажання будуть взяті до уваги і можуть вплинути на вигляд фінальної версії.

Popularity: 3% [?]

“Снежинск 1.1″ – алгоритм Яндекса обновився

Снежинск 1.1

Снежинск 1.1

Яндекс тестує обновлену версію пошукової платформи “Снежинск 1.1″. Обновлена версія доступна тільки на buki.yandex.ru.

В  ”Снежинск 1.1″ покращена формула ранжування для користувачів по ГЕО-незалежним запитам заявляє Денис Расковалов.

Сама видача в новому алгоритмі майже не відрізняється.

Popularity: 8% [?]

Три нових фільтра від Google

cвинина

cвинина

Google створив новий фільтр пошуку, який дозволяє обмежити результати пошуку сайтами які присвячені бізнесу, який недалеко від місця пошуку. Google може визначити місцезнаходження користувача і відносно цього корегувати видачу. Але зараз користувач може вибрати в результатах тільки локальні сайти.

Для обмеження видачі є три фільтри: обмеження результатів містом,  районом або областю. Якщо Google не може визначити регіон його можна ввести вручну.

За свовами розробників, це полугшує пошук, так як виклює необхідність додатково конкретизувати запит, вводичи географічні маркери.

Popularity: 4% [?]

Маркуємо видачу Google

Google і далі продовжкє робити пошук все більш персоналізованим. Цього разу Google запропонував маркувати сторінки які сподобалися зірочками. В подальшому пошуку “зіркові сторінки” будуть перші в видачі.

Маркування Google

Маркування Google

Маркування сторінки синхронізується із закладками та тулбаром Google.

Popularity: 4% [?]

Googe буде проводити індексацію миттєво

Миттєва індексація Google

Миттєва індексація Google

Власники сайтів повинні будуть самостійно додавати свіжий контент в Google для миттєвої індексації. Аналітик Денні Салліван припустив, що Google прийдеться серьозно попрацювати над фільтруванням спаму на цій стадії. Система буду працювати на основі протокола синдикації в реальному часі PubSubHubbub (скорочено – PuSH). В основі цього протоколу лежить формат даних АТОМ.

Власникам сайтів, які хочуть скористуватися можливостями миттєвої індексації, прийдеться інтегрувати цей протокол у свої сайти. Принцип роботи аналогічний RSS:якщо сайт підтримує протокол, Google отримає можливість отримати його потік і підключити до миттєвої індексації.

PuSH не замінить традиційний краулінг – останній потрібен, хоча б для того, щоб проходячи сайтами, знаходити потокі даних.

Основну вигоду від нового протоколу отримають власники маленьких сайтів – серед них багато таких, на сайти яких індексуючий бот Google заходить не частіше раз в тиждень.
Крім того, можливо, покращиться ситуація з визначенням першоджерела контенту. При цьому PuSH – відкритий протокол, і створені ним потоки (feeds) зможуть бачити і Yahoo!, і Bing, та інші пошукові системи, які захочуть додати миттєву індексацію.
Багато цікавого про протокол PuSH, іпро те яку користь він зможе принести, міститься в презинтації, яка була опублікована на Read WriteWeb.
март 2010

Popularity: 3% [?]


       
1 із 212