Главная / Информация

Факторы, влияющие на релевантность поисковых машин

Известно, что на алгоритм ранжирования сайтов в поисковых машинах влияют более 100 факторов. Какие это факторы? Какие из них влияют положительно, а какие отрицательно? Вот неполный список возможных факторов, составленных на основании исследования западных поисковых машин:

Факторы текста документа, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5. Уровень важности тех или иных факторов периодически пересматривается поисковыми машинами и не стоит данные цифры считать догмой.  

  • Тэг Title [5]. Содержимое этого тэга всегда отображается вверху окна броузера и очень часто показывается в серпах как заголовок найденого документа;
  • Использование ключевых слов[5]. В документе должны встречаться ключевые слова, которые может ввести пользователь для нахождения этого документа в поисковой системе;
  • Использование связаных терминов [4]. Помимо ключевых слов из запроса, поисковые машины могут определять, используются ли в тексте документа другие ключевые слова, относящиеся к той же специфичной области, что и слова из запроса;
  • Внешние ссылки из документа [4]. Внешние ссылки из документа могут как положительно, так и отрицательно сказываться на ранжировании, в зависимости от тематики страниц и сайтов, на которые указывают эти ссылки;
  • Ссылки с внутренних страниц сайта [4]. По числу ссылок внутри сайта, указывающих на каждый документ, поисковые машины могут определять, какие страницы на сайте являются наиболее важными исходя из структуры этого сайта;
  • Уникальность контента [4]. Уникальный контент — вот что ищут все поисковики, т.е. ваш документ должен предствлять что-то новое и не быть похожим на многие другие документы в Сети, дубликаты страниц зачастую просто удаляются из поисковой базы;
  • Возраст документа [3]. Для каждого документа в поисковых машинах хранися время его появления в базе, т.е. время когда он был впервые обнаружен ботами поисковика, более старые докумеенты могут рассматриваться как более важные, ценные илди авторитетные, новые документы могут рассматривать как более релевантные при поиске с упорядочиванием по времени или новизне;
  • Авторские пометки [3]. Разбирая заведомо ценные авторские документы, поисковые машины могут определять структурные особенности таких страниц и использовать эти шаблоны при индексировании новых документов для определения возможно того же авторства или подобных документов;
  • Язык документа [3]. Естественно по запросу, например, на японском языке, более релеватными считать документы на японском же языке. Поэтому для поисковых машин желательно явно указывать язык(и) документа;
  • Морфология [3]. Документы, содержащие и другие морфологические формы слов запроса могут рассматриваться поисковыми машинами более релевантными данному запросу. Другие же поисковые машины могут рассматривать все морфологические формы как одно и тоже;
  • Структура заголовков [3]. Структура заголовков Hx на странице может дать поисковику информацию, какие части документа более или менее важные. Если заголовки одного уровня различны, но близки по теме — это может быть дополнительно полезно;
  • Цитирование [3]. Цитирование, в смысле сносок и ссылок в книгах и журналах на источники процитированого, может положительно сказываться при поиске научной, учебной или подобной информации;
  • Глубина документа на сайте [3]. Глубиной документа на сайте считается минимальное число мышиных кликов (следую по ссылкам), необходимое для получения данного документа;
  • Мера обновлений документа [3]. Переодически просматривая документ, посиковые машины могут не только отслеживать частоту изменения документа, но и вести журнал всех изменений контента и ссылок;
  • Разнообразие и % измнеений [2]. Ведя журнал изменений документов, поисковые машины могут отслеживать какая часть контента изменялась, связано ли это с изменением шаблона страниц сайта (косметические изменения), или только одного документа, какой процент содержимого подвергался изменению, было это добавлением нового контента, или правкой старого и т.п.;
  • Структура документа [2]. Для некоторых документов, например, с длинным контентом или, особенно, для хорошо структурированых документов, порядок следования предложений, фраз и слов в теле документа может приниматься поисковиками во внимание;
  • Внутренние ссылки [2]. Релевантные внутренние ссылки на документ (навигационные ссылки не учитываются), могут подсказать поисковой машине тему данного документа;
  • Тэг Meta Keywords [2]. Несмотря на то, что этот тэг считается пережитком ранниъх дней Паутины, некоторые поисковые машины могут его использовать, можно также использовать этот тэг и для указания наиболее частых опечаток ваших ключевых слов;
  • Ключевые слова в URL [2]. Использование ключевых фраз и слов в ссылках с данного документа может дать дополнительный вес в некоторых поисковиках, независимо как эти слова указываются в URL, через дифис или слитно;
  • Тэг Meta Description [2]. Считается устаревшим, но может использоваться некоторыми поисковиками для описания вашего документа в результатах поиска, однако спорно, что использование ключевых слов в этом тэга как либо влияет на позиционирование;
  • Использование H1, bold, strong и др. [1]. Хотя тэги H1, bold, strong и др. продолжают широко использоваться для визуального выделения темы и ключевых фраз и слов, маловероятно, что они как-то влияеют на ранжирование поисковых машин, в основном из-за широкого распространения так называемой “переоптимизации”;
  • Использование грамматики [1]. Использование грамматиками поисковыми машинами для ранжирования документов под вопросом, возможно только специализированые научные поисковики;
  • Правописание [1]. Так же как и граматика, правописание всех слов документа может служить мерой качества этого документа для поисковых машин. Возможно этот фактор учитывается в зависимости от запроса, а также не учитывается для специализированых сайтов из таких областей, как юмор, культура и искусство, где неправильное правописание может использоваться специально;
  • Частота стоп-слов [1]. Частота исаользования стоп-слов (наиболее часто используемых слов) может служить мерой стиля документа, если частота стоп-слов высока, вероятно это небольшая попсовая заметка, если же чатота этих слов мала — это серьёзный неоднопараграфный текст. Вероятно этот фактор также зависит от поискового запроса;
  • Читабельность текста [1]. Читабельность текста — это мера основаная, на частоте использования общеупотребительных, слов из словарного запаса школьников того или иного года обучения, а также редких, специализированых слов в тексте документа. Эта мера может учитываться исходя из запроса, а также если есть информаци о том, кто ищет, — если ищет школник, то ему не осилить статьи из академических журналов;
  • Качество текста документа [1]. Хотя эта мера очень субъективна, существуют методы автоматического его определения, вероятно у каждого поисковика они свои, и пока под вопросом насколько сильно и как скоро эта мера будеит влиять на ранжирование;
  • Текст в alt/img title [1]. Хотя содержимое этих тэгов оносится к тексту документа как целому, мало вероятно, что они сильно влияют на оценку содержимого всего документа. Весьма вероятно они больше влияют на поиск изображений (вместе с именем файла картинки);
  • Длина документа [1]. Длина документа, в байта, словах, предложениях и т.п. может использоваться поисковиками при ранжированияя, подразумевая для некоторых запросов более кратнкие документы более релевантными, в других же случаях отдавая предпочтения более длиннным документам. Нет оптимального размера документа для поисковых машин;
  • Внутридокументные ссылки [1]. Поисковые машины могут использовать именованые внутридокументные ссылки (anchors) при разборе длиннных структурированых документов, напрмиер статей Wikipedia;
  • Тип документа [1]. Тип дакумента, например .pdf, .doc, .txt т.п. может учитываться при ранжировании, по-разному в зависимости от того или иного зароса;
  • Соответствие стандартам W3C [1]. Учёт поисковыми машинами этого фактора под вопросом, но забывать о нём не стоит.

Технические факторы, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5.

  • Доступность документа [5]. Недоступность документа может быть вызвана ошибкой 404, ошибкаим в работе веб-сервера, необходимостью установки плугина для просмотра и прочими техническими вопросами. Также к недоступности могут приводить методы переадресации, которые поисковые роботы не могут отследить, или необходимость заполнить форму для доступа к информации.
  • Использование фреймов [4]. Фреймы могут повлиять на различные факторы оптимизации, разделение на различные URL может обесценивать входящие на страницу(ы) ссылки, а также размазывая рейтинговую ценность одного документа на несколько страниц. Различные технологически примёмы, такие как CSS повышают юзабельность фреймов, однако классические HTML-фреймы обычно трудны для хорошего рейтинга в поисковых системах.
  • Динамические параметры в URL [4]. Большое число динамических параметров в URL зачастует гарантирует, что этот URL будет пропущен роботом поисковика. Представители различных поисковиков давно советуют ограничиться двумя, а лучше одним динамическим параметром в URL.
  • Идентификаторы сессий [4]. Идентификаторы сессий в URL могут непредсказуемо повлиять на рейтинг, т.к. дубликаты одного и того же документа могут индексироваться десятки и сотни раз под различными URL. Также входящие ссылки будут размазываться по различным URL одного и того же документа.
  • Аптайм хостера [3]. Ненадёжный хостинг с часто неработающим сайтом может приводить к девальвации рейтинга сайта в поискых системах, и даже хуже, далеко не все страницы сайта могут быть проиндексированы. И наоборот, высокий аптайм может увеличить рейтинг как надёжно доступного ресурса.
  • Использование NOARCHIVE/NOINDEX [3]. Директивы noindex и noarchive в META ROBOTS указывают поисковому роботу не индексировать и не сохранять копию страниц сайта. Соответственно контент этих страниц не может повлиять на рейтинг в поисковых машинах, — они просто о нём не знают.
  • Информация о регистрации домена [2]. Информация о регистрации домена может быть использована поисковыми машинами как источник информации о владельце ресурса, уменьшая рейтинг для спамеров и других нарушителей этикета и закона.
  • Время регистрации домена [2]. Время на которое домен был зарегистрирован может говорить о серьёзности намерений, чем оно больше, тем серьёзнее намерения владельца относительно этого сайта.
  • География хостинга [1]. География хостинга может играть незначительную роль в определении языка и страны контента при вариация рейтинга результатов поиска по этому таргетингу.
  • Длина URL [1]. Длина URL можут быть компонентной меры доверия и/или значимости, более длинные URL могут рассматриваться как неюзабельные или возможный спам.
  • Клоакинг по IP [1]. Хотя такой клоакинг сложно определить, поисковые машины изыскивают способы его определения, и тут же штрафуют сайт.
  • Дата регистрации домена [1]. Как мера возраста сайта, может использоваться поисковыми машинами как источник информации как давно существует этот сайт.
  • Наличие robots.txt [1]. Наличие файла robots.txt может говорить о том, что содержимое сайт можно индексировать и кэшироватьи это влияет на большиство крупных поисковых машин.

Вредоносные факторы, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5.

  • Клоакинг [4]. Один из строго наказываемых методов, независимо злонамеренно или по незнанию, выдачи разного контента разным посетителям, будь то по User-Agent или по IP-адресам, по географическим факторам и т.д. и т.п. Если будет установлено, что в число “и т.д. и т.п.” входит поисковая машина, сайт будет практически сразу забанен.
  • Дублируемый контент [4]. Доминирующий в Вебе фактор низкого рейтинга страниц. Дублирование большей части сайта или большей части страницы может очень сильно сказаться на рейтинге одной из копий, независимо от того нарушаются или нет авторские права при таком копировании.
  • Неиспользование кононического имени сайта [4]. Широко распространённая проблема, в особенности для крупных сайтов. Этот фактор вытекает из фактора дублируемого контента, когда, например для адресов url.com, www.url.com и www.url.com/index.html выдаётся один и тот же контент и на каждый их этих адресов приходит множество ссылок с других сайтов и все эти адреса использовались при регистрации в различных каталогах и других списках ресурсов Сети, может негативно сказаться на рейтинге, независимо от того, что фактически это одна и таже страница.
  • Ссылочный спам [3]. Невисимо от конкретного способа, любые ссылки, созданные автоматическим и любым другим “ненатуральным” методом, или заподозренные таковыми поисковой машиной, могут негативно влиять на рейтинг как сайта, так и отдельных страниц.
  • Спам ключевых слов [3]. Любое чрезмерное использование ключевых слов с целью увличить релевантноть по тому или иному поисковому запросу может негативно сказаться на рейтинге.
  • Битый код [2]. Битый код (содержащий ошибки, опечатки, невалидный), мешающий правильному разбору страницы, а также приводящий к зацикливанию или другим “неприятностям” для роботов поисковых машин, может как негативно сказываться на рейтинге страниц, так и приводить к изъятию этих страницы и базы поисковика.
  • “Плохие” ссылки [2]. Внешние ссылки на сайты с низкокачественным контентом, или ещё хуще, участие в различных ссылочнообменных схемах. Поисковые машины жестоко наказывают подобную тактику, некоторые сайты даже банятся по первому подозрению.
  • Неэтичное поведение [2]. Давольно-таки расплывчатое понятие и широко трактуемое поисковыми машинами, включает, но не ограничивается предоставлением ложной информации, вовлечением в незаконные или неэтичные сделки, использованием обмана и других нечестных способов отъёма денег у посетителей и т.п.
  • Незаконный контент [2]. Контент, нарушающий местное, национальное или международное законодательство (зачастую это детская порнография, клевета, пропаганда терроризма и криминальной деятельности), может быть исключен из индекса поисковой машины.
  • Небезопасный контент [2]. Контент, сочтённый небезопасным для детской и подрасткой аудитории может быть забанен или убран и обычной выдачи поисковых машин.
  • Угон URL [3]. Угон URL состоит в печальнознаменитом использовании кода ответа 302 для присваивания позиций выдачи страниц с высоким рейтингом. В краткосрочной перспективе негативно сказывается на рейтинге угоняемого сайта, в долгосрочной — на рейтинге угоняющего сайта, как только такое воровство будет обнаружено.
  • Битые ссылки [1]. Наличие на странице ссылок на несуществующие документы (возвращается код ответа 404) может негативно сказаться на рейтинге как этой страницы, так и сайта в целом.

По материалам сайта СоНоты


Посмотреть все новости

Заявка на создание сайта

Ответьте пожалуйста, на контрольный вопрос: Название первого месяца в году ?