Новости

Какие страницы теряют трафик от «Баден-Бадена» на качественных статейных сайтах

Автор Дата 24.05.2017

С анонса нового алгоритма Яндекса известно только, как от него могут пострадать страницы с переоптимизированным контентом. В качестве примера приводится нелепый фрагмент, где на все лады склоняется ключевик «SEO-текст». Рабочих способов отличить «плохие» и «хорошие» тексты не приводится.

Работать наобум лазаря — не наш метод, так что попробуем экстрагировать критерии самостоятельно.

Объект и методика

В первую очередь меня интересовало, около каких условиях санкции накладываются на более-в меньшей мере приличные страницы, когда вполне можно читать, невыгодный морщась в каждом абзаце от корявой оптимизации. Испытание крайних случаев — с сотней вхождений, выделенных жирным — не думаю ли принес бы ценные данные, тут и в такой степени все ясно.

Исследование опирается на простую идею — провести параллель характеристики двух групп страниц одного и того а сайта:

  • где наблюдается значительная просадка трафика в пора запуска «Баден-Бадена».
  • где посещаемость стабильна другими словами выросла.

Благодаря анализу внутри одного хоста наша сестра уравниваем множество факторов и можем быть более уверены в выводах.

Лишь удалось собрать 68 сайтов, где трафик с Яндекса значительно просел после 22 марта 2017 (спасибо по всем статьям, кто прислал свои проекты на анализ!).

В SEO-исследованиях размер выписка — это своеобразный культ, однако я уверен, что камо важнее ее однородность. Поэтому беспощадно удалял с рассмотрения все, что могло исказить результат.

В частности, я отбраковал сайты:

  1. С малым численностью посещаемых url (если документ до фильтра приносил не столь 100 посетителей в месяц с Яндекса, падение трафика статистически маловероятно).
  2. Где трафик с Google также имел выраженную тенденцию к снижению.
  3. С высоким разнообразием контента (тематически не то — не то структурно).
  4. С высокой зависимостью от сезона.
  5. Где вдобавок сработал хостовый фильтр.
  6. Оптимизированные совсем топорно/неважный (=маловажный) несущие вообще никакой полезной информации (первый условие был полностью формализован, второй — частично).

Также были вынесены изо основного исследования интернет-магазины и сайты услуг (их было не так в выборке; в отличие от статейных проектов, текст в этом месте зачастую не играет роли и само его реальность порой говорит о чрезмерной оптимизации).

В итоге остался 31 сайт и 4297 документов во (избежание анализа.

Прежде чем перейти к сравнению характеристик успешных и потерявших пробка страниц, необходимо было прояснить еще один серьёзный вопрос.

«Баден-Баден» — запросный или документный?

Точно я писал в недавнем обзоре публикаций по Баден-Бадену, с официальных заявлений следует, что санкции «первой волны» применяются к странице (объява от 23 марта). Однако многие SEO-специалисты называют «Баден-Баден» запросозависимым, указывая нате то, что позиции сильнее всего просели у ключевых фраз, перед которые текст затачивался в первую очередь.

Это малограмотный простой спор о терминах, а ключевой момент. Давайте разберемся.

Нежели вообще отличаются документный и запросный фактор/фильтр?

(Прибегать «фильтр» по отношению к Баден-Бадену не совершенно точно, использую для краткости).

Различие — внутри алгоритмов поисковой системы.

Запросный

Документный

Для что влияет

На ранжирование по конкретному запросу/группе

Нате «общий рейтинг» страницы по всем запросам

Прототип фактора

Анкорный вес

Статический вес

Может ли перестройка общего рейтинга повлиять на позиции только группы запросов? Насколько угодно! Чтобы было совсем наглядно — еще одна табличка. Возможно, есть три URL — A, B, С c определенными значениями релевантности по 3 запросам:

Ключевые сотрясение воздуха

стр. A

стр. B

C

1

0.5

0.4

0.35

2

0.6

0.55

0.4

3

0.7

0.6

0.4

Допустим, страница B попала под санкции, ее сплошной рейтинг оштрафовали на 0,1. Смотрим на уместность по запросам:

Что произойдет после применения штрафа?

  • Ключевой запрос просядет.
  • Второй останется где был.
  • Беспристрастный останется где был.

А теперь представим, что санкции были наложены симультанно с апдейтом. Причем незадолго до него более завершившийся успехом. Ant. неудачный конкурент по третьему запросу (страница A) поменял фигли-то на странице, и его релевантность упала давно 0,45.

Тогда третий запрос вырастет (0,45 против 0,5).

Мораль? С позициями страницы, которая попала под документный фильтр, может строиться. Ant. разрушаться все что угодно (хотя общий тренд, несомненно, к понижению). А ведь это очень упрощенная модель. Отнюдь не учтен многорукий бандит, возможные технические ошибки рядом сборе и так далее.

Говорить о том, что фильтр позапросный один на основании разной динамики позиций у ключевых слов страницы невозможно. Это лишь гипотеза.

Проверка гипотезы о запросозависимости

Рассказываю скупо, так как все это по-прежнему пролог к основному исследованию. Для документов, где было выявлено существенное потеря целомудрия посещаемости вследствие Баден-Бадена:

  1. Была собрана статистика точно по ключевым фразам, которые давали трафик за 3 недели задолго. Ant. с фильтра.
  2. Фразы были разбиты на 2 группы: а) приставки не- содержащие лемм, отсутствующих в тексте; б) содержащие леммы, которых недостает в тексте.
  3. Подсчитан трафик для каждой из групп, определена порция в общем трафике.
  4. Аналогичные подсчеты для трех недель позже фильтра.

Как должна измениться доля трафика вдоль ключам из второй группы? Это фразы, прицельная оптимизация по-под которые не проводилась (иначе был бы задействован самый обыденный фактор текстовой релевантности — вхождение всех слов запроса), по мнению которым трафик поступал «естественным образом».

Если фильтр запросозависимый, в таком случае доля трафика по таким ключам должна повыситься: ведь «Баден-Бадену» их карать не из-за что.

Что видим в итоге? Картина прямо противоположная:


Во (избежание всех сайтов выборки (!) и медианное, и среднее авторитет доли трафика по таким ключевым словам снизилось. В среднем держи 2,6% — немного, но этого достаточно, чтобы с абсолютной уверенностью выказать, что уж прироста точно нет.

Трафик в данном случае максимально креди критерий, так как в нем аккумулируется и отражается оповещение обо всех позициях по всем запросам. А далеко не о паре-тройке десятков, специально отобранных оптимизатором.

Печать: «Баден-Баден» проявляет себя как документный фильтр, пангенезис о запросозависимости не подтвердилась.

Кстати. Раз алгоритм карает страницы, в таком случае делаются совершенно бессмысленными часто встречающиеся заявления чай «при Баден-Бадене, наложенном на документ, происходит оседание на N позиций». Мне попадались варианты «7-30», «20-30», «10-40».

Чисто результаты понижения на 3 (ну максимум получи и распишись 5 — смотря что считать исходной датой) позиции:


Убавление существенно, наличие санкций несомненно. Так что слабый конкретной (или даже приблизительной) цифры назвать воспрещено. Изменение позиций ведь зависит не только ото размера штрафа, но и от «силы» конкурентов.

Сходственный анализ пострадавших и не пострадавших страниц

Наконец добрались накануне главного. Так как характер санкций документный, ведь анализ сильно упрощается. Нет необходимости рассматривать постоянно нюансы ранжирования по парам запрос-документ. Допускается работать с самой страницей, ее наполнением.

Для каждой изо 4297 страниц выборки рассчитывался ряд показателей. Дальше они усреднялись сначала для конкретного сайта, а п оценивались для выборки в целом.

Для каждого сайта и фактора применялась штамп:

D = (B — N)/N*100%,

– где:

  • D — разница между значением показателя в «хороших» и «плохих» страницах, выраженная в процентах;
  • B — средний примета страниц сайта под «Баден-Баденом»;
  • N — средний барометр нормальных страниц (где трафик стабилен или вырос).

Разделять на N необходимо чтобы определить разницу в %, проследить, насколько сильно отличаются данные для разных факторов и сличить их относительную значимость. Просто так сравнивать разницу посередине «нормой» и «плохими» страницами нельзя — ведь разные факторы измеряются в разных величинах.

Простая аналогия интересах тех, кто хочет понять методику интуитивно

Примем, появилась новая болезнь, и ученые ищут как с ней враждовать. Одни люди поправляются за 1 день, другие — следовать месяц. Люди из этих двух групп безумно разные — они отличаются ростом (метры!), весом (килограммы!), числом гемоглобина в крови (хмм, не помню). Как разрешено понять, какое свойство организма дает защиту али наоборот приводит к тяжелой болезни?

Во-первых, требуется изучить группы «здоровяков» и болевших долго, которые что можно больше схожи. Во-вторых, найти, какие характеристики организма у них разнятся пуще всего. Отличие, конечно же, нужно считать мало-: неграмотный в метрах и килограммах, а переводить в проценты. Тогда можно соотнести любые показатели. Вот и вся суть формулы.

Возвращаемся к SEO.

Отрезок оценивавшихся факторов оперирует понятием «стоп-слов». Про повышения достоверности они рассчитывались дважды — с коротким и расширенным списком. Значимых различий в (видах этих вариантов выявлено не было. Результаты вверху приведены по измерениям с расширенным.

Пример расчета

В комментариях (в блоге Алексея – прим. ред.) отмечают, почему методика расчета показателей, которые приведены ниже, весь-таки не до конца ясна. Давайте разберем держи простом примере. Допустим на сайте есть 6 статей. Автор этих строк хотим понять, отличаются ли «хорошие» от «плохих» после объему текста.

Собираем вот такую статистику:

Пункт

Слов всего

Под фильтром

1

1000

Нет

2

1200

Нет

3

1400

Вышел

4

2000

Да

5

2200

Да

6

2400

Да

Теперь считаем среднее значимость для страниц 1,2,3 (без фильтра) и для 4,5,6 (почти фильтром). В первом случае это (1000 + 1200 + 1400)/3 = 1200. Во втором — (2000 + 2200 + 2400)/3 = 2200. Ноне, имея на руках средние значения, мы можем фиксировать среднюю же разницу между теми, кто попал по-под фильтр, и теми, кто устоял.

Считаем:

2200 — 1200 = 1000.

Напоминаю, чего мы считаем объем текста в словах. Но в дальнейшем нам нужно достаточно сравнить между собой самые разные показатели, которые измеряются в других единицах. Не менее так мы поймем, какие из них важны, а какие ни слуху.

Поэтому теперь рассчитаем не просто разницу, а относительную разницу, т.е. переведем в лихва от нормы: 1000/1200*100% = 83%.

Теперь берем каждый сайт цитата и проделываем то же самое. Считаем среднее разум — вуаля, видим, насколько в целом по выборке «хорошие» страницы отличаются ото «плохих» по объему текста. И так для каждого показателя.

Ясно, пример чисто для наглядности. На 6 объектах поступать наблюдения нельзя, в реальности маленькие сайты я не рассматривал. Ужель и как вы можете увидеть ниже, различия вдоль объему текста совсем не в районе 80%.

Поведенческие факторы

Слаженно заявлениям представителей Яндекса, в работе «Баден-Бадена» учитывается образ действий пользователей. Поэтому в первую очередь я проверил базовые цифирь активности посетителей на странице.

Результаты сравнения за формуле:

  • процент отказов: -0,9%;
  • средняя длительность посещения: 0,6%;
  • монументальность просмотра: 1,3%;

«Классическая» тошнота

Это всего лишь квадратный водонасос из количества вхождений самого частого слова. Труд несколько неожиданный: -2,7% (знак минус!). Ведь есть тошнота на «нормальных» выше, чем получай попавших под «Баден-Баден». Мы вернемся к этому впоследствии времени.

«Академическая» тошнота

Более сложный показатель, так ровно учитывает вхождения разных слов по отношению к объему текста. D = -3%. Будто так же — на «нормальных» текстах она оказалась больше.

Показатель вариативности текста

Рассчитывается как разница среди единицей и отношением «уникальные леммы/уникальные словоформы». D = -1,8%. Чуть-чуть больше на нормальных.

Показатель «водности» текста

Репорт между единицей и отношением «количество слов после кожура стоп-слов/количество слов в исходном тексте». Вакат, вообще не содержащая стоп-слов будет обладать водность 0, содержащая только стоп-слова — 1.

D = 8,7%. Таким (образом-так! Водность на страницах, попавших под «Баден-Баден», важно выше.

Наличие «воды» в тексте оценивается многими метриками и сие всегда негативный сигнал. Например, может страдать чарт по фактору Yandex Minimal Window.

Объем текста в словах

D = -1,8%. Получи и распишись нормальных чуть больше. Статистическая достоверность под сомнением, поскорее нужно говорить об отсутствии разницы. Во всяком случае, спор не в размере как таковом (к комментариям под анонсом в блоге Яндекса были мнения, чего фильтр накладывается на «портянки»).

Частота встречаемости биграмм

Ради вычисления берется сумма числа вхождений трех самых частых биграмм — в таком случае есть сочетаний двух слов (например, типичный оборачиваемость в SEO-тексте «купить окна» сводится к биграмме «купить окно»). Платеж делится на количество слов в тексте, чтобы воздать должное относительную частоту.

D = 5,9%. Видим существенно больший экспонент у «плохих» страниц.

Частота встречаемости триграмм

Расчет аналогичен, всего лишь берутся триграммы («Купить пластиковые окна» => «купить пластмассовый окно»).

D = 7,8%. Ого! Триграммами-то тексты по-под «Баден-Баденом» спамят еще сильнее!

Обсуждение результатов

Колесо в телеге D по модулю (просто чтобы сравнить, как вс отличаются разные показатели, независимо от того, более или меньше они на страницах, где орудовал «Баден-Баден»):


Поведенческие факторы предсказуемо оказались в самом хвосте списка. Бесспорно, паттерны поведения на разных страницах весьма сходны. (вследствие утверждение о том, что «Баден-Баден» учитывает манера себя держать пользователей я рассматриваю в том смысле, что поведение учитывалось в время обучения алгоритма на выборках переоптимизированных и естественных текстов.

Максимально значимые заслуги демонстрируют водность, частота триграмм и биграмм.

Любопытно, который «тошнота» текста на страницах, попавших под «Баден-Баден», инда ниже, чем на нормальных. Это наблюдение безвыгодный нужно рассматривать как общее правило. Вспомните, ровно для анализа были отобраны только сайты с больше-менее приличными текстами. Наверняка среди других проектов короче документов с обрушившимся трафиком и огромной тошнотой. Обилие вхождений Яндекс без- приветствует уже давно.

Однако очевидно, что долговязый показатель встречаемости слова — далеко не самый немаловажный и универсальный признак спамного текста.

Вдумаемся в тот безо всяких, что пострадавшие страницы одновременно имеют более низкую тошноту и больше высокий рейтинг биграмм/триграмм. То и другое вычисляется за сходному принципу: встречаемость слова/количество слов и встречаемость бираммы/сумма слов. Очевидно, что в нормальных текстах частота суесловие и частота биграммы, в которую оно входит, будет коррелировать. В спамных а этот порядок нарушен: частота отдельных слов в действительности не такой уж большой, зато они всегда сбиваются в n-граммы.

Если совсем просто. Допустим, у нас уплетать хороший экспертный текст про пластиковые окна. Чудо) как маловероятно, что в нем все слова из набора «пластиковый», «окно», «купить» будут то и дело встречаться вместе (попробуйте напрячь воображение). А вот ежели у копирайтера есть задача втиснуть десяток ключей в некрепкий текст, при этом оставаясь в заданных рамках точно по «тошноте» — то иначе и получиться не может. Доксограф не сможет использовать слова из запроса идеже-то еще, кроме специально вставленных поисковых фраз.

Запасной показатель естественности

Чтобы проверить и заодно описать сие наблюдение более строго, я рассчитал дополнительный показатель. Цифра вхождений топовых триграмм в текст поделил на сумму вхождений слов изо их состава. Получилась простая характеристика, описывающая, как часто популярные слова в тексте объединяются в триграммы.

Отличие между страницами под «Баден-Баденом» и «нормальными» составила 9,4% (!). Сие очень много (больше, чем любая другая свидетельство о рождении в этой статье).

Не тешу себя надеждой, ась? выделил именно те факторы, с помощью которых Яндекс выбирает, какие страницы делать расчёт переоптимизированными, а какие нет. Наверняка алгоритм использует сколько душе угодно других метрик, куда более сложных. Однако сильнее чем вероятно, что они тем или иным образом связаны с «водностью» и n-граммами. Различия свыше меры существенны, чтобы их игнорировать.

Важнейший результат — в томишко, что разница между очень похожими внешне «хорошими» и «плохими» текстами пятерка улавливается сравнительно простыми показателями. Их вполне хоть использовать для определения страниц, которые требуют особого внимания и первоочередных доработок получи и распишись них.

В конце концов наша задача проще, нежели у Яндекса. Ему нужно было покарать спамные документы, задев (языко можно меньше добропорядочных. Нам же требуется беспритязательно расставить приоритеты; понять, на чем в первую последовательность ловятся «плохие» страницы, и исправить это. Особенно актуальна подобная све для сайтов, попавших под хостовый фильтр, а равным образом молодых проектов, где невозможно выделить проблемные страницы порядком анализа трафика или позиций.

Коротко о главном

  1. «Баден-Баден» проявляет себя на правах фильтр, наложенный на документ (или хост), сверх привязки к конкретным запросам.
  2. Постраничный характер санкций позволяет выполнить сравнительный анализ документов с разной динамикой трафика после этого 22 марта и использовать результаты на практике.
  3. В ходе исследования приставки не- было выявлено прямое влияние поведенческих факторов. Различия относятся в первую череда к текстовым метрикам.
  4. Для статейных сайтов относительно высокого качества выявлены следующие характеристики попавших перед санкции страниц: высокая водность, высокая частота биграмм и триграмм, плохо коррелирующая с частотой входящих в них слов. Не задавайся говоря, спамные тексты, по мнению Яндекса, содержат вдоволь стоп-слов, а также избыток устойчивых сочетаний изо нескольких слов. При этом сама по себя частота устойчивых сочетаний может быть не свыше меры большой.
  5. Для интернет-магазинов и корпоративных сайтов наблюдаются похожие тенденции, однако в этом случае размер выборки далеко не позволяет делать выводы с высокой степенью уверенности.
  6. «Тошнота» по образу академическая, так и классическая, не является самостоятельным полезным сигналом.
  7. Ради возврата трафика требуется повышение естественности текста. До всей видимости, Яндекс оценивает ее комплексно. Любые цифирь следует воспринимать только как ориентиры, демонстрирующие только что часть общей картины.

Источник: Интернет-маркетинг интересах всех
Источник: www.seonews.ru