Какие страницы теряют трафик от «Баден-Бадена» на качественных статейных сайтах
С анонса нового алгоритма Яндекса известно только, как от него могут пострадать страницы с переоптимизированным контентом. В качестве примера приводится нелепый фрагмент, где на все лады склоняется ключевик «SEO-текст». Рабочих способов отличить «плохие» и «хорошие» тексты не приводится.
Работать наобум лазаря — не наш метод, так что попробуем экстрагировать критерии самостоятельно.
Объект и методика
В первую очередь меня интересовало, около каких условиях санкции накладываются на более-в меньшей мере приличные страницы, когда вполне можно читать, невыгодный морщась в каждом абзаце от корявой оптимизации. Испытание крайних случаев — с сотней вхождений, выделенных жирным — не думаю ли принес бы ценные данные, тут и в такой степени все ясно.
Исследование опирается на простую идею — провести параллель характеристики двух групп страниц одного и того а сайта:
- где наблюдается значительная просадка трафика в пора запуска «Баден-Бадена».
- где посещаемость стабильна другими словами выросла.
Благодаря анализу внутри одного хоста наша сестра уравниваем множество факторов и можем быть более уверены в выводах.
Лишь удалось собрать 68 сайтов, где трафик с Яндекса значительно просел после 22 марта 2017 (спасибо по всем статьям, кто прислал свои проекты на анализ!).
В SEO-исследованиях размер выписка — это своеобразный культ, однако я уверен, что камо важнее ее однородность. Поэтому беспощадно удалял с рассмотрения все, что могло исказить результат.
В частности, я отбраковал сайты:
- С малым численностью посещаемых url (если документ до фильтра приносил не столь 100 посетителей в месяц с Яндекса, падение трафика статистически маловероятно).
- Где трафик с Google также имел выраженную тенденцию к снижению.
- С высоким разнообразием контента (тематически не то — не то структурно).
- С высокой зависимостью от сезона.
- Где вдобавок сработал хостовый фильтр.
- Оптимизированные совсем топорно/неважный (=маловажный) несущие вообще никакой полезной информации (первый условие был полностью формализован, второй — частично).
Также были вынесены изо основного исследования интернет-магазины и сайты услуг (их было не так в выборке; в отличие от статейных проектов, текст в этом месте зачастую не играет роли и само его реальность порой говорит о чрезмерной оптимизации).
В итоге остался 31 сайт и 4297 документов во (избежание анализа.
Прежде чем перейти к сравнению характеристик успешных и потерявших пробка страниц, необходимо было прояснить еще один серьёзный вопрос.
«Баден-Баден» — запросный или документный?
Точно я писал в недавнем обзоре публикаций по Баден-Бадену, с официальных заявлений следует, что санкции «первой волны» применяются к странице (объява от 23 марта). Однако многие SEO-специалисты называют «Баден-Баден» запросозависимым, указывая нате то, что позиции сильнее всего просели у ключевых фраз, перед которые текст затачивался в первую очередь.
Это малограмотный простой спор о терминах, а ключевой момент. Давайте разберемся.
Нежели вообще отличаются документный и запросный фактор/фильтр?
(Прибегать «фильтр» по отношению к Баден-Бадену не совершенно точно, использую для краткости).
Различие — внутри алгоритмов поисковой системы.
Запросный |
Документный |
|
Для что влияет |
На ранжирование по конкретному запросу/группе |
Нате «общий рейтинг» страницы по всем запросам |
Прототип фактора |
Анкорный вес |
Статический вес |
Может ли перестройка общего рейтинга повлиять на позиции только группы запросов? Насколько угодно! Чтобы было совсем наглядно — еще одна табличка. Возможно, есть три URL — A, B, С c определенными значениями релевантности по 3 запросам:
Ключевые сотрясение воздуха |
стр. A |
стр. B |
C |
1 |
0.5 |
0.4 |
0.35 |
2 |
0.6 |
0.55 |
0.4 |
3 |
0.7 |
0.6 |
0.4 |
Допустим, страница B попала под санкции, ее сплошной рейтинг оштрафовали на 0,1. Смотрим на уместность по запросам:
Что произойдет после применения штрафа?
- Ключевой запрос просядет.
- Второй останется где был.
- Беспристрастный останется где был.
А теперь представим, что санкции были наложены симультанно с апдейтом. Причем незадолго до него более завершившийся успехом. Ant. неудачный конкурент по третьему запросу (страница A) поменял фигли-то на странице, и его релевантность упала давно 0,45.
Тогда третий запрос вырастет (0,45 против 0,5).
Мораль? С позициями страницы, которая попала под документный фильтр, может строиться. Ant. разрушаться все что угодно (хотя общий тренд, несомненно, к понижению). А ведь это очень упрощенная модель. Отнюдь не учтен многорукий бандит, возможные технические ошибки рядом сборе и так далее.
Говорить о том, что фильтр позапросный один на основании разной динамики позиций у ключевых слов страницы невозможно. Это лишь гипотеза.
Проверка гипотезы о запросозависимости
Рассказываю скупо, так как все это по-прежнему пролог к основному исследованию. Для документов, где было выявлено существенное потеря целомудрия посещаемости вследствие Баден-Бадена:
- Была собрана статистика точно по ключевым фразам, которые давали трафик за 3 недели задолго. Ant. с фильтра.
- Фразы были разбиты на 2 группы: а) приставки не- содержащие лемм, отсутствующих в тексте; б) содержащие леммы, которых недостает в тексте.
- Подсчитан трафик для каждой из групп, определена порция в общем трафике.
- Аналогичные подсчеты для трех недель позже фильтра.
Как должна измениться доля трафика вдоль ключам из второй группы? Это фразы, прицельная оптимизация по-под которые не проводилась (иначе был бы задействован самый обыденный фактор текстовой релевантности — вхождение всех слов запроса), по мнению которым трафик поступал «естественным образом».
Если фильтр запросозависимый, в таком случае доля трафика по таким ключам должна повыситься: ведь «Баден-Бадену» их карать не из-за что.
Что видим в итоге? Картина прямо противоположная:
Во (избежание всех сайтов выборки (!) и медианное, и среднее авторитет доли трафика по таким ключевым словам снизилось. В среднем держи 2,6% — немного, но этого достаточно, чтобы с абсолютной уверенностью выказать, что уж прироста точно нет.
Трафик в данном случае максимально креди критерий, так как в нем аккумулируется и отражается оповещение обо всех позициях по всем запросам. А далеко не о паре-тройке десятков, специально отобранных оптимизатором.
Печать: «Баден-Баден» проявляет себя как документный фильтр, пангенезис о запросозависимости не подтвердилась.
Кстати. Раз алгоритм карает страницы, в таком случае делаются совершенно бессмысленными часто встречающиеся заявления чай «при Баден-Бадене, наложенном на документ, происходит оседание на N позиций». Мне попадались варианты «7-30», «20-30», «10-40».
Чисто результаты понижения на 3 (ну максимум получи и распишись 5 — смотря что считать исходной датой) позиции:
Убавление существенно, наличие санкций несомненно. Так что слабый конкретной (или даже приблизительной) цифры назвать воспрещено. Изменение позиций ведь зависит не только ото размера штрафа, но и от «силы» конкурентов.
Сходственный анализ пострадавших и не пострадавших страниц
Наконец добрались накануне главного. Так как характер санкций документный, ведь анализ сильно упрощается. Нет необходимости рассматривать постоянно нюансы ранжирования по парам запрос-документ. Допускается работать с самой страницей, ее наполнением.
Для каждой изо 4297 страниц выборки рассчитывался ряд показателей. Дальше они усреднялись сначала для конкретного сайта, а п оценивались для выборки в целом.
Для каждого сайта и фактора применялась штамп:
D = (B — N)/N*100%,
– где:
- D — разница между значением показателя в «хороших» и «плохих» страницах, выраженная в процентах;
- B — средний примета страниц сайта под «Баден-Баденом»;
- N — средний барометр нормальных страниц (где трафик стабилен или вырос).
Разделять на N необходимо чтобы определить разницу в %, проследить, насколько сильно отличаются данные для разных факторов и сличить их относительную значимость. Просто так сравнивать разницу посередине «нормой» и «плохими» страницами нельзя — ведь разные факторы измеряются в разных величинах.
Простая аналогия интересах тех, кто хочет понять методику интуитивно
Примем, появилась новая болезнь, и ученые ищут как с ней враждовать. Одни люди поправляются за 1 день, другие — следовать месяц. Люди из этих двух групп безумно разные — они отличаются ростом (метры!), весом (килограммы!), числом гемоглобина в крови (хмм, не помню). Как разрешено понять, какое свойство организма дает защиту али наоборот приводит к тяжелой болезни?
Во-первых, требуется изучить группы «здоровяков» и болевших долго, которые что можно больше схожи. Во-вторых, найти, какие характеристики организма у них разнятся пуще всего. Отличие, конечно же, нужно считать мало-: неграмотный в метрах и килограммах, а переводить в проценты. Тогда можно соотнести любые показатели. Вот и вся суть формулы.
Возвращаемся к SEO.
Отрезок оценивавшихся факторов оперирует понятием «стоп-слов». Про повышения достоверности они рассчитывались дважды — с коротким и расширенным списком. Значимых различий в (видах этих вариантов выявлено не было. Результаты вверху приведены по измерениям с расширенным.
Пример расчета
В комментариях (в блоге Алексея – прим. ред.) отмечают, почему методика расчета показателей, которые приведены ниже, весь-таки не до конца ясна. Давайте разберем держи простом примере. Допустим на сайте есть 6 статей. Автор этих строк хотим понять, отличаются ли «хорошие» от «плохих» после объему текста.
Собираем вот такую статистику:
Пункт |
Слов всего |
Под фильтром |
1 |
1000 |
Нет |
2 |
1200 |
Нет |
3 |
1400 |
Вышел |
4 |
2000 |
Да |
5 |
2200 |
Да |
6 |
2400 |
Да |
Теперь считаем среднее значимость для страниц 1,2,3 (без фильтра) и для 4,5,6 (почти фильтром). В первом случае это (1000 + 1200 + 1400)/3 = 1200. Во втором — (2000 + 2200 + 2400)/3 = 2200. Ноне, имея на руках средние значения, мы можем фиксировать среднюю же разницу между теми, кто попал по-под фильтр, и теми, кто устоял.
Считаем:
2200 — 1200 = 1000.
Напоминаю, чего мы считаем объем текста в словах. Но в дальнейшем нам нужно достаточно сравнить между собой самые разные показатели, которые измеряются в других единицах. Не менее так мы поймем, какие из них важны, а какие ни слуху.
Поэтому теперь рассчитаем не просто разницу, а относительную разницу, т.е. переведем в лихва от нормы: 1000/1200*100% = 83%.
Теперь берем каждый сайт цитата и проделываем то же самое. Считаем среднее разум — вуаля, видим, насколько в целом по выборке «хорошие» страницы отличаются ото «плохих» по объему текста. И так для каждого показателя.
Ясно, пример чисто для наглядности. На 6 объектах поступать наблюдения нельзя, в реальности маленькие сайты я не рассматривал. Ужель и как вы можете увидеть ниже, различия вдоль объему текста совсем не в районе 80%.
Поведенческие факторы
Слаженно заявлениям представителей Яндекса, в работе «Баден-Бадена» учитывается образ действий пользователей. Поэтому в первую очередь я проверил базовые цифирь активности посетителей на странице.
Результаты сравнения за формуле:
- процент отказов: -0,9%;
- средняя длительность посещения: 0,6%;
- монументальность просмотра: 1,3%;
«Классическая» тошнота
Это всего лишь квадратный водонасос из количества вхождений самого частого слова. Труд несколько неожиданный: -2,7% (знак минус!). Ведь есть тошнота на «нормальных» выше, чем получай попавших под «Баден-Баден». Мы вернемся к этому впоследствии времени.
«Академическая» тошнота
Более сложный показатель, так ровно учитывает вхождения разных слов по отношению к объему текста. D = -3%. Будто так же — на «нормальных» текстах она оказалась больше.
Показатель вариативности текста
Рассчитывается как разница среди единицей и отношением «уникальные леммы/уникальные словоформы». D = -1,8%. Чуть-чуть больше на нормальных.
Показатель «водности» текста
Репорт между единицей и отношением «количество слов после кожура стоп-слов/количество слов в исходном тексте». Вакат, вообще не содержащая стоп-слов будет обладать водность 0, содержащая только стоп-слова — 1.
D = 8,7%. Таким (образом-так! Водность на страницах, попавших под «Баден-Баден», важно выше.
Наличие «воды» в тексте оценивается многими метриками и сие всегда негативный сигнал. Например, может страдать чарт по фактору Yandex Minimal Window.
Объем текста в словах
D = -1,8%. Получи и распишись нормальных чуть больше. Статистическая достоверность под сомнением, поскорее нужно говорить об отсутствии разницы. Во всяком случае, спор не в размере как таковом (к комментариям под анонсом в блоге Яндекса были мнения, чего фильтр накладывается на «портянки»).
Частота встречаемости биграмм
Ради вычисления берется сумма числа вхождений трех самых частых биграмм — в таком случае есть сочетаний двух слов (например, типичный оборачиваемость в SEO-тексте «купить окна» сводится к биграмме «купить окно»). Платеж делится на количество слов в тексте, чтобы воздать должное относительную частоту.
D = 5,9%. Видим существенно больший экспонент у «плохих» страниц.
Частота встречаемости триграмм
Расчет аналогичен, всего лишь берутся триграммы («Купить пластиковые окна» => «купить пластмассовый окно»).
D = 7,8%. Ого! Триграммами-то тексты по-под «Баден-Баденом» спамят еще сильнее!
Обсуждение результатов
Колесо в телеге D по модулю (просто чтобы сравнить, как вс отличаются разные показатели, независимо от того, более или меньше они на страницах, где орудовал «Баден-Баден»):
Поведенческие факторы предсказуемо оказались в самом хвосте списка. Бесспорно, паттерны поведения на разных страницах весьма сходны. (вследствие утверждение о том, что «Баден-Баден» учитывает манера себя держать пользователей я рассматриваю в том смысле, что поведение учитывалось в время обучения алгоритма на выборках переоптимизированных и естественных текстов.
Максимально значимые заслуги демонстрируют водность, частота триграмм и биграмм.
Любопытно, который «тошнота» текста на страницах, попавших под «Баден-Баден», инда ниже, чем на нормальных. Это наблюдение безвыгодный нужно рассматривать как общее правило. Вспомните, ровно для анализа были отобраны только сайты с больше-менее приличными текстами. Наверняка среди других проектов короче документов с обрушившимся трафиком и огромной тошнотой. Обилие вхождений Яндекс без- приветствует уже давно.
Однако очевидно, что долговязый показатель встречаемости слова — далеко не самый немаловажный и универсальный признак спамного текста.
Вдумаемся в тот безо всяких, что пострадавшие страницы одновременно имеют более низкую тошноту и больше высокий рейтинг биграмм/триграмм. То и другое вычисляется за сходному принципу: встречаемость слова/количество слов и встречаемость бираммы/сумма слов. Очевидно, что в нормальных текстах частота суесловие и частота биграммы, в которую оно входит, будет коррелировать. В спамных а этот порядок нарушен: частота отдельных слов в действительности не такой уж большой, зато они всегда сбиваются в n-граммы.
Если совсем просто. Допустим, у нас уплетать хороший экспертный текст про пластиковые окна. Чудо) как маловероятно, что в нем все слова из набора «пластиковый», «окно», «купить» будут то и дело встречаться вместе (попробуйте напрячь воображение). А вот ежели у копирайтера есть задача втиснуть десяток ключей в некрепкий текст, при этом оставаясь в заданных рамках точно по «тошноте» — то иначе и получиться не может. Доксограф не сможет использовать слова из запроса идеже-то еще, кроме специально вставленных поисковых фраз.
Запасной показатель естественности
Чтобы проверить и заодно описать сие наблюдение более строго, я рассчитал дополнительный показатель. Цифра вхождений топовых триграмм в текст поделил на сумму вхождений слов изо их состава. Получилась простая характеристика, описывающая, как часто популярные слова в тексте объединяются в триграммы.
Отличие между страницами под «Баден-Баденом» и «нормальными» составила 9,4% (!). Сие очень много (больше, чем любая другая свидетельство о рождении в этой статье).
Не тешу себя надеждой, ась? выделил именно те факторы, с помощью которых Яндекс выбирает, какие страницы делать расчёт переоптимизированными, а какие нет. Наверняка алгоритм использует сколько душе угодно других метрик, куда более сложных. Однако сильнее чем вероятно, что они тем или иным образом связаны с «водностью» и n-граммами. Различия свыше меры существенны, чтобы их игнорировать.
Важнейший результат — в томишко, что разница между очень похожими внешне «хорошими» и «плохими» текстами пятерка улавливается сравнительно простыми показателями. Их вполне хоть использовать для определения страниц, которые требуют особого внимания и первоочередных доработок получи и распишись них.
В конце концов наша задача проще, нежели у Яндекса. Ему нужно было покарать спамные документы, задев (языко можно меньше добропорядочных. Нам же требуется беспритязательно расставить приоритеты; понять, на чем в первую последовательность ловятся «плохие» страницы, и исправить это. Особенно актуальна подобная све для сайтов, попавших под хостовый фильтр, а равным образом молодых проектов, где невозможно выделить проблемные страницы порядком анализа трафика или позиций.
Коротко о главном
- «Баден-Баден» проявляет себя на правах фильтр, наложенный на документ (или хост), сверх привязки к конкретным запросам.
- Постраничный характер санкций позволяет выполнить сравнительный анализ документов с разной динамикой трафика после этого 22 марта и использовать результаты на практике.
- В ходе исследования приставки не- было выявлено прямое влияние поведенческих факторов. Различия относятся в первую череда к текстовым метрикам.
- Для статейных сайтов относительно высокого качества выявлены следующие характеристики попавших перед санкции страниц: высокая водность, высокая частота биграмм и триграмм, плохо коррелирующая с частотой входящих в них слов. Не задавайся говоря, спамные тексты, по мнению Яндекса, содержат вдоволь стоп-слов, а также избыток устойчивых сочетаний изо нескольких слов. При этом сама по себя частота устойчивых сочетаний может быть не свыше меры большой.
- Для интернет-магазинов и корпоративных сайтов наблюдаются похожие тенденции, однако в этом случае размер выборки далеко не позволяет делать выводы с высокой степенью уверенности.
- «Тошнота» по образу академическая, так и классическая, не является самостоятельным полезным сигналом.
- Ради возврата трафика требуется повышение естественности текста. До всей видимости, Яндекс оценивает ее комплексно. Любые цифирь следует воспринимать только как ориентиры, демонстрирующие только что часть общей картины.
Источник: Интернет-маркетинг интересах всех
Источник:
Новости
-
Нормативные документы по повышению квалификации
1. Узаконение Совета Министров Республики Беларусь через 22 июня 2011...
- Опубликован 8 января, 2024
- 0
-
Как сократить количество отказов от «Корзины»
Возможно, каждый владелец интернет-магазина считает, что «Корзиночка» – это очень...
- Опубликован 19 августа, 2019
- 0
-
#SEOnews14: мы празднуем – вы получаете подарки!
У SEOnews сегодняшнее день рождения! Уже 14 лет SEOnews по...
- Опубликован 19 августа, 2019
- 0
-
5 книг от эксперта: Андрей Калинин (Mail.ru Group)
А ваша милость любите читать? Если да, то наша часть...
- Опубликован 19 августа, 2019
- 0
-
Планы на неделю: покорение ТОПа выдачи и 8 часов разборов кейсов
Каждое воскресенье чтение SEOnews публикует подборку образовательных мероприятий на ближайшие...
- Опубликован 18 августа, 2019
- 0
-
Типичные ошибки при запуске рекламы в Яндекс.Директ: как сделать сразу правильно, чтобы не слить бюджет
Контекстная раскручивание — уникальный канал привлечения целевой аудитории получи и...
- Опубликован 18 августа, 2019
- 0
-
7 способов перевода аудио и видео в текст
Давайте начистоту. (у)потреблять люди, которые ненавидят голосовые сообщения. Есть челядь,...
- Опубликован 18 августа, 2019
- 0
нет комментариев