Продолжаем изучать Баден-Баден. Что считается спамом, где пороги срабатывания фильтра?
На волоске опубликовал исследование алгоритма «Баден-Баден№», вроде меня буквально завалили вопросами про конкретные цифры для того выявленных показателей. На что ориентироваться? Какой ярус водности или там индекса биграммы/униграммы оценивать хорошим, а какой — плохим? К чему стремиться около доработке текстов? Где буйки, за которые не полагается заплывать?..
Вопросы совершенно закономерные. Безусловно, понимать точные критерии попадания страницы по-под фильтр было бы просто здорово.
Однако сия задача очень сложна. Поймать различия на нескольких десятках сайтов числом отдельности и усреднить их для всей выборки рядом просто. Еще более важно, что в этом случае наша сестра можем сравнительно уверенно интерпретировать данные. Хостовые факторы картину никак не искажают, абсолютные различия переведены в проценты, благодаря чему их имеется возможность сравнивать. Просто копаем в сторону самых сильных отклонений и безвыездно.
Благодать, основные тенденции выявлены. На практике есть проделать аналогичное исследование для любого сайта и сыскать самые критичные проблемы конкретных текстов.
Если но просто найти среднее значение текстовых метрик у страниц, попавших по-под Баден-Баден, то эти данные сами соответственно себе мало что будут значить. Мы безлюдный (=малолюдный) можем быть уверены, отловленные цифры будут актуальны угоду кому) другого сайта в другой тематике.
В целом, мое отчёт по этому вопросу совпадает с тем, что писал Славнейший Ставский:
Если попытаться определить пороги срабатывания алгоритма, ведь это практически нереальная, на мой взгляд, цель. В выборках всегда будут примеры, которые должны навалиться, но не падают. И, возможно, наоборот. 900 факторов напротив одного-двух факторов текстового антиспама — всегда будут ситуации, нет-нет да и документы будут вытягиваться наверх другими сигналами.
Тем безлюдный (=малолюдный) менее даже сомнительные ориентиры могут пригодиться (опора не забывать, откуда они взялись, и не отсчитывать их высеченными в камне). Попробуем их выделить, чтоб иметь отправную точку для анализа, задать систему координат.
Несмотря на то, зачем я вру. Главная задача — иметь ссылку, которую позволено отправить в ответ на вопрос «много или недовольно, когда в анализе текстов в bez-bubna.com получаются такие цифры»:
Методика: чего и как считаем
Выборка — та же, что и в прошлом исследовании ((хорошо, для этих страниц уже посчитаны все значимые текстовые метрики, предуготовлено, попал ли URL под санкции, отброшен откровенный рассылка). Всего 4297, из них под «Баден-Баденом» 2772.
Тем не менее теперь мы не разбиваем выборку по сайтам (нас интересуют универсальные цифры!), а смотрим средние значения показателей вдоль всем URL сразу, сравнивая «хорошие» и «плохие».
Разумеется, любая маржа между средними величинами может оказаться случайной. Очень важно отличать истинные различия от случайных. К счастью, тутовник не нужно изобретать велосипед — метод для проверки статистической значимости найденных различий появился побольше века назад. Это t-критерий Стьюдента. Интересующиеся могут загуглить иначе почитать самое простое объяснение, какое я только встречал, сверху сайте «Статистика и котики».
Для понимания этой статьи в достаточной мере помнить, что с помощью t-критерия вычисляется вероятность отсутствия различий в среде средними из двух выборок. Грубо говоря, делать что для той или иной метрики (например, тошноты) такого склада шанс больше 1%, то считаем разницу сообразно параметру не доказанной. Если меньше — то берем держи вооружение и рассматриваем среднее значение для «плохих» страниц ни дать ни взять опасный порог (возможны и другие интерпретации, важнее всего делов наличие/отсутствие различий как таковое).
Результаты в области средним значениям и t-критерию
Вот моя рабочая табличка:
Медленно вглядываться в нее не надо, главный вывод — статистически достоверные различия демонстрируют точию средние значения по академической тошноте и по водности (возможность значительно меньше 1%, выделено зеленым). Все остальное заключать во внимание нельзя.
Полезным ориентиром можно подсчитывать только порог по водности. Видим, что среднее в (видах плохих страниц почти 0,31, а для хороших — 0,29. В общем-ведь результат ожидаем. «Вода» — естественная часть любых статей, да даже небольшое перенасыщение стоп-словами ухудшает цвет текста. Это как машинное масло: без него никуда, так если перелить — мотор не обрадуется.
Конечно, «нормальная» водность может зверски меняться в зависимости от тематики (например, в юридических текстах бессчётно перечислений и мало вводных оборотов, а в статьях о литературе – компаратив наоборот).
Второй параметр, для которого различия достоверны, академическая отвращение. Вряд ли он особо нам поможет. Тем больше что из таблицы можно сделать вывод — «пихай сильнее ключей, и будет хорошо». Ведь на страницах подо фильтром тошнота ниже. Этот парадокс я подробно разобрал в предыдущей статье.
Хоть ли найти дополнительные пороги? Можно!
Введем поправку для водность
Итак, мы получили еще одно констатация в пользу того, что тексты с высокой водностью Яндекс отнюдь не любит. Естественно, мы хотим знать больше. Что-нибудь еще ему может не нравиться, когда с водностью любое в порядке? Сформируем новую выборку проблемных страниц. Возьмем угоду кому) анализа только те, где водность не превышает 0,3:
Ого, си куда интереснее!
- Исчезла какая-либо статистическая значимость в отношении тошноты. После всей видимости, она и правда никак не влияет получи наложение фильтра (напоминаю, что я работал с выборкой будет качественных сайтов, где этот показатель не зашкаливал).
- Появились значимые различия угоду кому) показателя вариативности. Впрочем, в абсолютном выражении разница невелика: 0,23 противу 0,24. Как и водность, это весьма устойчивый бонитет, с небольшой изменчивостью.
- Наконец, есть достоверная разница (обратите тщательность на количество нулей в четвертом столбце!) по тошноте биграмм и триграмм, индексам биграммы-униграмы и триграммы-униграммы.
Выводы
Пропущу мильон оговорок и напоминаний о том, что реальная картина сложнее, нежели ограниченная выборка, что различие по параметру а ещё не говорит о причинно-следственной связи и т.д. и т.п. Надеюсь, сие и так понятно. По уму, конечно, нужно создавать модель с использованием логистической регрессии. Проще говоря — намечать формулу, которая бы определяла вероятность попадания страницы по-под фильтр на основе сразу всех значимых факторов. Я двигаюсь в этом направлении, только прогнозировать что-то сложно, поэтому пока работаем с тем, который есть.
Итак, отправными точками для анализа страниц-кандидатов возьми попадание под Баден-Баден можно считать:
- Водность 0,31 и паче.
- Вариативность 0,23 и менее.
- Тошноту биграмм 3,6 и сильнее
- Тошноту триграмм 1,8 и более.
- Индекс биграммы/униграммы 32 и побольше.
- Индекс триграммы/униграммы 17 и более.
Источник:
Новости
-
Нормативные документы по повышению квалификации
1. Узаконение Совета Министров Республики Беларусь через 22 июня 2011...
- Опубликован 8 января, 2024
- 0
-
Как сократить количество отказов от «Корзины»
Возможно, каждый владелец интернет-магазина считает, что «Корзиночка» – это очень...
- Опубликован 19 августа, 2019
- 0
-
#SEOnews14: мы празднуем – вы получаете подарки!
У SEOnews сегодняшнее день рождения! Уже 14 лет SEOnews по...
- Опубликован 19 августа, 2019
- 0
-
5 книг от эксперта: Андрей Калинин (Mail.ru Group)
А ваша милость любите читать? Если да, то наша часть...
- Опубликован 19 августа, 2019
- 0
-
Планы на неделю: покорение ТОПа выдачи и 8 часов разборов кейсов
Каждое воскресенье чтение SEOnews публикует подборку образовательных мероприятий на ближайшие...
- Опубликован 18 августа, 2019
- 0
-
Типичные ошибки при запуске рекламы в Яндекс.Директ: как сделать сразу правильно, чтобы не слить бюджет
Контекстная раскручивание — уникальный канал привлечения целевой аудитории получи и...
- Опубликован 18 августа, 2019
- 0
-
7 способов перевода аудио и видео в текст
Давайте начистоту. (у)потреблять люди, которые ненавидят голосовые сообщения. Есть челядь,...
- Опубликован 18 августа, 2019
- 0
нет комментариев