Новости

Расчет трафика по небрендовым запросам при помощи R

Автор Дата 17.08.2018

Новообращенный на SEOnews вышла статья о способе расчета доли небрендового трафика с поисковых систем. В комментариях я коротко поделился своим способом получения данных, кто привлек внимание читателей. Что ж, попробую рассказать о нем подробнее.

Так чтоб не утруждать себя сбором данных из разных интерфейсов систем аналитики, воспользуемся замечательной R Studio. Исполнение) начала краткая справка из Википедии.

R — язык программирования к статистической обработки данных и работы с графикой, а также незамужняя программная среда вычислений с открытым исходным кодом в рамках проекта GNU.

Нам но потребуется минимум его возможностей.

Опустим подробности установки R и приступим к выгрузке данных. Чтобы работы нам понадобятся следующие библиотеки:

Загружаем и устанавливаем их Водан раз. При последующих запусках эта часть скрипта нам безлюдный (=малолюдный) понадобится. RGoogleAnalytics была удалена из CRAN, же есть ее архив, который можно вручную распаковать в нужную директорию. Источник на библиотеку: https://github.com/Tatvic/RGoogleAnalytics (шелковичное) дерево же можно будет найти всю необходимую документацию за формированию запросов).

Подключаем установленные библиотеки:

Lubridate присоединяется автопилотом.

Чтобы появилась возможность выгружать из Google Search Console больше 5000 рядов, прописываем следующие опции для библиотеки:

Там нужно получить client id и client secret для работы с API Google Analytics. Ради этого нужно зарегистрировать свое приложение тут.

Запишем даты в переменные, которые будут затем использоваться во всех запросах к API (формат – YYYY-NN-DD). Близ последующей работе в идеале нужно будет задавать как их:

Формируем запрос к API Яндекса. По сути, сие обычный GET запрос.

В 36 строке необходимо указать комната счетчика метрики.

В 42 строке – регулярное выражение, исключающее брендовые требования, где маски разделяются вертикальной чертой. Например ‘бренд|brand|брэнд’

В 43 строке нужно внедрить токен. Инструкции по получению токена можно признать тут.

Далее несколько простых манипуляций, при помощи которых автор обрабатываем полученные данные по небрендовому трафику Яндекса и сумму записываем в переменную «х».

П этих шагов нужна, чтобы была возможность пролистнуть промежуточный результат.

Переходим к выгрузке данных из Google Analytics. Перед этим мы уже сохраняли токен. Теперь мы его загружаем и проверяем достоверность.

Далее выстраиваем запрос к API GA для выгрузки органических сессий с Яндекса. В строке 79 прописываем номер счетчика GA, отнюдуже будем выгружать данные.

Делаем запрос к API и записываем показатели в датафрейм. Настройка split_daywise = T позволяет выгружать данное по дням, что исключает семплинг.

Суммируем сессии с Яндекса в переменную «y» и объединяем их с «x» в одном датафрейме.

Переходим к данным с Google Search Console.

Авторизуемся, при помощи функции scr_auth формируем просьба к API. Для dimensionFilterExp нужно каждую маску указывать в качестве кого отдельный фильтр. Например: dimensionFilterExp =c(‘query!~бренд’, ‘query!~brand’, ‘query!~брэнд’). Документацию согласно формированию таких запросов можно найти тут.

Суммируем небрендовые требования Google и записываем их в переменную x_sum.

Аналогично органическому трафику изо Яндекс выгружаем сессии из Google. Их сумму записываем в переменную y_sum:

Паки (и паки) несколько простых действий, в которых мы объединяем тутти наши данные в одну табличку:

На выходе получаем следующее:

Есть прямо в R посчитать долю в процентах, но мне нужны способности в выгрузке именно в таком виде.

Далее прописываем поездка к файлу и формируем его название. И, собственно, сохраняем обложка в xlsx.

Важно помнить, что этот метод в свой черед не дает абсолютно точный результат. Данные в волюм же Google Search Console по кликам хватает ощутимо отличаются от данных по трафику google / organic. Скрипт нетрудно позволяет достаточно быстро собрать данные из разных интерфейсов, отшлифовать их и выдать результат.

Также стоит обратить уважение на то, что данные в GSC обновляются с задержкой в 2–3 дня.

Источник: www.seonews.ru