Мусор на входе, мусор на выходе – влияние качества данных на анализ данных

У нас есть несколько впечатляющих новых инструментов для сбора, анализа и визуализация данных о продажах/маркетинге в эти дни.
Большинство из нас предполагает, что все точки данных созданы равными. Все, что нам нужно сделать, это обработать их с помощью алгоритмов и извлечь результаты на дисплеи визуализации данных, чтобы обрести новый смысл и принять меры.
Или, может быть, на переднем крае мы загружаем наши данные в механизмы машинного обучения и восхищаемся идеями и рекомендациями, которые выдает машина. Большая ошибка! Давайте взглянем на некоторые подводные камни, связанные с качеством данных, и немного переосмыслим процесс, не так ли?

Ошибки и избыточность
На фундаментальном уровне мы хотим убедиться, что каждая точка данных уникальна и точна. Когда дело доходит до нашей базы данных контактов или потенциальных клиентов, эти данные часто компрометируются, например:
- Неверные или ложные записи в полях данных, таких как имя, адрес электронной почты, адреса, компания и т.д.
- Неполные записи без ключевого индекса, такого как метка времени сбора или источник
- Дубликаты записей одного и того же юридического лица (лица, компании), зарегистрированного несколько раз или из разных источников
- Искаженные данные, особенно в текстовых полях, где владельцы регистрации неправильно написали свои ответы
- Импортированные данные которая структурирована не так, как наша база данных, и эквивалентные поля на самом деле не эквивалентны, например, названия должностей, которые не соответствуют ответам на наши формы
Влияние: Ложные или вводящие в заблуждение данные приводят к неправильной идентификации и неправильной количественной оценке ключевых показателей эффективности. Например, вы не можете рассчитать рейтинг потенциальных клиентов на основе названия должности из базы данных, полной противоречивых названий должностей. Ошибки в данных будут особенно трудными для алгоритмов машинного обучения, которые вынуждены учитывать плохие данные в своих процедурах сопоставления шаблонов, т. Е. Как идентифицировать плохие записи и дисквалифицировать их.
Решения: Во-первых, потратьте время на оценку качества данных с помощью электронных таблиц или других инструментов. Если возможно, используйте рабочие процессы или фильтры электронных таблиц для классификации и обновления систематических ошибок. Возможно, вы сможете использовать проверка данных и улучшающие услуги, такие как службы проверки электронной почты, для выявления и удаления повторяющихся записей или исправления ошибочных записей. Часто требуются ручные манипуляции, такие как идентификация и удаление поддельных записей – если только вы не научите свое приложение искусственного интеллекта делать это за вас!
Выборка и статистическая значимость
Многие из нас собирают необработанные данные о продажах и маркетинге с сайтов Google Analytics и социальных сетей, где мы не контролируем сбор и обработку данных.
Однако у нас есть, по крайней мере, некоторый контроль над тем, что “подвергается” этим приложениям. Мы можем контролировать, какие страницы нашего веб-сайта индексируются Google, и мы должны осуществлять жесткий контроль как за контентом, созданным компанией, так и за контентом, созданным пользователями в социальных сетях, чтобы убедиться, что они соответствуют политике компании и руководящим принципам публикации. Где мы попадаем в беду, так это когда эти элементы управления отсутствуют, например:
- Страницы, которые мы не хотим, чтобы публика видела, индексируются Google, например черновики или устаревшие страницы
- Страницы, проиндексированные Google, больше не существуют (404) или имеют значительные предупреждения, основанные на устаревших методах SEO
- Мы не учимся в полной мере использовать силу Google Analytics и консоль поиска Google – т. е. мы не подключаемся к правильной аналитике в наших отчетах и панелях мониторинга
- У нас недостаточно трафика, кликов, конверсий и других показателей, чтобы сделать выводы. Например, недавно запущенный веб-сайт, который привлекает двадцать посетителей в одну неделю и двадцать пять на следующей. Это довольно большой прирост трафика, верно?
Влияние: Вы всегда хотите быть в курсе ошибок, связанных с пропуском, таких ��ак проблемы с SEO или неполная настройка, или ошибки выборки из-за малого объема. Они могут привести к неверным предположениям и неточной отчетности, что может привести к тому, что кого – то уволят!
Решения: Не спешите запускать этот новый веб-сайт или страницу в социальных сетях, пока она полностью не будет застегнута. Вот новейший checklist чтобы помочь вам пройти через этот процесс. Убедитесь, что вы понимаете, как настроить Google Analytics и консоль поиска Google. Обратите пристальное внимание на то, что вы хотите опубликовать и отслеживать, а также на то, что вы хотите скрыть (или сохранить). Сделайте это правильно, и вы сможете собрать огромное количество информации, в том числе вовлечение посетителей и более.
Ошибки классификации и смещения
На следующем уровне анализа данных мы хотим рассмотреть метаданные, т. е. то, как отдельные данные вписываются в уникальные категории, и посмотреть, как изменения в этих “сегментах” указывают на производительность, например:
- Первое прикосновение (или более поздние) источники атрибуции например, органический поиск, социальные сети, платные кампании в СМИ, электронная почта или мероприятия
- Этапы жизненного цикла свинца например, посетитель, ведущий, MQL или SQL
- Этапы жизненного цикла продаж например, SQL, SAL, Возможность, Ожидающая сделка или Клиент
- Квалификация по продажам критерии, такие как Заинтересованность, Высокий интерес, Контакт, Квалификация, Неквалифицированный
- Критерии стадии сделки например, Открыто, В процессе, Предварительное утверждение, Одобрено, Закрыто-Выиграно и Закрыто-Проиграно
- Этапы жизненного цикла обслуживания клиентов например, Клиент, Возможность продления, Постоянный Клиент или Партнер
- Критерии ПРО например, Имя Учетной записи, Роль, Ранг Влияния, Основной Контакт, Оценка Вовлеченности
- Региональные/Национальные Предубеждения – какая часть ваших данных поступает из места(мест), которые вы хотите привлечь, и является ли остальное бессмысленным?
- Предвзятость в отношении Роли/Профессии – сколько ваших данных поступает от студентов, когда вы пытаетесь привлечь генеральных директоров?
- Временное Смещение – помните, когда вы действительно сильно работали над маркетингом и получали все эти новые данные о трафике и лидах, пять лет назад? Теперь вы сравниваете сегодняшний относительно небольшой объем, с совершенно новой стратегией таргетинга, с этим старым материалом. Хммм.
Impact: Если вы неправильно поймете эти категории или измените их на полпути, последствия могут быть разрушительными. Представьте себе базу данных из миллиона контактов, которые классифицированы неправильно или, по крайней мере, несогласованно. Насколько хорошо будут работать ваши целевые, сегментированные кампании по электронной почте и рекламные кампании? Ваша команда продаж может обращаться в неподходящее время с нерелевантным контентом, потому что их предложения были поданы в неправильном “поле”. Все ваши отчеты и информационные панели также отключены. Давайте посмотрим… В прошлом году у нас было в среднем 200 кв. м в месяц, а в этом году у нас 50 кв. м.
Что случилось? Вы поймете, что у вас есть проблема, когда продемонстрируете свои красивые новые информационные панели руководству, и они вслух зададутся вопросом, почему они наняли вас.
Solutions: Эту проблему трудно преодолеть, поэтому, во что бы то ни стало, подумайте об этом, прежде чем внедрять новый процесс продаж, CRM и систему автоматизации маркетинга. Давай��е начнем с процесса:
- Согласованные Определения – убедитесь, что все на одной странице рассказывают о том, как данные классифицируются. Что представляет собой SQL, например, и каковы исключения, если таковые имеются? Еще более сложным является то, как мы определяем и настраиваем оценка лидов это действительно помогает отделу продаж быстро выявлять квалифицированных потенциальных клиентов?
- Последовательн��е Назначение – разработка рабочих процессов автоматизации с использованием согласованных критериев для назначения или обновления контактов и потенциальных клиентов, а также для обновления оценки потенциальных клиентов
- Последовательная Передовая Практика – вся команда – Отдел продаж, маркетинга и обслуживания клиентов – должна знать, когда уместно обновить запись контакта, компа��ии или сделки и как это сделать правильно. Мы ищем 100% - ную эквивалентность во всех записях здесь.
- Избегая Предвзятости – ну, предполагая, что целью является прозрачность и честная оценка результатов, разработайте рабочие процессы и списки для фильтрации нежелательных характеристик. Если вам наплевать на потенциальных клиентов из-за пределов США, отфильтруйте их, чтобы увидеть, как вы на самом деле справляетесь со своими внутренними целями. Если вы не продаете студентам, отфильтруйте их. Если старые данные пятилетней давности не имеют отношения к тому, что мы делаем сегодня, отфильтруйте их.
Да, иногда наши методы сбора данных и управления данными нуждаются в полном обновлении. В этом случае вам, возможно, придется заново представить себе окончание игры.
Чего вы действительно пытаетесь достичь в области продаж, маркетинга и обслуживания? Возможно, потребуется отказаться от старой базы данных и начать все сначала, но, надеюсь, нет. В любом случае, будьте готовы засучить рукава. Погрузитесь в данные и дайте им честную оценку или передайте их на аутсорсинг кому-нибудь, кто разбирается в этом. После того как вы соберете свои действия по обеспечению качества данных, вам нужно будет принять стратегию и процессы, которые поддерживают и обеспечивают ее соблюдение.
Какое влияние? Безошибочные операции приводят к более точной аналитике, более предсказуемым потокам доходов и повышению прибыльности.
Если вам интересно, как начать собирать инструменты, данные и процесс, свяжитесь с Шепчущий Мартех для бесплатной консультации.