Одной из важных способностей специалиста по анализу данных является постановка вопросов. Вопросы важны, потому что они влияют на ход анализа. Дэн Ротштейн – профессор Института Правильных Вопросов выразился по этому поводу следующим образом: Вопросы как карманные фонарик, освящают путь, по которому можно идти. Ротштейн отмечает, что вопросы не только стимулируют мышление, но и могут направить и фокусировать внимание при анализе. В рамках своей преподавательской деятельности он просит студентов думать, только задавая вопросы, и анализирую тем самым ситуацию. По словам Ротштейна, этот метод открывает „ворота “ для силы воображения. Мысли начинают течь – в форме вопросов, и студенты проявляют больший интерес к теме.

На мой взгляд, вопросы – это мотор двигающий нас вперёд. Умные вопросы очень влиятельные. Я верю, в то, что вопросы выводят нас из состояния неосведомленности к познанию.

Вопросы важны для моей работы в качестве аналитика данных. Каждый анализ я начинаю именно с поставления вопросов. Вопросы влияют на историю, которую вы хотите рассказать с помощью данных. При этом ответы играют вторичную роль. Вопросы важнее, чем ответы!

В этом блоге я выбрал наиболее распространенные вопросы, которые поставляются в процессе анализа. Эти вопросы собранны по профессиональному опыту.

КОНТЕКСТ

В начале анализа (т.е. как только я открываю электронный документ с данными) я начинаю задавать как можно больше вопросов. Неважно, найду я ответы или нет. Главное для меня получить общее представление о данных и понять контекст. С технической точки зрения, первый шаг заключается в проведении исследовательского и пояснительного анализа.

Исследовательский анализ
  • Какая тема представлена?
  • Сколько у меня данных?
  • Какие измерения представлены в данных?
  • О каком периоде времени идёт речь?
  • Каковы наиболее важные показатели?
  • Имеют ли метрики надлежащий контекст?
  • Что такое „хорошо“ и что такое „плохо“ в контексте?
  • Имеются ли данные на каждый год? Или существуют временные пробелы? Сколько существует временных пробелов и как это повлияет на анализ данных?
  • Это данные опроса? Сколько человек приняло участие в опросе?
  • Или же данные представляют собой набор информации, собранными датчиками измерений?
  • Существуют ли какие-либо географические измерения? Какие страны перечислены?

Также я строю обычные графики (как например столбцы или круговые графики) или диаграммы рассеяния, для того чтобы понять лучше контекст и найти некоторые закономерности/аномалии.

При этом важны следующие вопросы:

  • Существует ли какое то взаимоотношение между определёнными метриками? О каком отношении идёт речь? (Имеется ввиду позитивное или негативное отношение)
  • Так же имеют важное значение такие статистические данные, как  среднее арифметическое число, медиана, квантиль и т.д.

 

Пояснительный анализ
  • Правильно ли я понимаю соответствующие метрики и их контекст?
  • Понятны ли все сокращения в контексте?- Могу ли я объяснить положительный/отрицательный тренд?
  • Могу ли я объяснить почему некоторых данных не хватает? (Тем самым существеют пробелы при построении графиков)
  • Какие факты могут объяснить недохватку данных?

 

ПУБЛИКА

Не забывайте о своей публики (имеются ввиду пользователи вашей работы или аудитория) и их потребностях. В книге „Рассказ с данными“ Коул Нассбаумер Кнаффлик отмечает следующее: Чем конкретнее вы будете знать вашу публику, тем успешнее вы сможете сформулировать контекст и построить графики.

  • Следующие вопросы помогут вам понять вашу публику:
  • Кто ваша аудитория и какие интересы она представляет?
  • Вы создаете анализ для неизвестной аудитории или ваша аудитория относится к вашей организации?
  • Спросите себя, если бы вы были на их месте, что бы вы хотели знать?
  • Какие аспекты могут быть актуальны для них?
  • Почему стоит представить ваши данные с точки зрения „этой“, а не „другой“ точки зрения?
  • Почему эта точка зрения анализа, более важная для анализа?
  • На сколько хорошо ваша аудитория проинформирована о данной теме?
  • Какие факты им известны?
  • Как вы можете предоставить вашей аудитории больше информации, чем требуется? Есть ли дополнительные сведения о данных, о которых аудитория может не знать?

 

ПЕРЕРАБОТКА ДАННЫХ

Как только вы поняли контекст, пришло время «очистить» данные, т.е. нужно элиминировать ошибки в них. Этот шаг является необходимым для графиков. Информацию которую вы показываете должна быть правильной!

  • Какие ключевые индикаторы имеются?
  • Имеется ли подробное описание к ключевым индикаторам ?
  • Имеется ли иерархия в данных?
  • Какой уровень агрегации присутствует в данных?
  • Есть ли какая-либо связь между метриками?
  • Что происходит, когда я сравниваю определённые метрики между собой? Оказывает ли одна метрика влияние на другую и какое?
  • Какие типы данных содержатся в таблице?
  • Понятно ли все названия в таблице?
  • Имеется ли ранг в данных?
  • Являются ли данные полноценными? Сколько нулевых значений имеются в таблице?
  • Возможно ли проведение точного анализа при отсутствии данных?

 

НАЙДИТЕ СВОЮ ИСТОРИЮ

Как только вы очистили данные, можно приступать к следующему шагу: найти историю, которую вы будете «рассказать» графиками. Для того чтобы найти историю, нужно как можно больше построить различных графиков. Таким образом вы не только сможете рассмотреть информацию с различных точка зрения, но и выбрать графики, которые лучшим образом представляют то, что вы хотите выразить. Возможно, вы даже сможете найти интересную закономерность в данных. Следующие вопросы смогут вам помочь:

  • Существуют ли интересные тенденции в данных? Что вы заметили?
  • Есть ли очевидные отклонения? (Будьте осторожны с отклонениями. Иногда в данных есть ошибки).
  • Есть ли интересные взаимоотношения между метриками?
  • Имеются ли повторяющиеся метрики в данных?

 

ПОДЕЛИТЕСЬ СВОИМ РЕЗУЛЬТАТОМ

Если вы нашли свою «историю», то пора поделится ею с вашей аудиторией, визуализируя различные типы диаграмм. На предыдущем шаге вы уже выбрали типы диаграмм, которые вам нужны. Имейте в виду, что ваш выбор графика является основой для принятия решений. График должен быть понятным, правдивым, а так же они должны вызывать доверие.

Эти вопросы могут быть полезны, если вы хотите сообщить свои результаты визуально:

  • Что вы хотите, чтобы ваша аудитория знала?
  • Хотите ли вы представить тренд с течением времени?
  • Понятен ли заголовок? Достаточно ли ясно ключевое сообщение?
  • Нужны ли какие-либо контексты / аннотации?
  • Указан ли источник данных?
  • Назван ли автор, который вдохновил вас на этот тип визуализации?
  • Что может быть помехой в вашей работе?
  • Все ли элементы на дисплее имеют значение или нет?
  • Какой макет подходит больше всего (горизонтальный/вертикальный)?
  • На каком устройстве будет рассматриваться ваша работа (планшет, сотовый телефон и т.д.)?
  • Есть ли какие-то конкретные рекомендации для оформления вашей работы со стороны клиента (аудитории)?
  • Разрешены ли все вопросы по поводу вашей работы с клиентами? Или нужно подтвердить дополнительно информацию до сдачи конечного результата?
  • Использованы ли зеленые или красные цвета в избыточном порядке? (Важно для дальтонизма)
  • Использованы цветов экономно или графики получились слишком яркими?
  • Нужно ли использовать фирменный дизайн?
  • Смогли ли вы передать желаемое сообщение через графики?

Некоторые примечания к этой теме (Золотые правила):

Если вы хотите знать какой график более подходящий для вашей работы? То это тот график, который ваша аудитория сможет понять без трудностей.

Коул Нуссбаумер Кнафлик

Если в вашей работе все «кричит», ничего слышно не будет; Если все находится на переднем плане, ничто не выделяется; если все велико, ничто не доминирует.

Энди Кирк