7 заметок с тегом

пример

Разбор визуализации о количестве калорий в фастфуде

В этот раз рассмотрим визуализацию Нейтана Яу о количестве калорий в фастфуде.

Вообще сама идея визуализации мне очень понравилась. Я сам люблю зайти в фастфуд заведения и перекусить. На картинке сразу видно, где самое «жирное» место и самый большой выбор блюд.

Что не понравилось:
— Квадратики которые наслаиваются друг на друга.
— От верхних ресторанов далеко тянуться глазами до значений на оси.
— Нет возможности понять удельную калорийность продукта. Калории указаны на порцию, а не 100 грамм.
— Нет интерактивности и знакомых ресторанов. =)

Исправим всё выше перечисленное.

Для начала найдём данные. Нужны рестораны, список блюд, их категория, калорийность и размер порции. Самым правильным было бы скачать официальные меню. Но они есть не у всех ресторанов и информация не всегда структурирована одним образом. Я нашёл несколько сайтов про питание, и выбрал один из них, показавшийся наиболее достойным.

Скопировал данные в гугл таблиц:

Немного магии и форматирования и получил чистые данные:

Подключил данные к Табло:

Исправил те замечания, которые у меня были к исходной визуализации. Вместо квадратиков использую засечки и сделал переключатель [на порцию/на 100 грамм]. Ещё Кирилл Беляев помог мне подобрать цвета и подсказал с версткой.

Живой прототип — http://revealthedata.com/examples/fastfood/

В этом прототипе я использовал два приема работы с Табло. Первый позволил мне сделать переключатель оси калорийности, а второй — продублировать эту ось наверх.

Для создания переключателя я создал параметр, в котором хранится массив возможных осей:

Затем создал рассчитываемое поле и записал туда свитч-функцию. Далее использовал это поле как ось для графика:

Осталось только отобразить параметр и выбрать его внешний вид:

Для того, чтобы продублировать ось икс наверх, я ещё раз добавил поле в колонки. Затем использовал двойные оси и скрыл верхний заголовок. Таким образом, мы показываем точки друг над другом, но этого не видно, так как выбран один и тот же параметр. Это кстати позволяет делать ещё много разных интересных «хаков», но о них в следующий раз.

17, 18 и 19 июня пройдет наш курс по визуализации данных. На нём расскажу о том как использовать Табло для визуализаций и какие применяем при этом приемы и хитрости. Таня расскажет про алгортим визуализации, а Дима про d3.js. Будет интересно, обещаю!

UPD: Добавил поиск по блюдам.

27 мая   пример   разбор   табло

Разбор визуализации о риске природных катаклизмов в разных странах

В Лаборатория данных мы визуализируем данные: работаем над проектами, создаём методологию, проводим курс. Для вдохновения изучаем чужие визуализации, а лучшие публикуем в рубрике #Δλlikes. В этом году разбираем эти визуализации по пикселям.

Мне запомнилась работа Джоша Холдера из Гардиан. Красочно, понятно, но кажется, что можно добавить на визуализацию дополнительных измерений. Разберемся.

Использован формат «уплотненного-баббл-чарта» — packed bubble chart, положение точки по оси икс — индекс риска, размер — количество людей под угрозой, цвет — индекс риска (это точно не указано в статье, но похоже, что так). Страны разбиты по строчкам континентов.

Что понравилось — цвета и формат шкалы. Красный ассоциируется с риском, и сначала хочется сделать низкий индекс зелёным, но автор сам приводит примеры, когда низкий индекс не спасал страны от катаклизмов. Спокойный голубой — хорошая альтернатива. Отличные подписи-стрелочки с дополнительной информацией, хотя можно подредактировать текст.

Что хотелось бы улучшить — убрать дублирование информации цветом и положением по оси икс. На экране умещается только несколько континентов → сравнить все страны без прокрутки не получится. Большинство стран не подписано, свою не найдёшь и нет поиска.

Попробую улучшить визуализацию. Иду смотреть источник данных и разбираться как считается индекс риска. Ещё смотрю какие данные используются в коде:

И как определяется размер точки. Видно, что индекс риска — это процент людей, которые подвержены риску от катастроф.

g.map(function (a) {
a.r = a.Population * a["Risk 2015"] / 100, a.x = a["Risk 2015"]
});

Индекс риска состоит из двух составляющих — вероятности катастрофы и уязвимости страны к катастрофам (насколько хорошо строят дома, дороги и электросети, как обучено население, какие есть специальные службы по ликвидации последствий). Для вычисления индекса риска вероятность и уязвимость перемножаются. Об этом говорится в статье, но на визуализации этого не видно. Интересно сравнить как вероятность и уязвимость зависят друг от друга. Станет понятно какие страны несмотря на большую вероятность готовы справляться с проблемами.

Скачаем данные (правда за 2016 год, а не 2015, как в статье) плюс добавим количество населения (данные за 2015 год). Используем вероятность и уязвимость, как оси для скетер-плота. Цвет и размер точек оставим, как ни исходной визуализации:

На графике сразу видно интересные особенности — вероятность катастроф в Голландии и Бангладеше одинаковые, но Голландия гораздо менее уязвима. И наоборот, в республике Чад и Гаити, вероятность катастроф небольшая, зато подготовка страдает.

Теперь все страны поместились на одном графике, при этом легко найти самые рисковые страны — они подсвечены цветом и расположены в верхнем правом углы.

Скетер-плот добавил новых измерений и сделал компактным расположение. Потерялось сравнение стран внутри одного региона и нельзя найти свою страну. Чтобы решить это, дополним визуализацию картой. На карте легко сравнить регионы и найти свою страну. Не будем делать хороплет, а просто разместим точки с графика на карту:

Регионы теперь объединены не строками, а естественными границами континентов. Найти свою страну просто, все знают где она на карте. Расположим два отображения рядом. Точки сохраняют свой размер на обоих отображениях, и легко соотносятся между собой (например, Индия и Китай), но многие страны одинакового размера. Свяжем точки между собой наведением. Добавим подписи-комментарии, подробности при наведении на точку и мини-таблицы с лидерами рейтинга.

Вуаля:

Пощупать живой прототип здесь — http://revealthedata.com/examples/riskindex/

Прототип сделан на скорую руку в табло, чтобы показать саму идею.

А вот ещё пример packed bubble chart от команды NYT. Здесь формат работает классно и здорово выглядит. Есть поиск, динамическое разделение на индустрии, указаны средние значения. Единственное, что я не понял — цвет тоже дублирует положение по оси икс. Интересно мнение читателей, зачем это нужно?

2017   пример   разбор

Сборник сборников лучших визуализаций

Как водится, в конце года все собирают списки top чего-нибудь. Я решил не нарушать такой традиции и собрал список таких списков. =)

Впереди каникулы и можно долго и вдумчиво рассматривать лучшие работы.

  1. Список лучших визуализаций от Лаборатории данных
  2. Победители конкурса The Kantar Information is Beautiful
  3. Подборка от сайта visualisingdata.com
  4. Самые лучшие визуализации NYT
  5. Самые популярные визуализации на сайте www.informationisbeautiful.net
  6. Лучшие проекты по мнению Нейтана Яу
  7. Лучшие картограммы 2015 года по мнению infogr.am
  8. Подборка от компании visual.ly
  9. Подборка работ выполненных в tableau public
  10. 100 лучших визуализаций по мнению visualoop — часть 1, часть 2
2015   пример

Gap minder или Hans Rosling — мой кумир

В этом посте расскажу, про одного замечательного человека и его проект, которые вдохновили меня на занятие визуализацией данных.

Я уже не помню где я увидел это видео. Толи наткнулся на TED’е или ещё как-то. Идеи о которых говорил автор понравились мне и вдохновили. Они были просты, красивы и очень важны. Именно это видео дало мне желание находить интересные данные и представлять их в интересном и «правильном» виде.

Думаю, что Ганс сделал огромный подарок миру создав очень простую и в то же время мощную визуализацию. Как она работает он объясняет вот здесь.

Почему я вспомнил про это видео и Ганса Розлинга. Он выпустил новый фильм. В этот раз тема «нищета». Я ещё не успел посмотреть его и не знаю чего ожидать. Предлагаю вам посмотреть его самим и сделать свои выводы. Очень рекомендую творчество этого ученого и оратора.

UPD: Ганс ушел из жизни 7-ого февраля 2017 года. Он считал — всё в наших руках, статистика лишь инструмент анализа.

2015   видео   пример

Сравнение равномерной, логарифмической и степенной шкал

Выбор типа шкал для графика, всегда казалось мне интуитивно понятной задачей. Однако, когда мне нужно было объяснить, чем они отличаются, то я не смог привести понятных аргументов. В интернете хорошей информации мне не попалось. Поэтому решил разобраться, откуда растут ноги у разных видов шкал и как их следует применять. Я решил рассмотреть три самых распространенных вида шкал — равномерную, логарифмическую и степенную.

Равномерная шкала

Самый распространенный и привычный вид шкал. Также их называют арифметическими или линейными шкалами. На такой шкале значения равноудалены друг друг от друга.
Например значения 100 и 200, и 200 и 300 отстают друг от друга на одно и тоже расстояние.
Например, на этом графике по оси Y — равномерная шкала с шагом в 20 лет средней продолжительности жизни, а по оси X — равномерная шкала с шагом 10 календарных лет.

Логарифмическая шкала

Этот вид шкал тоже используется достаточно часто, особенно когда речь идёт о научных исследованиях. Она используется для отображения широко диапазона величин, когда значения, которые попадают на график отличаются на много порядков. То есть когда мы хотим одновременно видеть и значения 0.1, 0.2 и значения 100, 200 на одном графике. Зачастую это связанно с физикой процесса. Так, например, в музыке ноты, различающиеся по частоте в два раза это ноты на октаву выше (Ля и Ля следующей октавы). Чтобы показать частоты двух нот будет удобно использовать логарифмическую шкалу.

Но бывает, что в наборе данных просто содержаться большой разброс данных. Например, как на этом графике из Beautiful Evidence Тафти, где он использует логарифмические шкалы для сравнения массы тела и мозга различных существ. Так как бывают и крошечные рыбки и огромные киты, то на таком графике удобно использовать логарифмические шкалы.

Чаще всего используются логарифмические шкалы с основанием 10. Это значит, что одинаковые расстояние на графике откладываются между значениями отличающимися на один порядок. Но бывают логарифмические шкалы с другими основаниями. Например 2.

Степенная шкала

Это менее известный тип шкал. Он отличается от остальных тем, что расстояние между рисками, соответствует числам возведенным в степень. То есть получается, что расстояние между соседними рисками постоянно растёт или уменьшается. Такие шкалы удобны, когда мы хотим показать на одном графике более детально какую-то группу значений, но при это не хотим потерять из вида, значения которые, сильно отличаются от этой группы. Чем-то это похоже на логарифмическую шкалу, но здесь идёт акцент не на всем промежутке, а только на отдельной его части. Это хорошо видно на примере РИА новости, где они использовали степенные шкалы, чтобы сгладить выбросы по доходам отдельных депутатов.

Со степенной шкалой

С равномерной шкалой

То есть степенные шкалы используются когда данные смещены в ту или иную сторону.

Сравнение шкал

Чтобы удобно сравнить и понять как использовать ту или иную шкалу, я сделал небольшой инструмент. На нём можно выбрать разные наборы данных и понять, как они выглядят на разных шкалах.

Как я побывал «клиентом» лаборатории данных

У Тани Бибиковой и её лаборатории данных есть рубрика ответов и вопросов по визуализации данных — каждый месяц ребята решают какую-нибудь интересную задачку и чаще всего реализуют прототип решения.

Мне повезло поучаствовать в одном из таких советов. Меня, как бизнес-консультанта, всегда интересовало как удобно и правильно отображать производственные KPI, например OEE.
OEE или общая эффективность оборудования — это показатель который отображает насколько эффективно на заводе используется оборудование и машины. Он состоит из трёх компонент — доступность, производительность и качество. Каждый из них измеряется в процентах от 0 до 100%. При перемножении эти показатели дают общий показатель, также от 0 до 100%.

Доступность — это процент времени которое оборудование отработало от запланированного времени работы (например, планировали отработать 8 часов, но 2 часа стояли на ремонте, тогда доступность = 75%).

Производительность — это соотношение того, что проивели за период времени, к тому, что могли бы произвести. Потеря производительности связанна с тем, что оборудование работало не на максимальной мощности. Например, у какой-то единицы оборудования максимальная производительность 10 тонн в час, а по факту она работает с производительностью 8 тонн в час, тогда производительность = 80%.

Качество — это соотношение годной произведённой продукции к общему кол-ву произведенной продукции. Качество снижается из-за того, что производим брак. Например из 10 тонн, оказалась 1 тонна брака, тогда качество = 90%.

OEE в таком случаи будет 75% х 80% х 90% = 54%. Этот показатель очень важен, так как напрямую от него зависит выручка компании. Обычно отчеты по OEE, это огромные таблицы в Excel’е, так как существует множество заводов, цехов, единиц оборудования и отчетных периодов (день, неделя, месяц и т. п.). Было ясно, что должен быть лучший путь. =) С таким вопросом я и обратился к лаборантам.

В процессе работы я был подключен к разработке как клиент компании — давал советы и комментарии по поводу реализации, говорил как принято обычно, что хорошо, и что плохо с моей точки зрения. Это был очень интересный и полезный для меня опыт — я понял с каким огромным количеством задач можно столкнуться при проектировании даже небольшого дэшборда — нужно учесть задачи разных пользователей, нужно соблюсти единство в информационных блоках, к этому всему должен быть удобный интерфейс, это должно одинаково хорошо работать с разными типами информации на входе и учесть специфику каждой единицы оборудования…

Вот, что получилось в итоге. Ссылка на живой прототип.

Получился очень интересный и полезный дашборд — он собрал в одном месте информацию, которая обычно занимает 6-8 листов в экселе. Здорово, что визуализация оперирует одним и тем же отображением информации для разных периодов времени (день/месяц и т. п.) — это позволяет легко ориентироваться в данных (часто это разные виды отчетов). Очень удобное отображение OEE, оно интуитивно понятное и позволяет легко отслеживать тренды.

К сожалению, дашборд в большей степени рассчитан на директора завода или руководителей производств, для начальников цехов и бригад местами не хватает детализации. Но думаю, что если бы перед лабораторией стояла такая задача, то такой функционал там бы появился.

2015   пример

Что такое визуализация данных: какая она бывает и не бывает

Как легко догадаться из названия, визуализация данных — это графическое представление каких-либо данных. При этом на просторах интернета я нашёл множество определений, которые относят к визуализации данных:

  • Графики и диаграммы,
  • Инфорграфика и схемы,
  • Презентация и анализ данных,
  • Интерактивный сторителлинг,
  • Бизнес аналитика и дашборды,
  • Научная и медицинская визуализация,
  • Карты и картограммы.

Дальше каждый решает сам — что же для него понимать под визуализация данных. В конце заметки, я расскажу, что же решил для себя я. А пока давайте рассмотрим каждый из видов подробнее и найдём их отличия и особенности.

Графики и диаграммы

Наверное самый привычный для нас вид визуализации данных. Используется как для презентации данных, так и для анализа. Встретить их можно и на работе, и в журнале и в научном отчете. Обычно знания о существующих типах диаграмм и графиков мы получаем из школы или из стандартного набора в экселе. Однако, мало кто знает, что мир графиков и диаграмм не ограничивается точечным графиком, столбиковой и круговой диаграммой. Существуют порядка 15 общеизвестных типов диаграмм, а всего их более 60, при этом их количество увеличивается с каждым днём — люди придумывают новые типы для визуализации сложных и необычных данных. Подробно типы графиков и диаграмм мы рассмотрим в одной из следующих заметок.

Типы графиков и диаграмм. Источник: datavizcatalogue.com

Ящичная диаграмма Точечная матрица Хордовая диаграмма Диаграмма стебель-листья График с областями и накоплением

Инфорграфика и схемы

Инфографика стала очень популярна в последние годы, хотя существуют уже давно. Инфографика относиться к журналистике данных, где графики и схемы объясняют какие-либо факты по выбранной теме. Обычно инфографика статична и представляет собой длинную «простыню» с картинками и текстом. Отличительной особенностью инфографики является то, что в ней приводятся уже готовые выводы, то есть читателя проводят за руку по выбранной теме и при этом приправляют это все цифрами и картинками. Часто используется рисованный или мультяшный стиль. Некоторые СМИ выпускают инфографику на ежедневной основе, например АиФ. Бум инфографики вызвал снижение общего уровня её качества. Часто используется не к месту или «для красоты», хотя конечно же есть замечательные и интересные примеры.

Примеры инфографики

Численность Наполеоновской армии во время русской компании, 1869 г.

Численность населения разных стран, 1912 г.

10 заповедей типографики

Взмах крыльев

Вегетарианцы в цифрах

Презентация и анализ данных

Один самых привычных способов использования визуализации данных — презентация информации в виде диаграмм или инфографики. И если с этим, я думаю, все понятно, то использование визуализации для анализа информации, в основном, используется только бизнес-аналитиками и учеными. В чем же заключается отличие?

При анализе данных с помощью визуализации используют так называемое быстрое прототипирование — то есть создание большого количества различных визуальных представлений одних и тех же данных. Делается это для возможности нахождения скрытых, на первый взгляд, взаимосвязей и зависимостей, а также первичной оценки набора данных для возможности применения в дальнейшем более сложных инструментов анализа. Этот подход называется Eploratory data analysis (EDA), что на русский можно перевести как разведочный анализ данных. Основное отличие от презентации данных — визуализация здесь может быть «черновой» и некрасивой, но выполняется быстро и одним человеком или небольшой рабочей группой. Для этого чаще всего используют эксель, R или матлаб

EDA — один из инструментов data mining’a, по его проведению есть даже учебники

Примеры визуализации для EDA

Интерактивный сторителлинг

Сторителлинг или по-русски сказительство (звучит забавно) — это преподнесение какой-либо полезной информации в форме интересного рассказа. Почему-то часто интерактивным сторителлиногм называют видео, но это не так, это всего-лишь еще один вид инфгорафики. Интерактивный сторителлинг — рассказ с которым слушатель может взаимодейтсовать. По своей сути он близок к журналистике данных и инфографике, но отличается тем, что пользователь может управлять отображением информации и находить те зависимости, которые не нашёл автор. В этом смысле он близок к разведочному анализу данных, но отличается тем, что данные заранее обработаны и представлены в удобном для анализа виде, а также имеются подсказки или заранее прописанные сценарии использования. Поэтому, чаще всего интерактивный сторителлинг называют интерактивной инфографикой, но для того чтобы ей стать не достаточно просто к статичной инфографике добавить всплывающие окошки.
Интерактивные визуализации активно развиваются в наше время. Сильные примеры можно встретить в крупных СМИ или в виде отдельных проектов.

Примеры инетрактивного сторителлинга (переход на сайт при клике на картинку)

Анализ бросков в баскетболе

Сравнение индекса читабельности для речей американских президентов

Частота употребления слов в выступлениях американских президентов

Московский марафон

Бизнес аналитика и дашборды,

Визуализация активно используется в бизнесе. Принцип «говорите с данными» помогает компаниям зарабатывать больше, а клиентам получать лучший сервис. Для разового анализа обычно используется эксель или R. Однако это не удобно если необходимо следит за какими-то показателями (KPI) на постоянной основе. Для отслеживания рутинных KPI используют дашборды — дисплеи на которых выведены все необходимые показатели в одном месте в виде графиков, диаграмм и таблиц.

Анализ проводимый один раз, также называют ad hoc анализом).

Проектирование эффективных дашбордов — сложная и неординарная задача. Зачастую их перегружают ненужной информацией или стараются использовать все возможные типы шаблонных графиков. Часто для того чтобы спроектировать хороший дашборд необходимо создание новых типов визуализации информации. Тематика активно развивается за счет все большего применения аналитики в бизнесе. Также дашборды применяются и для личного использования (фитнес трекеры, анализ личных расходов и т. п.)

Примеры дашбордов (переход на сайт при клике на картинку)

Дашборд с количеством твитов по заданной тематике

Дашборд генерального директора компании

Научная и медицинская визуализация

Специфический вид визуализации, который используется как следует из названия в медицине и науке. Его целью обычно является выделение закономерностей или анамалий. От обычной визуализации данных отличается тем, что часто бывает трёхмерной и требует специальной подготовки для интерпретации.

Примеры научной и медицинской визуализации

Расчет магнитных полей из моей диссертации

Результаты исследования сердца

Карты и картограммы.

Карты — одни из древнейших способов визуализации, отображающих окружающую реальность. Картограмма — карта с нанесенной на неё информацией в виде цвета или других способов. Возможно я тут буду не точен с терминами, да простят меня картографы. Картограммы могут быть использованы для отображения любой информации — от плотности населения, до частоты использования ругательных слов в каждом районе страны. Их могут применять в любом из типов визуализаций, о которых мы говорили раньше. Я выделил их в отдельный пункт, так как их реализация достаточно отличается от других типов визуализаций (ждем про это заметку).

Примеры картограмм (переход на сайт при клике на картинку)

Оборот наличности в России

Возраст зданий Москвы

Карта падения метеоритов

Подводя итоги

Заметка получилась неожиданно большой. Может быть оно и хорошо, сразу видно как много всего в мире визуализации данных. Что же понимаю под этим понятием я и о чем будет речь в данном блоге?
Для меня представление данных в первую очередь связанно с графиками и диаграммами, а также инетрактивной инфографикой. Это то, чему будет посвящена основная масса заметок, также будет интересно покопаться с картами и дашбордами.