Блог Ромы Бунина

о визуализации данных

Широкие и длинные таблицы

Часто данные хранятся в виде таблиц. Таблицы бывают «широкие» и «длинные».

Человеку чаще удобнее читать матричные таблицы, а вот Табло заточено для работы с длинными таблицами на входе. Если таблица широкая, то в Табло есть специальный функционал Measure Values and Measure Names, однако он не позволяет использовать все привычные функции Табло, которые отлично работают с длинной таблицей. Например, по-другому работает фильтрация, привязка цветов и т. п.

Пересобрать таблицу из широкого формата в длинный, можно разными путями:
в экселе, с помощью формул или скрипта,
в экселе, с помощью надстройки Power Query,
в экселе 2016 и новее, с помощью Get & Transform,
R, при помощи библиотеки reshape,
в табло, при помощи встроенной функции.

Пересборка в табло не идеальна: делается один раз для всего сета и не супер наглядная и контролируемая. Она отлично подходит для небольших данных, а вот с большими я бы поработал на уровне источника данных.

Посмотрим, как персоборать таблицу в «старом» экселе. Есть данные по кол-ву внутренней миграции в разные части Великобритании. В каждой строке откуда приехали иммигранты, куда и сколько людей каждой из религий. Нужно превратить это с длинную таблицу, где в каждой строке будет только название региона куда приехали, название религии и количество человек.

Чтобы просуммировать строки с одним регионом назначения, сделаем сводную таблицу и рассчиатем сумму для каждой религии:

Вставим эту таблицу как текст и поменяем названия столбцов:

Скачиваем и ставим надстройку Power Query — https://www.microsoft.com/en-us/download/details.aspx?id=39379
В экселе открываем её и задаем нужные преобразования:

После этого переименовываем столбцы и сохраняем результат:

Вуаля, наши данные готовы к работе с табло.

Видео, как обрабатывались данные — http://joxi.ru/YmEa0lVf068G3m

Разбор визуализации о количестве калорий в фастфуде

В этот раз рассмотрим визуализацию Нейтана Яу о количестве калорий в фастфуде.

Вообще сама идея визуализации мне очень понравилась. Я сам люблю зайти в фастфуд заведения и перекусить. На картинке сразу видно, где самое «жирное» место и самый большой выбор блюд.

Что не понравилось:
— Квадратики которые наслаиваются друг на друга.
— От верхних ресторанов далеко тянуться глазами до значений на оси.
— Нет возможности понять удельную калорийность продукта. Калории указаны на порцию, а не 100 грамм.
— Нет интерактивности и знакомых ресторанов. =)

Исправим всё выше перечисленное.

Для начала найдём данные. Нужны рестораны, список блюд, их категория, калорийность и размер порции. Самым правильным было бы скачать официальные меню. Но они есть не у всех ресторанов и информация не всегда структурирована одним образом. Я нашёл несколько сайтов про питание, и выбрал один из них, показавшийся наиболее достойным.

Скопировал данные в гугл таблиц:

Немного магии и форматирования и получил чистые данные:

Подключил данные к Табло:

Исправил те замечания, которые у меня были к исходной визуализации. Вместо квадратиков использую засечки и сделал переключатель [на порцию/на 100 грамм]. Ещё Кирилл Беляев помог мне подобрать цвета и подсказал с версткой.

Живой прототип — http://revealthedata.com/examples/fastfood/

В этом прототипе я использовал два приема работы с Табло. Первый позволил мне сделать переключатель оси калорийности, а второй — продублировать эту ось наверх.

Для создания переключателя я создал параметр, в котором хранится массив возможных осей:

Затем создал рассчитываемое поле и записал туда свитч-функцию. Далее использовал это поле как ось для графика:

Осталось только отобразить параметр и выбрать его внешний вид:

Для того, чтобы продублировать ось икс наверх, я ещё раз добавил поле в колонки. Затем использовал двойные оси и скрыл верхний заголовок. Таким образом, мы показываем точки друг над другом, но этого не видно, так как выбран один и тот же параметр. Это кстати позволяет делать ещё много разных интересных «хаков», но о них в следующий раз.

17, 18 и 19 июня пройдет наш курс по визуализации данных. На нём расскажу о том как использовать Табло для визуализаций и какие применяем при этом приемы и хитрости. Таня расскажет про алгортим визуализации, а Дима про d3.js. Будет интересно, обещаю!

UPD: Добавил поиск по блюдам.

Разбор визуализации о риске природных катаклизмов в разных странах

В Лаборатория данных мы визуализируем данные: работаем над проектами, создаём методологию, проводим курс. Для вдохновения изучаем чужие визуализации, а лучшие публикуем в рубрике #Δλlikes. В этом году разбираем эти визуализации по пикселям.

Мне запомнилась работа Джоша Холдера из Гардиан. Красочно, понятно, но кажется, что можно добавить на визуализацию дополнительных измерений. Разберемся.

Использован формат «уплотненного-баббл-чарта» — packed bubble chart, положение точки по оси икс — индекс риска, размер — количество людей под угрозой, цвет — индекс риска (это точно не указано в статье, но похоже, что так). Страны разбиты по строчкам континентов.

Что понравилось — цвета и формат шкалы. Красный ассоциируется с риском, и сначала хочется сделать низкий индекс зелёным, но автор сам приводит примеры, когда низкий индекс не спасал страны от катаклизмов. Спокойный голубой — хорошая альтернатива. Отличные подписи-стрелочки с дополнительной информацией, хотя можно подредактировать текст.

Что хотелось бы улучшить — убрать дублирование информации цветом и положением по оси икс. На экране умещается только несколько континентов → сравнить все страны без прокрутки не получится. Большинство стран не подписано, свою не найдёшь и нет поиска.

Попробую улучшить визуализацию. Иду смотреть источник данных и разбираться как считается индекс риска. Ещё смотрю какие данные используются в коде:

И как определяется размер точки. Видно, что индекс риска — это процент людей, которые подвержены риску от катастроф.

g.map(function (a) {
a.r = a.Population * a["Risk 2015"] / 100, a.x = a["Risk 2015"]
});

Индекс риска состоит из двух составляющих — вероятности катастрофы и уязвимости страны к катастрофам (насколько хорошо строят дома, дороги и электросети, как обучено население, какие есть специальные службы по ликвидации последствий). Для вычисления индекса риска вероятность и уязвимость перемножаются. Об этом говорится в статье, но на визуализации этого не видно. Интересно сравнить как вероятность и уязвимость зависят друг от друга. Станет понятно какие страны несмотря на большую вероятность готовы справляться с проблемами.

Скачаем данные (правда за 2016 год, а не 2015, как в статье) плюс добавим количество населения (данные за 2015 год). Используем вероятность и уязвимость, как оси для скетер-плота. Цвет и размер точек оставим, как ни исходной визуализации:

На графике сразу видно интересные особенности — вероятность катастроф в Голландии и Бангладеше одинаковые, но Голландия гораздо менее уязвима. И наоборот, в республике Чад и Гаити, вероятность катастроф небольшая, зато подготовка страдает.

Теперь все страны поместились на одном графике, при этом легко найти самые рисковые страны — они подсвечены цветом и расположены в верхнем правом углы.

Скетер-плот добавил новых измерений и сделал компактным расположение. Потерялось сравнение стран внутри одного региона и нельзя найти свою страну. Чтобы решить это, дополним визуализацию картой. На карте легко сравнить регионы и найти свою страну. Не будем делать хороплет, а просто разместим точки с графика на карту:

Регионы теперь объединены не строками, а естественными границами континентов. Найти свою страну просто, все знают где она на карте. Расположим два отображения рядом. Точки сохраняют свой размер на обоих отображениях, и легко соотносятся между собой (например, Индия и Китай), но многие страны одинакового размера. Свяжем точки между собой наведением. Добавим подписи-комментарии, подробности при наведении на точку и мини-таблицы с лидерами рейтинга.

Вуаля:

Пощупать живой прототип здесь — http://revealthedata.com/examples/riskindex/

Прототип сделан на скорую руку в табло, чтобы показать саму идею.

А вот ещё пример packed bubble chart от команды NYT. Здесь формат работает классно и здорово выглядит. Есть поиск, динамическое разделение на индустрии, указаны средние значения. Единственное, что я не понял — цвет тоже дублирует положение по оси икс. Интересно мнение читателей, зачем это нужно?

Курс — Introduction to Infographics and Data Visualization

Удалось пройти замечательный курс Альберто Кайро (сайт автора). Курс организован на базе Knight Center for Journalism in the Americas. К сожалению, я проходил курс уже по завершении основной части, поэтому не смог поучаствовать в домашних заданиях и групповой активности. Курс хорош, есть про всё — цель визуализации, данные, типографику, общие правила композиции, как выбирать подходящие типы графиков и т. п.

Основное, что унёс с курса:
— Самая сложная и интересная задача — это не сделать «визуальную» составляющую, но продумать сценарий использования и историю, которую мы хотим рассказать

— Мы не просто видим картинку с визуализацией, но обрабатываем и анализируем информацию на ней, поэтому у визуализации данных, много общего с интерфейсами (как, где и зачем что-то должно быть расположено)

— Цель дизайнера при проектировании визуализации — понять, какого результата хочет добиться зритель, чтобы сделать этот процесс наиболее легким. Упоминают книгу Нормана Дизайн привычных вещей.
Пример:

Визуально не выделено основная идея

Есть контраст на главном

— Основа хорошей композиции: единство стиля, разнообразие деталей и иерархия повествования. Единства и иерархии можно добиться версткой (например, модульной сектой), шрифтами и цветами.

— Разные типы визуального кодирования, служат разным целям. Есть более точные типы кодирования (верхняя часть иллюстрации), по которым зритель может определить конкретные значения. И есть типы кодирования, которые позволяют быстро увидеть общую картину, без точных значений (нижняя часть иллюстрации)

— Для одних и тех же данных можно использовать различное визуальное кодирование в зависимости от решаемой задачи. Можно использовать несколько «слоев» представления одних и тех же данных.

— На каждое действие пользователя нужна обратная связь.

— Мантра визуализации — нужно предоставлять данные пользователю в следующей последовательности: общий обзор данных → возможность зума и фильтрации данных → дополнительная информация по запросу. Оригинал — Overview First, Zoom and Filter, Then Details-on-Demand

— Когда Ханс Рослинг ведёт презентации он представляет себя футбольным комментатором.

— Всегда нужно подбирать какие значения использовать — относительные или абсолютные, так как могут быть совершенно разные результаты.

2016   курсы

Сборник сборников лучших визуализаций

Как водится, в конце года все собирают списки top чего-нибудь. Я решил не нарушать такой традиции и собрал список таких списков. =)

Впереди каникулы и можно долго и вдумчиво рассматривать лучшие работы.

  1. Список лучших визуализаций от Лаборатории данных
  2. Победители конкурса The Kantar Information is Beautiful
  3. Подборка от сайта visualisingdata.com
  4. Самые лучшие визуализации NYT
  5. Самые популярные визуализации на сайте www.informationisbeautiful.net
  6. Лучшие проекты по мнению Нейтана Яу
  7. Лучшие картограммы 2015 года по мнению infogr.am
  8. Подборка от компании visual.ly
  9. Подборка работ выполненных в tableau public
  10. 100 лучших визуализаций по мнению visualoop — часть 1, часть 2
2015   пример

Открытые государственные данные

Искал какой бы датасет проанализировать на выходных... Пошёл на Портал открытых данных Российской Федерации.

Самый интересный и полезный датасет, который нашёл (может я как-то не так ищу?!?) — стоимость шаурмы в разных странах. Причем здесь открытые данные Российской Федерации? O_o Свеженький датасет...

Нашёл компании, которые собирали датасет — госбук и госбук лаб. Кажется, что что-то не чисто.

Поонравилась новость как под прикрытием инновацией чиновники строят детсады на своих дачах:

Стало грустно. =(

Gap minder или Hans Rosling — мой кумир

В этом посте расскажу, про одного замечательного человека и его проект, которые вдохновили меня на занятие визуализацией данных.

Я уже не помню где я увидел это видео. Толи наткнулся на TED’е или ещё как-то. Идеи о которых говорил автор понравились мне и вдохновили. Они были просты, красивы и очень важны. Именно это видео дало мне желание находить интересные данные и представлять их в интересном и «правильном» виде.

Думаю, что Ганс сделал огромный подарок миру создав очень простую и в то же время мощную визуализацию. Как она работает он объясняет вот здесь.

Почему я вспомнил про это видео и Ганса Розлинга. Он выпустил новый фильм. В этот раз тема «нищета». Я ещё не успел посмотреть его и не знаю чего ожидать. Предлагаю вам посмотреть его самим и сделать свои выводы. Очень рекомендую творчество этого ученого и оратора.

UPD: Ганс ушел из жизни 7-ого февраля 2017 года. Он считал — всё в наших руках, статистика лишь инструмент анализа.

Сравнение равномерной, логарифмической и степенной шкал

Выбор типа шкал для графика, всегда казалось мне интуитивно понятной задачей. Однако, когда мне нужно было объяснить, чем они отличаются, то я не смог привести понятных аргументов. В интернете хорошей информации мне не попалось. Поэтому решил разобраться, откуда растут ноги у разных видов шкал и как их следует применять. Я решил рассмотреть три самых распространенных вида шкал — равномерную, логарифмическую и степенную.

Равномерная шкала

Самый распространенный и привычный вид шкал. Также их называют арифметическими или линейными шкалами. На такой шкале значения равноудалены друг друг от друга.
Например значения 100 и 200, и 200 и 300 отстают друг от друга на одно и тоже расстояние.
Например, на этом графике по оси Y — равномерная шкала с шагом в 20 лет средней продолжительности жизни, а по оси X — равномерная шкала с шагом 10 календарных лет.

Логарифмическая шкала

Этот вид шкал тоже используется достаточно часто, особенно когда речь идёт о научных исследованиях. Она используется для отображения широко диапазона величин, когда значения, которые попадают на график отличаются на много порядков. То есть когда мы хотим одновременно видеть и значения 0.1, 0.2 и значения 100, 200 на одном графике. Зачастую это связанно с физикой процесса. Так, например, в музыке ноты, различающиеся по частоте в два раза это ноты на октаву выше (Ля и Ля следующей октавы). Чтобы показать частоты двух нот будет удобно использовать логарифмическую шкалу.

Но бывает, что в наборе данных просто содержаться большой разброс данных. Например, как на этом графике из Beautiful Evidence Тафти, где он использует логарифмические шкалы для сравнения массы тела и мозга различных существ. Так как бывают и крошечные рыбки и огромные киты, то на таком графике удобно использовать логарифмические шкалы.

Чаще всего используются логарифмические шкалы с основанием 10. Это значит, что одинаковые расстояние на графике откладываются между значениями отличающимися на один порядок. Но бывают логарифмические шкалы с другими основаниями. Например 2.

Степенная шкала

Это менее известный тип шкал. Он отличается от остальных тем, что расстояние между рисками, соответствует числам возведенным в степень. То есть получается, что расстояние между соседними рисками постоянно растёт или уменьшается. Такие шкалы удобны, когда мы хотим показать на одном графике более детально какую-то группу значений, но при это не хотим потерять из вида, значения которые, сильно отличаются от этой группы. Чем-то это похоже на логарифмическую шкалу, но здесь идёт акцент не на всем промежутке, а только на отдельной его части. Это хорошо видно на примере РИА новости, где они использовали степенные шкалы, чтобы сгладить выбросы по доходам отдельных депутатов.

Со степенной шкалой

С равномерной шкалой

То есть степенные шкалы используются когда данные смещены в ту или иную сторону.

Сравнение шкал

Чтобы удобно сравнить и понять как использовать ту или иную шкалу, я сделал небольшой инструмент. На нём можно выбрать разные наборы данных и понять, как они выглядят на разных шкалах.

Книга — Visualization Analysis & Design

Прочитал книгу, хочу поделиться впечатлениями.

Автор книги — Тамара Манзнер, профессор Университета Британской Колумбии в Канаде. Интересно, что автор занимается визуализацией очень по научному. Оказывается, что как и всё в этом мире, тема визуализации данных достаточно серьёзно разрыта учеными. Ученные мужи занимаются проблемой давно, стараются найти зависимости и построить математический модели. С одной стороны — это очень круто, с другой иногда кажется излишне формализованным. И вся книга такая — с одной стороны всё очень круто структурировано, с другой слишком сухо. В книге очень классные визуальные выводы-саммари перед каждой главой, которые часто понятнее текста самой главы. Как бывший научный сотрудник, могу авторитетно заявить, что чем больше копаешься в какой-то теме, тем сложнее она становится, но, к сожалению, это не всегда улучшает результат.

Книга состоит из пяти смысловых частей:

  • обобщенный алгоритм визуализации данных
  • графические и смысловые «элементарные частицы» для визуализации данных
  • виды и примеры использования различных «идиом» (типов визуализации) для трёх типов данных (таблицы, пространственные данные, связи)
  • как использовать цвет
  • инерактив и организации визуализации

Крутая часть про обобщенный алгоритм. Идея простая, но полезная.

Алгоритм состоит из четырёх крупных шагов:

1. Понять, что за данные мы имеем

К какому они относятся типу, изменяются ли они во времени

2. Понять какую задачу должна решать визуализация

«Потреблять» или «генерить» данные, какие параметры данных должен обнаружить пользователь (тренды, выбросы, значениях атрибутов), необходимо ли ему сравнивать данные между собой и т. п.

3. Решить как отображать данные и запрограммировать решение

Только на этом шаге появляется визуальная составляющая. В самом простом случае надо выбрать из «каталога» подходящую «идиому» и понять какое у неё будет управление.

4. Проверить как реализованная визуализация решает задачу на практике

Необходимо убедиться экспериментально, что разработанное решение решает поставленные задачи. При этом важно, чтобы такая валидация была сделана для каждого предыдущего шага.

Для меня самой интересной идеей из всего алгоритма показалось следующее — в общем виде, задач которые нужно решать при помощи визуализации данных не так уж много. Поэтому всегда решая задачу хорошо выходить на более высокий уровень абстракции, а не решать задачу в рамках терминов и определений предметной области. Например, задача — определить оптимальность инвестиций в ценные бумаги, за счет построения спреда исторических кривых. На более высоком уровне абстракции может звучать так — сравнение зависимостей x(y) по третьему атрибуту z с определенным шагом по z. Абсолютно такая же абстрактная задача скрывается из-за научной задачей — анализ вольт-амперных характеристик вакуумной дуги в зависимости от собственной индуктивности разрядного контура.

Вряд ли бы мы подумали применить один и тот же тип визуализации, для столь по разному звучащих задач. Но приводя их к общему виду, это можно легко увидеть. Возможно идея покажется слишком простой, но на мой взгляд именно простые идеи правят миром и их сложнее всего применять на практике.

Из этой же идеи можно сделать вывод о том, что не важно насколько вы разбираетесь в предметной области, гораздо важнее уметь нужным образом описать задачу (для этого придется потрудится при общении с клиентом) и знать наибольшее кол-во хороших решений для абстрактных задач. Конечно же не получится просто использовать шаблонные решения для абстрактных задач, особенно для сложных данных со смешанными типами атрибутов, но это точно повышает вероятность успешного решения задачи.

Подводя итоги 

Кига понравилась, но написано очень сухо и научно. Вся книга про дэшборды и интерактивные вещи, никакой инфографики, эстетики и журналистики данных. Большинство примеров достаточно старые и визуально не привлекательные, но это не мешает понимать о чем суть. Можно использовать как справочник по типам визуализации, использованию цвета и возможных каналов передачи данных.

В качестве бонуса — видео лекция автора.

2015   книги

Курс Data Visualization

Вот и закончился курс по визуализации данных на coursera. Теперь я сертифицированный специалист по визуализации данных. =)
Было интересно и полезно. Лекции совсем не длинные за четыре недели занятий — где-то 6 часов видео материла. С одной стороны, лекции больше посвящены общим вопросам, с другой — достаточно много теории про математические основы лежащие под созданием того или иного типа графика или диаграммы. Это ни хорошо, ни плохо, но иногда скучновато. Часто лектор просто читает с слайда.

Про дэшборды совсем чуть-чуть — только общая теория без конкретики.

Конечно же самая интересная часть курса — домашние задания и кросс-оценка с другими участниками, было классно разобраться в предлагаемых датасетах и найти свое решение, а ещё интереснее посмотреть, что делали другие. Кто-то делал очень интересные и полезные штуки, как, например, Дэн и его визуализация для Твиттера или вот это работа неизвестного автора:

Взаимодействие на фейсбуке членов благотворительной организации

А кто-то вот таких монстриков:

Я тоже своял две визуализации график глобального потепления и анализ бюджета США.

Что узнал для себя по выходе с курса:

  • как работают цветовые схемы RGB и HSL
  • как устроены сети и диаграммы связей, понял, что инструмент интересный, но сложный для понятной визуализации
  • мантра визуализации — нужно предоставлять данные пользователю в следующей последовательности: общий обзор данных → возможность зума и фильтрации данных → дополнительная информация по запросу (например, наведение мышки)
2015   курсы

Как я побывал «клиентом» лаборатории данных

У Тани Бибиковой и её лаборатории данных есть рубрика ответов и вопросов по визуализации данных — каждый месяц ребята решают какую-нибудь интересную задачку и чаще всего реализуют прототип решения.

Мне повезло поучаствовать в одном из таких советов. Меня, как бизнес-консультанта, всегда интересовало как удобно и правильно отображать производственные KPI, например OEE.
OEE или общая эффективность оборудования — это показатель который отображает насколько эффективно на заводе используется оборудование и машины. Он состоит из трёх компонент — доступность, производительность и качество. Каждый из них измеряется в процентах от 0 до 100%. При перемножении эти показатели дают общий показатель, также от 0 до 100%.

Доступность — это процент времени которое оборудование отработало от запланированного времени работы (например, планировали отработать 8 часов, но 2 часа стояли на ремонте, тогда доступность = 75%).

Производительность — это соотношение того, что проивели за период времени, к тому, что могли бы произвести. Потеря производительности связанна с тем, что оборудование работало не на максимальной мощности. Например, у какой-то единицы оборудования максимальная производительность 10 тонн в час, а по факту она работает с производительностью 8 тонн в час, тогда производительность = 80%.

Качество — это соотношение годной произведённой продукции к общему кол-ву произведенной продукции. Качество снижается из-за того, что производим брак. Например из 10 тонн, оказалась 1 тонна брака, тогда качество = 90%.

OEE в таком случаи будет 75% х 80% х 90% = 54%. Этот показатель очень важен, так как напрямую от него зависит выручка компании. Обычно отчеты по OEE, это огромные таблицы в Excel’е, так как существует множество заводов, цехов, единиц оборудования и отчетных периодов (день, неделя, месяц и т. п.). Было ясно, что должен быть лучший путь. =) С таким вопросом я и обратился к лаборантам.

В процессе работы я был подключен к разработке как клиент компании — давал советы и комментарии по поводу реализации, говорил как принято обычно, что хорошо, и что плохо с моей точки зрения. Это был очень интересный и полезный для меня опыт — я понял с каким огромным количеством задач можно столкнуться при проектировании даже небольшого дэшборда — нужно учесть задачи разных пользователей, нужно соблюсти единство в информационных блоках, к этому всему должен быть удобный интерфейс, это должно одинаково хорошо работать с разными типами информации на входе и учесть специфику каждой единицы оборудования…

Вот, что получилось в итоге. Ссылка на живой прототип.

Получился очень интересный и полезный дашборд — он собрал в одном месте информацию, которая обычно занимает 6-8 листов в экселе. Здорово, что визуализация оперирует одним и тем же отображением информации для разных периодов времени (день/месяц и т. п.) — это позволяет легко ориентироваться в данных (часто это разные виды отчетов). Очень удобное отображение OEE, оно интуитивно понятное и позволяет легко отслеживать тренды.

К сожалению, дашборд в большей степени рассчитан на директора завода или руководителей производств, для начальников цехов и бригад местами не хватает детализации. Но думаю, что если бы перед лабораторией стояла такая задача, то такой функционал там бы появился.

2015   пример

Список книг по визуализации данных (от Игоря Яновского)

На курсе Coursera Игорь Яновский (вот его сайт) поделился списком своих любимых книг по тематике. Я пока что не успел ещё его просмотреть, но решил перепостить. Странно, что в списке нет Тафти.

  1. Жак Бертин “Semiology of Graphics” — классика теории информационного дизайна;
  2. если чтение “Information Visualization: Perception for Design”Колина Вэра покажется жестковатым, рекомендую обратить внимание на его же “Visual Thinking: for Design” или на книгу Конни Маламид “Visual Language for Designers” — они воспринимаются полегче;
  3. в книгах Стивена Фью — “Now You See It”, “Show Me the Numbers”, “Information Dashboard Design” — описаны методы графического представления данных (в основном количественных), рассматриваются их особенности и приемы визуального анализа; кстати, недавно в продажу поступила его книга “Signal: Understanding What Matters in a World of Noise”;
  4. о методах визуализации качественных данных (графы, сетевые диаграммы) можно почитать в “Visual Complexity” Мануэля Лимы;
  5. книги Нэйтана Яу — “Visualize This” (кстати, есть на русском языке — «Искусство визуализации в бизнесе»), “Data Points” — могут найти практическое применение сразу же, т. к. он рассматривает различные методы визуализации на конкретных примерах и предлагает читателю сделать самому все то же самое, приводя алгоритмы действий и листинги программ (в первой книге) и описывает процесс работы над визуализацией, начиная с анализа данных и понимания целей самой визуализации, о чем часто забывают, если вообще задумываются (об этом во второй книге, соответственно);
  6. “Beautiful Visualization” и “Beautiful Data” — это сборники статей, написанных экспертами по работе с данными; просто интересно почитать, узнать о чьем-то конкретном опыте, привычках работы над проектом, особенностях мышления, каких-то хитростях, вдохновиться этим занятием.

Апдейт: Игорь собрал ещё более внушительный список у себя на сайте. За что ему отдельное спасибо!

2015   книги

Книга «Говори на языке диаграмм»

Хочу написать про вторую книгу по применению визуализации данных, которую можно найти на русском языке. Книга вызывает странное и двоякое впечатление. С одной стороны в ней есть классные базовые идеи:

  • сначала определи, что ты хочешь сказать, запиши это словами → затем выбери тип диаграммы
  • определи какой тип сравнения ты хочешь использовать — во времени, по значению, по позиции, по частоте или хочешь показать корреляцию
  • выбери диаграмму по таблице:

С другой стороны автор предлагает странные местами странные идеи — использовать в заголовке, вместо названия, вывод из графика. Такой газетный заголовок, точно подойдёт не всегда. Да и как-то кажется слишком «продажным», возможно это и имеет место, но только не всегда и не везде. Автор любит 3D штучки и фоны для диаграмм — Тафти он точно не читал. =)

Также в книге стрёмный дизайн из прошлого века (я читал от издательства ИКСИ, а не МИФ). Да и сами примеры пришли из той эпохи когда для показа презентации использовались реальные слайды.

Плюс книги — в ней есть кучу практических задачек, которые можно порешать от руки, а уж пользоваться советами автора или нет, это ваше дело. ;)

2015   книги

Книга «Искусство визуализации в бизнесе»

Хочу написать про недавно прочтенную книгу Нейтана Яау (автор сайта flowingdata.com). В России книга издана издательством МИФ с достаточно радикальным переводом — как из «Visualize This» получилось «Искусство визуализации в бизнесе» я даже не знаю. Книга является чуть ли не единственным стоящим произведением по тематике визуализации данных на русском — в ней много хороших примеров и её интересно читать, с другой она является набором туториолов с краткой теорией и реально полезной будет только тем, кто хочет работать с R или Phyton. Книга 2011 года выпуска, поэтому некоторые технологии используемые для реализации визуализаций устарели (flash и нет использования ggplot2 для R). В любом случаи, на скудном поприще русскоязычной литературы по тематике книга абсолютный маст хэв.

Главные мысли которые вынес для себя из книги:

  • подзаголовок для графика — это круто, можно именно там показывать основные выводы из графика
  • цветовую шкалу можно совмещать с гистограммой
  • надо учиться парсить сайты
  • сначала данные и история («сюжет»), потом визуализация — если будешь долго и тщательно готовить данные, то понимание как их визуализировать придет в процессе

Самые интересные примеры из книги (для увеличения правый клик → открыть изображение):

2015   книги

Ресурсы по визуализации данных

В этой заметке я разберу какие ресурсы по визуализации данных существуют в интернете и что на них можно найти. Речь пойдет именно о информационном дизайне, ресурсы по инструментам для визаулизации в одной из следующих заметок.

Лучшие и поддерживаемые сайты

Сайт flowingdata.com

На этом сайте можно найти множество статей, которые точно пригодятся, ресурс регулярно обновляется. Можно вдохновится идеями для своих визуализаций или найти полезные приёмы и примеры. Есть подборка проектов автора сайта и туториолов по визуализации при помощи R и d3.js.

Сайт visualisingdata.com

Этот сайт — агрегатор новостей посвященных визуализации данных. Статьи обычно являются ссылками на другие ресурсы. Больше всего мне нравятся сводки лучших визуализаций за прошедший месяц, где можно найти очень классные примеры, например такой как этот.

Сайт informationisbeautiful.net

Это авторский проект Дэвида МакКандлесса — английского журналиста и дизайнера, которые делает инфографику и иногда интерактивные визуализации. У сайта интересная эстетика, которая проходит через все работы автора, о которых он очень классно рассказывает на TED’е. Правда из-за особенностей дизайна, на мой взгляд, сайт имеет не самую лучшую навигацию.

Сайт datavizcatalogue.com

На этом классном ресурсе собрано большое количество различных типов диаграмм и графиков, для которых подробно описано, как они строятся и когда их лучше использовать. Must have. Сайт автора проекта.

Персональный сайт Стэфани Эвергрин

Это сайт инфомрационного дизайнера, которая написала диссертацию по тематики и книгу. Книгу ещё не читал, но видел, что её рекомендуют. Также она ведёт блог, где много интересных заметок

Блог Роберта Косары

Очень хороший блог с полезными статьями.

Блог datavizblog.com

В этом блоге автор собирает инфорграфику и свои наблюдения.

Сборник примеров от infogr.am

На этом сайте уйма примеров (1660 штук), много просто инфографики, но есть и интерактивные визуализации.

Сборник визуализаций данных всемирного банка

В этом блоге собрано много примеров. Интересно, что все они построены на данных всемирного банка.

Сборник антипримеров

В этом блоге автор собирает плохие примеры. Бывает полезно!

Давно не обновлявшиеся сайты или сайты на которых немного информации.

Сайт datavisualization.ch

Хороший ресурс с большим количеством полезных статей. К сожалению, последнее обновление — сентябрь прошлого года.

Сайт infosthetics.com

Этот сайт поддерживается бельгийским профессором Эндрю Ванд Муром. В основном статьи на сайте — это ссылки на примеры различных визуализаций и инфографик. Последний апдейт на сайте от сентября 14 года.

Сайт chartporn.org

Это сборник примеров графиков, инфографики и визуализаций. Последнее обновление в феврале этого года.

Галерея www.visualcomplexity.com

Этот сайт — галерея различных примеров (906 штук). Последнее обновление ноябрь прошлого года.

Персональный сайт Роксаны Тории

Это страничка информационного дизайнера из Голандии. Есть примеры её работ.

Блог про картограммы

Это блог Энли Вудрофа. Он один из создателей (на ровне с Синтеей Брюер)) замечательного инструмента для подбора цветов colorbrewer. Блог посвящён картам и всему что с ними связанно. Статьи выходят не очень часто — последняя февраль 2015 года.

Подводя итоги

В глобальном интернете достаточно большое количество ресурсов по визуализации данных, но не так много как хотелось бы. ))) Если знаете ещё полезными ресурсы, делитесь ссылками.
Вот здесь собраны большинство перечисленных ресурсов и на них можно подписаться скопом.

Ctrl + ↓ Ранее