Блог Ромы Бунина

о визуализации данных

Ctrl + ↑ Позднее

Список книг по визуализации данных (от Игоря Яновского)

На курсе Coursera Игорь Яновский (вот его сайт) поделился списком своих любимых книг по тематике. Я пока что не успел ещё его просмотреть, но решил перепостить. Странно, что в списке нет Тафти.

  1. Жак Бертин “Semiology of Graphics” — классика теории информационного дизайна;
  2. если чтение “Information Visualization: Perception for Design”Колина Вэра покажется жестковатым, рекомендую обратить внимание на его же “Visual Thinking: for Design” или на книгу Конни Маламид “Visual Language for Designers” — они воспринимаются полегче;
  3. в книгах Стивена Фью — “Now You See It”, “Show Me the Numbers”, “Information Dashboard Design” — описаны методы графического представления данных (в основном количественных), рассматриваются их особенности и приемы визуального анализа; кстати, недавно в продажу поступила его книга “Signal: Understanding What Matters in a World of Noise”;
  4. о методах визуализации качественных данных (графы, сетевые диаграммы) можно почитать в “Visual Complexity” Мануэля Лимы;
  5. книги Нэйтана Яу — “Visualize This” (кстати, есть на русском языке — «Искусство визуализации в бизнесе»), “Data Points” — могут найти практическое применение сразу же, т. к. он рассматривает различные методы визуализации на конкретных примерах и предлагает читателю сделать самому все то же самое, приводя алгоритмы действий и листинги программ (в первой книге) и описывает процесс работы над визуализацией, начиная с анализа данных и понимания целей самой визуализации, о чем часто забывают, если вообще задумываются (об этом во второй книге, соответственно);
  6. “Beautiful Visualization” и “Beautiful Data” — это сборники статей, написанных экспертами по работе с данными; просто интересно почитать, узнать о чьем-то конкретном опыте, привычках работы над проектом, особенностях мышления, каких-то хитростях, вдохновиться этим занятием.

Апдейт: Игорь собрал ещё более внушительный список у себя на сайте. За что ему отдельное спасибо!

2015   книги

Книга «Говори на языке диаграмм»

Хочу написать про вторую книгу по применению визуализации данных, которую можно найти на русском языке. Книга вызывает странное и двоякое впечатление. С одной стороны в ней есть классные базовые идеи:

  • сначала определи, что ты хочешь сказать, запиши это словами → затем выбери тип диаграммы
  • определи какой тип сравнения ты хочешь использовать — во времени, по значению, по позиции, по частоте или хочешь показать корреляцию
  • выбери диаграмму по таблице:

С другой стороны автор предлагает странные местами странные идеи — использовать в заголовке, вместо названия, вывод из графика. Такой газетный заголовок, точно подойдёт не всегда. Да и как-то кажется слишком «продажным», возможно это и имеет место, но только не всегда и не везде. Автор любит 3D штучки и фоны для диаграмм — Тафти он точно не читал. =)

Также в книге стрёмный дизайн из прошлого века (я читал от издательства ИКСИ, а не МИФ). Да и сами примеры пришли из той эпохи когда для показа презентации использовались реальные слайды.

Плюс книги — в ней есть кучу практических задачек, которые можно порешать от руки, а уж пользоваться советами автора или нет, это ваше дело. ;)

2015   книги

Книга «Искусство визуализации в бизнесе»

Хочу написать про недавно прочтенную книгу Нейтана Яау (автор сайта flowingdata.com). В России книга издана издательством МИФ с достаточно радикальным переводом — как из «Visualize This» получилось «Искусство визуализации в бизнесе» я даже не знаю. Книга является чуть ли не единственным стоящим произведением по тематике визуализации данных на русском — в ней много хороших примеров и её интересно читать, с другой она является набором туториолов с краткой теорией и реально полезной будет только тем, кто хочет работать с R или Phyton. Книга 2011 года выпуска, поэтому некоторые технологии используемые для реализации визуализаций устарели (flash и нет использования ggplot2 для R). В любом случаи, на скудном поприще русскоязычной литературы по тематике книга абсолютный маст хэв.

Главные мысли которые вынес для себя из книги:

  • подзаголовок для графика — это круто, можно именно там показывать основные выводы из графика
  • цветовую шкалу можно совмещать с гистограммой
  • надо учиться парсить сайты
  • сначала данные и история («сюжет»), потом визуализация — если будешь долго и тщательно готовить данные, то понимание как их визуализировать придет в процессе

Самые интересные примеры из книги (для увеличения правый клик → открыть изображение):

2015   книги

Ресурсы по визуализации данных

В этой заметке я разберу какие ресурсы по визуализации данных существуют в интернете и что на них можно найти. Речь пойдет именно о информационном дизайне, ресурсы по инструментам для визаулизации в одной из следующих заметок.

Лучшие и поддерживаемые сайты

Сайт flowingdata.com

На этом сайте можно найти множество статей, которые точно пригодятся, ресурс регулярно обновляется. Можно вдохновится идеями для своих визуализаций или найти полезные приёмы и примеры. Есть подборка проектов автора сайта и туториолов по визуализации при помощи R и d3.js.

Сайт visualisingdata.com

Этот сайт — агрегатор новостей посвященных визуализации данных. Статьи обычно являются ссылками на другие ресурсы. Больше всего мне нравятся сводки лучших визуализаций за прошедший месяц, где можно найти очень классные примеры, например такой как этот.

Сайт informationisbeautiful.net

Это авторский проект Дэвида МакКандлесса — английского журналиста и дизайнера, которые делает инфографику и иногда интерактивные визуализации. У сайта интересная эстетика, которая проходит через все работы автора, о которых он очень классно рассказывает на TED’е. Правда из-за особенностей дизайна, на мой взгляд, сайт имеет не самую лучшую навигацию.

Сайт datavizcatalogue.com

На этом классном ресурсе собрано большое количество различных типов диаграмм и графиков, для которых подробно описано, как они строятся и когда их лучше использовать. Must have. Сайт автора проекта.

Персональный сайт Стэфани Эвергрин

Это сайт инфомрационного дизайнера, которая написала диссертацию по тематики и книгу. Книгу ещё не читал, но видел, что её рекомендуют. Также она ведёт блог, где много интересных заметок

Блог Роберта Косары

Очень хороший блог с полезными статьями.

Блог datavizblog.com

В этом блоге автор собирает инфорграфику и свои наблюдения.

Сборник примеров от infogr.am

На этом сайте уйма примеров (1660 штук), много просто инфографики, но есть и интерактивные визуализации.

Сборник визуализаций данных всемирного банка

В этом блоге собрано много примеров. Интересно, что все они построены на данных всемирного банка.

Сборник антипримеров

В этом блоге автор собирает плохие примеры. Бывает полезно!

Давно не обновлявшиеся сайты или сайты на которых немного информации.

Сайт datavisualization.ch

Хороший ресурс с большим количеством полезных статей. К сожалению, последнее обновление — сентябрь прошлого года.

Сайт infosthetics.com

Этот сайт поддерживается бельгийским профессором Эндрю Ванд Муром. В основном статьи на сайте — это ссылки на примеры различных визуализаций и инфографик. Последний апдейт на сайте от сентября 14 года.

Сайт chartporn.org

Это сборник примеров графиков, инфографики и визуализаций. Последнее обновление в феврале этого года.

Галерея www.visualcomplexity.com

Этот сайт — галерея различных примеров (906 штук). Последнее обновление ноябрь прошлого года.

Персональный сайт Роксаны Тории

Это страничка информационного дизайнера из Голандии. Есть примеры её работ.

Блог про картограммы

Это блог Энли Вудрофа. Он один из создателей (на ровне с Синтеей Брюер)) замечательного инструмента для подбора цветов colorbrewer. Блог посвящён картам и всему что с ними связанно. Статьи выходят не очень часто — последняя февраль 2015 года.

Подводя итоги

В глобальном интернете достаточно большое количество ресурсов по визуализации данных, но не так много как хотелось бы. ))) Если знаете ещё полезными ресурсы, делитесь ссылками.
Вот здесь собраны большинство перечисленных ресурсов и на них можно подписаться скопом.

Ресурсы в рунете по визуализации данных

В этой заметке я расскажу о том какие есть ресурсы в интернете на русском языке и что на них есть полезного.

Хаб «Визуализация данных» на хабрахабре

На этом хабе (тематическом разделе) размещены все статьи с тэгом Визуализация данных. Статей много (на момент написания заметки было 143 публикации), но далеко не все они напрямую связанны с интерактивной инфографикой. Статьи, в основном, технического характера, также много про математику и big data. В любом случае, ресурс полезный.

Блог Тани Бибиковой и её советы в бюро

Таня — руководитель Лаборатории данных, она ведёт свой блог в котором много полезной информации, а главное есть классные примеры из рубрики вопрос-ответ, где каждый месяц появляется решение и, чаще всего, прототип какой-нибудь интересной задачи по визуализации.
Также Таня вела рубрику советов по инфодизайну во время работы в бюро Горбунова.

Блог Константина Варика

Этот блог похоже уже не поддерживается (последний пост 24 декабря 2014 г.). Впечатления от блога смешанные — есть полезные статьи, есть мура. Плюс все стрёмно оформлено. У этого же автора есть сайт с примерами его работ.

Блог R: Анализ и визуализация данных

Блог Сергея Мастицкого про применение языка R для анализа данных. Блог очень технический и больше про анализ, зато много информации про подготовку и обработку данных, что бывает очень полезно. Блог ведется очень активно и на базе него даже выпущена книга.

Сайт infogra.ru

Этот сайт — новостной портал по тематике. В разделе с интерактивной инфографикой можно найти примеры. В основном это просто ссылки на зарубежные сайты и краткое описание проекта.

Сайт infographer.ru

Был ещё хороший сайт infographer.ru, но на момент написания заметки он выдает ошибку 404, надеюсь с ним все хорошо. На сайте можно найти примеры и статьи — в основном это переводы или ссылки на зарубежные ресурсы.

Подводя итоги

Ресурсов в рунете совсем немного, просто чертовски мало. Интересно это связанно с непопуляроностью тематики или просто всем хватает зарубежных ресурсов (про них в следующей заметке). Пишите если знаете ещё какие-то источники.

Курсы по визуализации данных

В этой заметке я размещу ссылки и описание курсов по визуализации данных.

Курс лаборатории данных

Единственный курс на русском языке, посвящённый данной тематике. Курс проводиться как в живую, так и онлайн. Причем лекции онлайн курса доступны в открытом доступе на странице курса. Они состоят из трёх небольших лекций по теории информационного дизайна и трёх практических примеров по использованию d3.js. К сожалению, этого чертовски мало и хочется больше, было бы здорово попасть на живой курс. Также надо быть готовым к тому, что придется программировать и если раньше вы этого не делали, то поначалу это может показаться очень сложным.

Курс Data Visualization and D3.js

Это курс от компании Udacity по структуре похож на курс лаборатории — в нем есть теоретическая часть про информационный дизайн и практическая часть про применение d3.js и библиотек основанном на нём. Курс отличный: он бесплатный, большой и там более подробно рассмотрены основы программирования, есть тесты и задания, а также он содержит кучу ссылок на классные примеры. Как и в случае с войной и миром можно просмотреть только ту часть курса (теория или программирование) которая вам интересна и ничего не потерять.

Курс Data Visualization

Этот курс от Иллинойского Университета расположен на Coursera. Эта платформа у меня уже давно в любимчиках за свои замечательные и, о чудо, бесплатные курсы. Курс еще не закончен, но опишу текущее впечатление — много теории, не всегда нужной (ощущение, что добавляли для массы), но при этом даже эти дополнительные разделы и главы интересны. Более подробно когда пройду его весь.

Мини-курс по картограммам

Этот курс Андрея Карматского выделил отдельно, так он на русском языке. Будет интересен тем, кто хотел бы визуализировать карты. В курсе есть полезная информация где взять геоданные для России. К курсу прилагается статья на Хабре.

Ещё курсы

Эти курсы я ещё не прошел/просмотрел или они стартуют позже в этом году:

UPD: Помимо куросов по визуализации данных полезным могут быть курсы по программированию, веб-дизайну или графическому дизайну.

2015   курсы

Что такое визуализация данных: какая она бывает и не бывает

Как легко догадаться из названия, визуализация данных — это графическое представление каких-либо данных. При этом на просторах интернета я нашёл множество определений, которые относят к визуализации данных:

  • Графики и диаграммы,
  • Инфорграфика и схемы,
  • Презентация и анализ данных,
  • Интерактивный сторителлинг,
  • Бизнес аналитика и дашборды,
  • Научная и медицинская визуализация,
  • Карты и картограммы.

Дальше каждый решает сам — что же для него понимать под визуализация данных. В конце заметки, я расскажу, что же решил для себя я. А пока давайте рассмотрим каждый из видов подробнее и найдём их отличия и особенности.

Графики и диаграммы

Наверное самый привычный для нас вид визуализации данных. Используется как для презентации данных, так и для анализа. Встретить их можно и на работе, и в журнале и в научном отчете. Обычно знания о существующих типах диаграмм и графиков мы получаем из школы или из стандартного набора в экселе. Однако, мало кто знает, что мир графиков и диаграмм не ограничивается точечным графиком, столбиковой и круговой диаграммой. Существуют порядка 15 общеизвестных типов диаграмм, а всего их более 60, при этом их количество увеличивается с каждым днём — люди придумывают новые типы для визуализации сложных и необычных данных. Подробно типы графиков и диаграмм мы рассмотрим в одной из следующих заметок.

Типы графиков и диаграмм. Источник: datavizcatalogue.com

Ящичная диаграмма Точечная матрица Хордовая диаграмма Диаграмма стебель-листья График с областями и накоплением

Инфорграфика и схемы

Инфографика стала очень популярна в последние годы, хотя существуют уже давно. Инфографика относиться к журналистике данных, где графики и схемы объясняют какие-либо факты по выбранной теме. Обычно инфографика статична и представляет собой длинную «простыню» с картинками и текстом. Отличительной особенностью инфографики является то, что в ней приводятся уже готовые выводы, то есть читателя проводят за руку по выбранной теме и при этом приправляют это все цифрами и картинками. Часто используется рисованный или мультяшный стиль. Некоторые СМИ выпускают инфографику на ежедневной основе, например АиФ. Бум инфографики вызвал снижение общего уровня её качества. Часто используется не к месту или «для красоты», хотя конечно же есть замечательные и интересные примеры.

Примеры инфографики

Численность Наполеоновской армии во время русской компании, 1869 г.

Численность населения разных стран, 1912 г.

10 заповедей типографики

Взмах крыльев

Вегетарианцы в цифрах

Презентация и анализ данных

Один самых привычных способов использования визуализации данных — презентация информации в виде диаграмм или инфографики. И если с этим, я думаю, все понятно, то использование визуализации для анализа информации, в основном, используется только бизнес-аналитиками и учеными. В чем же заключается отличие?

При анализе данных с помощью визуализации используют так называемое быстрое прототипирование — то есть создание большого количества различных визуальных представлений одних и тех же данных. Делается это для возможности нахождения скрытых, на первый взгляд, взаимосвязей и зависимостей, а также первичной оценки набора данных для возможности применения в дальнейшем более сложных инструментов анализа. Этот подход называется Eploratory data analysis (EDA), что на русский можно перевести как разведочный анализ данных. Основное отличие от презентации данных — визуализация здесь может быть «черновой» и некрасивой, но выполняется быстро и одним человеком или небольшой рабочей группой. Для этого чаще всего используют эксель, R или матлаб

EDA — один из инструментов data mining’a, по его проведению есть даже учебники

Примеры визуализации для EDA

Интерактивный сторителлинг

Сторителлинг или по-русски сказительство (звучит забавно) — это преподнесение какой-либо полезной информации в форме интересного рассказа. Почему-то часто интерактивным сторителлиногм называют видео, но это не так, это всего-лишь еще один вид инфгорафики. Интерактивный сторителлинг — рассказ с которым слушатель может взаимодейтсовать. По своей сути он близок к журналистике данных и инфографике, но отличается тем, что пользователь может управлять отображением информации и находить те зависимости, которые не нашёл автор. В этом смысле он близок к разведочному анализу данных, но отличается тем, что данные заранее обработаны и представлены в удобном для анализа виде, а также имеются подсказки или заранее прописанные сценарии использования. Поэтому, чаще всего интерактивный сторителлинг называют интерактивной инфографикой, но для того чтобы ей стать не достаточно просто к статичной инфографике добавить всплывающие окошки.
Интерактивные визуализации активно развиваются в наше время. Сильные примеры можно встретить в крупных СМИ или в виде отдельных проектов.

Примеры инетрактивного сторителлинга (переход на сайт при клике на картинку)

Анализ бросков в баскетболе

Сравнение индекса читабельности для речей американских президентов

Частота употребления слов в выступлениях американских президентов

Московский марафон

Бизнес аналитика и дашборды,

Визуализация активно используется в бизнесе. Принцип «говорите с данными» помогает компаниям зарабатывать больше, а клиентам получать лучший сервис. Для разового анализа обычно используется эксель или R. Однако это не удобно если необходимо следит за какими-то показателями (KPI) на постоянной основе. Для отслеживания рутинных KPI используют дашборды — дисплеи на которых выведены все необходимые показатели в одном месте в виде графиков, диаграмм и таблиц.

Анализ проводимый один раз, также называют ad hoc анализом).

Проектирование эффективных дашбордов — сложная и неординарная задача. Зачастую их перегружают ненужной информацией или стараются использовать все возможные типы шаблонных графиков. Часто для того чтобы спроектировать хороший дашборд необходимо создание новых типов визуализации информации. Тематика активно развивается за счет все большего применения аналитики в бизнесе. Также дашборды применяются и для личного использования (фитнес трекеры, анализ личных расходов и т. п.)

Примеры дашбордов (переход на сайт при клике на картинку)

Дашборд с количеством твитов по заданной тематике

Дашборд генерального директора компании

Научная и медицинская визуализация

Специфический вид визуализации, который используется как следует из названия в медицине и науке. Его целью обычно является выделение закономерностей или анамалий. От обычной визуализации данных отличается тем, что часто бывает трёхмерной и требует специальной подготовки для интерпретации.

Примеры научной и медицинской визуализации

Расчет магнитных полей из моей диссертации

Результаты исследования сердца

Карты и картограммы.

Карты — одни из древнейших способов визуализации, отображающих окружающую реальность. Картограмма — карта с нанесенной на неё информацией в виде цвета или других способов. Возможно я тут буду не точен с терминами, да простят меня картографы. Картограммы могут быть использованы для отображения любой информации — от плотности населения, до частоты использования ругательных слов в каждом районе страны. Их могут применять в любом из типов визуализаций, о которых мы говорили раньше. Я выделил их в отдельный пункт, так как их реализация достаточно отличается от других типов визуализаций (ждем про это заметку).

Примеры картограмм (переход на сайт при клике на картинку)

Оборот наличности в России

Возраст зданий Москвы

Карта падения метеоритов

Подводя итоги

Заметка получилась неожиданно большой. Может быть оно и хорошо, сразу видно как много всего в мире визуализации данных. Что же понимаю под этим понятием я и о чем будет речь в данном блоге?
Для меня представление данных в первую очередь связанно с графиками и диаграммами, а также инетрактивной инфографикой. Это то, чему будет посвящена основная масса заметок, также будет интересно покопаться с картами и дашбордами.

Hello, world!

Этот блог создан с достаточно эгоистичной целью — освоить визуализацию данных. Чтобы не потерять всю ценную информацию, которую я нахожу в процессе обучения, я решил создать блог. В нем я буду делиться полезными ссылками на ресурсы, обзорами книг и курсов, а также своими проектами и наблюдениями. Надеюсь всё это пригодится тем, кто пойдет по моим стопам и позволит им не наступать на мои грабли. Пусть лучше наступают на свои, граблей на всех хватит.

В блоге будет не так много авторского текста, но много ссылок на полезные ресурсы.

Дисклеймер #1. Прошу не относится строго к написанному в блоге, я только учусь. Буду рад комментариям, советам и конструктивной критике.

Дисклеймер #2. Будет много ссылок на англоязычные сайты, к сожалению, информации на русском очень мало.

Дисклеймер #3. Запятые и грамматика — не мой конек. Будьте готовы к ошибкам и очепяткам.