Блог Ромы Бунина

о визуализации данных

Ctrl + ↑ Позднее

Ресурсы в рунете по визуализации данных

В этой заметке я расскажу о том какие есть ресурсы в интернете на русском языке и что на них есть полезного.

Хаб «Визуализация данных» на хабрахабре

На этом хабе (тематическом разделе) размещены все статьи с тэгом Визуализация данных. Статей много (на момент написания заметки было 143 публикации), но далеко не все они напрямую связанны с интерактивной инфографикой. Статьи, в основном, технического характера, также много про математику и big data. В любом случае, ресурс полезный.

Блог Тани Бибиковой и её советы в бюро

Таня — руководитель Лаборатории данных, она ведёт свой блог в котором много полезной информации, а главное есть классные примеры из рубрики вопрос-ответ, где каждый месяц появляется решение и, чаще всего, прототип какой-нибудь интересной задачи по визуализации.
Также Таня вела рубрику советов по инфодизайну во время работы в бюро Горбунова.

Блог Константина Варика

Этот блог похоже уже не поддерживается (последний пост 24 декабря 2014 г.). Впечатления от блога смешанные — есть полезные статьи, есть мура. Плюс все стрёмно оформлено. У этого же автора есть сайт с примерами его работ.

Блог R: Анализ и визуализация данных

Блог Сергея Мастицкого про применение языка R для анализа данных. Блог очень технический и больше про анализ, зато много информации про подготовку и обработку данных, что бывает очень полезно. Блог ведется очень активно и на базе него даже выпущена книга.

Сайт infogra.ru

Этот сайт — новостной портал по тематике. В разделе с интерактивной инфографикой можно найти примеры. В основном это просто ссылки на зарубежные сайты и краткое описание проекта.

Сайт infographer.ru

Был ещё хороший сайт infographer.ru, но на момент написания заметки он выдает ошибку 404, надеюсь с ним все хорошо. На сайте можно найти примеры и статьи — в основном это переводы или ссылки на зарубежные ресурсы.

Подводя итоги

Ресурсов в рунете совсем немного, просто чертовски мало. Интересно это связанно с непопуляроностью тематики или просто всем хватает зарубежных ресурсов (про них в следующей заметке). Пишите если знаете ещё какие-то источники.

Курсы по визуализации данных

В этой заметке я размещу ссылки и описание курсов по визуализации данных.

Курс лаборатории данных

Единственный курс на русском языке, посвящённый данной тематике. Курс проводиться как в живую, так и онлайн. Причем лекции онлайн курса доступны в открытом доступе на странице курса. Они состоят из трёх небольших лекций по теории информационного дизайна и трёх практических примеров по использованию d3.js. К сожалению, этого чертовски мало и хочется больше, было бы здорово попасть на живой курс. Также надо быть готовым к тому, что придется программировать и если раньше вы этого не делали, то поначалу это может показаться очень сложным.

Курс Data Visualization and D3.js

Это курс от компании Udacity по структуре похож на курс лаборатории — в нем есть теоретическая часть про информационный дизайн и практическая часть про применение d3.js и библиотек основанном на нём. Курс отличный: он бесплатный, большой и там более подробно рассмотрены основы программирования, есть тесты и задания, а также он содержит кучу ссылок на классные примеры. Как и в случае с войной и миром можно просмотреть только ту часть курса (теория или программирование) которая вам интересна и ничего не потерять.

Курс Data Visualization

Этот курс от Иллинойского Университета расположен на Coursera. Эта платформа у меня уже давно в любимчиках за свои замечательные и, о чудо, бесплатные курсы. Курс еще не закончен, но опишу текущее впечатление — много теории, не всегда нужной (ощущение, что добавляли для массы), но при этом даже эти дополнительные разделы и главы интересны. Более подробно когда пройду его весь.

Мини-курс по картограммам

Этот курс Андрея Карматского выделил отдельно, так он на русском языке. Будет интересен тем, кто хотел бы визуализировать карты. В курсе есть полезная информация где взять геоданные для России. К курсу прилагается статья на Хабре.

Ещё курсы

Эти курсы я ещё не прошел/просмотрел или они стартуют позже в этом году:

UPD: Помимо куросов по визуализации данных полезным могут быть курсы по программированию, веб-дизайну или графическому дизайну.

2015   курсы

Что такое визуализация данных: какая она бывает и не бывает

Как легко догадаться из названия, визуализация данных — это графическое представление каких-либо данных. При этом на просторах интернета я нашёл множество определений, которые относят к визуализации данных:

  • Графики и диаграммы,
  • Инфорграфика и схемы,
  • Презентация и анализ данных,
  • Интерактивный сторителлинг,
  • Бизнес аналитика и дашборды,
  • Научная и медицинская визуализация,
  • Карты и картограммы.

Дальше каждый решает сам — что же для него понимать под визуализация данных. В конце заметки, я расскажу, что же решил для себя я. А пока давайте рассмотрим каждый из видов подробнее и найдём их отличия и особенности.

Графики и диаграммы

Наверное самый привычный для нас вид визуализации данных. Используется как для презентации данных, так и для анализа. Встретить их можно и на работе, и в журнале и в научном отчете. Обычно знания о существующих типах диаграмм и графиков мы получаем из школы или из стандартного набора в экселе. Однако, мало кто знает, что мир графиков и диаграмм не ограничивается точечным графиком, столбиковой и круговой диаграммой. Существуют порядка 15 общеизвестных типов диаграмм, а всего их более 60, при этом их количество увеличивается с каждым днём — люди придумывают новые типы для визуализации сложных и необычных данных. Подробно типы графиков и диаграмм мы рассмотрим в одной из следующих заметок.

Типы графиков и диаграмм. Источник: datavizcatalogue.com

Ящичная диаграмма Точечная матрица Хордовая диаграмма Диаграмма стебель-листья График с областями и накоплением

Инфорграфика и схемы

Инфографика стала очень популярна в последние годы, хотя существуют уже давно. Инфографика относиться к журналистике данных, где графики и схемы объясняют какие-либо факты по выбранной теме. Обычно инфографика статична и представляет собой длинную «простыню» с картинками и текстом. Отличительной особенностью инфографики является то, что в ней приводятся уже готовые выводы, то есть читателя проводят за руку по выбранной теме и при этом приправляют это все цифрами и картинками. Часто используется рисованный или мультяшный стиль. Некоторые СМИ выпускают инфографику на ежедневной основе, например АиФ. Бум инфографики вызвал снижение общего уровня её качества. Часто используется не к месту или «для красоты», хотя конечно же есть замечательные и интересные примеры.

Примеры инфографики

Численность Наполеоновской армии во время русской компании, 1869 г.

Численность населения разных стран, 1912 г.

10 заповедей типографики

Взмах крыльев

Вегетарианцы в цифрах

Презентация и анализ данных

Один самых привычных способов использования визуализации данных — презентация информации в виде диаграмм или инфографики. И если с этим, я думаю, все понятно, то использование визуализации для анализа информации, в основном, используется только бизнес-аналитиками и учеными. В чем же заключается отличие?

При анализе данных с помощью визуализации используют так называемое быстрое прототипирование — то есть создание большого количества различных визуальных представлений одних и тех же данных. Делается это для возможности нахождения скрытых, на первый взгляд, взаимосвязей и зависимостей, а также первичной оценки набора данных для возможности применения в дальнейшем более сложных инструментов анализа. Этот подход называется Eploratory data analysis (EDA), что на русский можно перевести как разведочный анализ данных. Основное отличие от презентации данных — визуализация здесь может быть «черновой» и некрасивой, но выполняется быстро и одним человеком или небольшой рабочей группой. Для этого чаще всего используют эксель, R или матлаб

EDA — один из инструментов data mining’a, по его проведению есть даже учебники

Примеры визуализации для EDA

Интерактивный сторителлинг

Сторителлинг или по-русски сказительство (звучит забавно) — это преподнесение какой-либо полезной информации в форме интересного рассказа. Почему-то часто интерактивным сторителлиногм называют видео, но это не так, это всего-лишь еще один вид инфгорафики. Интерактивный сторителлинг — рассказ с которым слушатель может взаимодейтсовать. По своей сути он близок к журналистике данных и инфографике, но отличается тем, что пользователь может управлять отображением информации и находить те зависимости, которые не нашёл автор. В этом смысле он близок к разведочному анализу данных, но отличается тем, что данные заранее обработаны и представлены в удобном для анализа виде, а также имеются подсказки или заранее прописанные сценарии использования. Поэтому, чаще всего интерактивный сторителлинг называют интерактивной инфографикой, но для того чтобы ей стать не достаточно просто к статичной инфографике добавить всплывающие окошки.
Интерактивные визуализации активно развиваются в наше время. Сильные примеры можно встретить в крупных СМИ или в виде отдельных проектов.

Примеры инетрактивного сторителлинга (переход на сайт при клике на картинку)

Анализ бросков в баскетболе

Сравнение индекса читабельности для речей американских президентов

Частота употребления слов в выступлениях американских президентов

Московский марафон

Бизнес аналитика и дашборды,

Визуализация активно используется в бизнесе. Принцип «говорите с данными» помогает компаниям зарабатывать больше, а клиентам получать лучший сервис. Для разового анализа обычно используется эксель или R. Однако это не удобно если необходимо следит за какими-то показателями (KPI) на постоянной основе. Для отслеживания рутинных KPI используют дашборды — дисплеи на которых выведены все необходимые показатели в одном месте в виде графиков, диаграмм и таблиц.

Анализ проводимый один раз, также называют ad hoc анализом).

Проектирование эффективных дашбордов — сложная и неординарная задача. Зачастую их перегружают ненужной информацией или стараются использовать все возможные типы шаблонных графиков. Часто для того чтобы спроектировать хороший дашборд необходимо создание новых типов визуализации информации. Тематика активно развивается за счет все большего применения аналитики в бизнесе. Также дашборды применяются и для личного использования (фитнес трекеры, анализ личных расходов и т. п.)

Примеры дашбордов (переход на сайт при клике на картинку)

Дашборд с количеством твитов по заданной тематике

Дашборд генерального директора компании

Научная и медицинская визуализация

Специфический вид визуализации, который используется как следует из названия в медицине и науке. Его целью обычно является выделение закономерностей или анамалий. От обычной визуализации данных отличается тем, что часто бывает трёхмерной и требует специальной подготовки для интерпретации.

Примеры научной и медицинской визуализации

Расчет магнитных полей из моей диссертации

Результаты исследования сердца

Карты и картограммы.

Карты — одни из древнейших способов визуализации, отображающих окружающую реальность. Картограмма — карта с нанесенной на неё информацией в виде цвета или других способов. Возможно я тут буду не точен с терминами, да простят меня картографы. Картограммы могут быть использованы для отображения любой информации — от плотности населения, до частоты использования ругательных слов в каждом районе страны. Их могут применять в любом из типов визуализаций, о которых мы говорили раньше. Я выделил их в отдельный пункт, так как их реализация достаточно отличается от других типов визуализаций (ждем про это заметку).

Примеры картограмм (переход на сайт при клике на картинку)

Оборот наличности в России

Возраст зданий Москвы

Карта падения метеоритов

Подводя итоги

Заметка получилась неожиданно большой. Может быть оно и хорошо, сразу видно как много всего в мире визуализации данных. Что же понимаю под этим понятием я и о чем будет речь в данном блоге?
Для меня представление данных в первую очередь связанно с графиками и диаграммами, а также инетрактивной инфографикой. Это то, чему будет посвящена основная масса заметок, также будет интересно покопаться с картами и дашбордами.

Hello, world!

Этот блог создан с достаточно эгоистичной целью — освоить визуализацию данных. Чтобы не потерять всю ценную информацию, которую я нахожу в процессе обучения, я решил создать блог. В нем я буду делиться полезными ссылками на ресурсы, обзорами книг и курсов, а также своими проектами и наблюдениями. Надеюсь всё это пригодится тем, кто пойдет по моим стопам и позволит им не наступать на мои грабли. Пусть лучше наступают на свои, граблей на всех хватит.

В блоге будет не так много авторского текста, но много ссылок на полезные ресурсы.

Дисклеймер #1. Прошу не относится строго к написанному в блоге, я только учусь. Буду рад комментариям, советам и конструктивной критике.

Дисклеймер #2. Будет много ссылок на англоязычные сайты, к сожалению, информации на русском очень мало.

Дисклеймер #3. Запятые и грамматика — не мой конек. Будьте готовы к ошибкам и очепяткам.