Компания «Техносерв», крупнейший российский системный интегратор, провела первый внутрикорпоративный хакатон, посвященный проектам на основе анализа открытых данных города Москвы.
«Мы активно используем открытые данные в своей работе при построении моделей машинного обучения и для обогащения данных заказчиков. Для внутреннего хакатона мы собрали интересный набор данных по городскому пространству», – рассказал о мероприятии Андрей Жуков, руководитель направления Data Science центра компетенций Больших Данных компании «Техносерв».
Мероприятие проходило в течение трех дней. В первый день участники обсудили тему хакатона, первые идеи для реализации и то, какие инструменты могут использоваться, а также разбились на команды. Во второй день команды вели активную работу. Уже в завершении третьего дня команды собрались вместе для обсуждения результатов.
Самым объемным и основательным получилось исследование на основе набора статистических данных о городе Москве по 9 направлениям: уровень загрязнения воздуха, загрязнители, больницы, больные астмой, зеленые насаждения, детское здоровье, преступность, количество проживающих в районе и характеристики домов. Участники команды смогли не просто разобрать большую часть набора данных, но и построить визуализацию и аналитику на их базе. Была представлена наглядная статистика и корреляционный анализ заболеваний, экологии, характера расселения и уровня преступности.
У команды, занявшей первое место в состязании, доклад получился самым технологичным. Он был посвящен исследованию гипотезы об изменении уровня преступности после завершения программы реновации, когда старый жилой фонд сменится новым. Предполагалось, что изменится и состав населения. Тщательно обработав исходные данные, отфильтровав и сопоставив их, участники команды смогли выделить необходимые признаки – статистику преступлений, наличие промзон, возраст домов. Все это было присвоено километровой прямоугольной сетке на территории Москвы. Учтено было и влияние «соседей» – с помощью оконной функции к каждой ячейке добавили статистические признаки окружения. Наконец, с помощью алгоритмов машинного обучения выборку разбили на тренировочную и тестовую, построили предсказательную модель и проверили ее. Получив удовлетворительный результат, проверили гипотезу влияния возраста жилого фонда. Модель действительно показала, что «молодому» жилому фонду соответствует сниженный фон преступности.
«Нам было интересно, насколько такой формат подойдет «Техносерву». Результатами мы довольны, уже определена дата второго внутреннего хакатона. Мы планируем сделать такой формат внутренних мероприятий периодическим, а также рассмотрим возможность организации подобных мероприятий для наших клиентов и партнеров», – прокомментировал Георгий Шатиров, директор центра компетенций Больших Данных компании «Техносерв».