МЕНЮ
РАЗДЕЛ ОПИСАНИЕ
ГЛАВНАЯ ОСНОВНАЯ ИНФОРМАЦИЯ И КОНТАКТЫ
ОБО МНЕ ОПЫТ И ТЕХНИЧЕСКИЙ СТЕК
УСЛУГИ ПРЕДЛОЖЕНИЯ И СТОИМОСТЬ
КЕЙСЫ ПОРТФОЛИО ВЫПОЛНЕННЫХ ПРОЕКТОВ
КОНТАКТЫ СВЯЗЬ И ЮРИДИЧЕСКАЯ ИНФОРМАЦИЯ
НАЗАД К КЕЙСАМ

Анализ посуточной аренды квартир в Москве

История проекта

Ко мне обратился частный клиент, практикующий специалист в сфере недвижимости. Его интересовало, как именно формируется стоимость посуточной аренды в Москве: какие факторы реально влияют на цену, насколько рынок однороден и можно ли заранее распознать переоценённые или выгодные объекты.

Проект носил исследовательский характер — цель заключалась в формировании собственной системы оценки, основанной на данных, а не на догадках или рыночных стереотипах. Я предложил реализовать полный аналитический цикл: от автоматического сбора данных до создания дашборда, где можно самостоятельно исследовать закономерности и выявлять нетипичные случаи.

Цели проекта

  • Получить актуальные данные с рынка аренды и подготовить их к анализу.
  • Построить обогащённый датасет с производными признаками.
  • Найти закономерности, влияющие на цену: от метро до типа отделки.
  • Выявить аномальные и переоценённые объекты.
  • Реализовать удобный дашборд, с которым может работать неаналитик.

Особенности реализации

Проект потребовал комплексного подхода к работе с данными — от автоматизированного сбора до глубокого анализа:

КОМПОНЕНТ ОПИСАНИЕ ТЕХНОЛОГИЯ
DATA-COLLECT ИСПОЛЬЗОВАН SELENIUM ДЛЯ ПАРСИНГА REALTY.YANDEX.RU С ИМИТАЦИЕЙ ДЕЙСТВИЙ ПОЛЬЗОВАТЕЛЯ SELENIUM WEBDRIVER
TEXT-MINING ИЗВЛЕЧЕНИЕ ПРИЗНАКОВ ИЗ ПОЛУТЕКСТОВЫХ ОПИСАНИЙ ("ПОТОЛКИ — 3,2 М", "ДОМ 1987 ГОДА") REGEX + PATTERN MATCHING
FEATURE-ENG ВЫЧИСЛЕНИЕ ПРОИЗВОДНЫХ ПАРАМЕТРОВ: ЦЕНА ЗА М², ПЛОТНОСТЬ КВАРТИР, ОТНОШЕНИЯ ПЛОЩАДЕЙ PANDAS + NUMPY
REPRODUCE ВОСПРОИЗВОДИМЫЙ АНАЛИЗ В JUPYTER + ИНТЕРАКТИВНЫЙ ДАШБОРД ДЛЯ КЛИЕНТА JUPYTER + STREAMLIT

Структура проекта

ФАЙЛ НАЗНАЧЕНИЕ ОПИСАНИЕ
PARSER.PY СБОР ДАННЫХ АВТОМАТИЧЕСКИЙ ПАРСИНГ ОБЪЯВЛЕНИЙ С REALTY.YANDEX.RU
CLEAN_DATA.PY ОБРАБОТКА ОЧИСТКА, НОРМАЛИЗАЦИЯ, ИЗВЛЕЧЕНИЕ ПРИЗНАКОВ
EDA.PY АНАЛИЗ РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ И ВИЗУАЛИЗАЦИЯ
ANALYZE_*.PY МОДУЛИ АНАЛИЗА ЛОГИКА АНАЛИЗА РАСПРЕДЕЛЕНИЙ, ФАКТОРОВ ЦЕНЫ, ОСОБЫХ СЛУЧАЕВ
REPORT.IPYNB ОТЧЕТ ВОСПРОИЗВОДИМЫЙ АНАЛИЗ С ГРАФИКАМИ И ТАБЛИЦАМИ
DASHBOARD.PY ИНТЕРФЕЙС ВИЗУАЛЬНЫЙ ДАШБОРД НА STREAMLIT ДЛЯ КЛИЕНТА

Результаты

Проект показал, насколько мощным может быть даже базовый анализ данных при грамотной постановке задач. Было обработано более 1000 объектов. В результате:

1. Геолокация = основной драйвер цены

Цены аренды тесно связаны с метро и улицей. В топе — Деловой центр, Пушкинская, Таганская, а также исторические локации типа Арбата и Котельнической набережной.

Топ-20 станций метро по средней цене аренды

Топ-20 станций метро по средней цене аренды с аннотациями

2. Связь цены и эпохи застройки

чётко прослеживается тренд: старые дома (до 1960 г.) и новостройки 2000-х — самые дорогие. Самые дешёвые — панельные дома 1980-х годов. Это важно при массовой оценке и фильтрации объектов.

Средняя цена аренды по эпохам постройки

Средняя цена аренды по эпохам постройки с медианой и доверительными интервалами

3. Цена за м² = лучший индикатор отклонений

Анализ стоимости за квадратный метр помог выявить необычные объекты. Например, рекордная цена — 466 ₽/м² при площади 15 м² и цене 6990 ₽/сутки. Этот объект расположен рядом с метро Деловой центр, что могло повлиять на его стоимость. В среднем цена за метр составляет около 108 ₽/м², а медианная — 94 ₽/м².

Распределение цены за квадратный метр

Распределение цены за м²

4. Аномалии и выбросы

Найдены лофты с потолками 4,5 м, квартиры с нереалистично высокой ценой при плохих характеристиках, случаи с некорректно заполненными карточками. Эти объекты были полезны клиенту как тревожные сигналы при ручном выборе или разработке фильтров.

5. Малозначимые признаки

Корреляционный анализ показал, что такие признаки как этаж, количество подъездов или даже тип дома оказывают минимальное влияние. Это позволило клиенту сократить перечень фичей, которые он учитывал при экспертной оценке.

Используемые технологии

КАТЕГОРИЯ ТЕХНОЛОГИИ ПРИМЕНЕНИЕ
CORE PYTHON 3.9+ ОСНОВНОЙ ЯЗЫК ПРОГРАММИРОВАНИЯ
DATA-PROC PANDAS, NUMPY ОБРАБОТКА И АНАЛИЗ ДАННЫХ
VISUAL MATPLOTLIB, SEABORN СОЗДАНИЕ ГРАФИКОВ И ВИЗУАЛИЗАЦИЙ
PARSING SELENIUM WEBDRIVER АВТОМАТИЗИРОВАННЫЙ СБОР ДАННЫХ
TEXT REGEX, AST ИЗВЛЕЧЕНИЕ ПРИЗНАКОВ ИЗ ТЕКСТА
INTERFACE JUPYTER NOTEBOOK, STREAMLIT ВОСПРОИЗВОДИМЫЙ АНАЛИЗ И ДАШБОРД

Срок разработки

Полный цикл занял около 1 недели:

Команда проекта

  • Аналитик данных, разработчик: Ковтун Кирилл

Проект полностью реализован собственными силами с использованием современных инструментов анализа данных.

ЗАИНТЕРЕСОВАЛ ЭТОТ ПОДХОД?

Данные не лгут — если правильно с ними работать. Обсудим ваш проект с реальными выводами

СВЯЗАТЬСЯ СО МНОЙ