Резюме
Слишком часто в сфере недвижимости процесс оценки может показаться высокомерным упражнением в сосании пальца. Риэлтор придет, набьет пресловутые шины, а затем рассчитает оценочную стоимость с очень небольшим «количественным» пониманием. Возможно, этот процесс усугубляется эмоциональной привязанностью к собственности, учитывая, что для многих дом будет самым крупным финансовым вложением в жизни.
Тем не менее, у этого безумия есть метод. Ну, три, если быть точным.
Подход к сопоставимым продажам наиболее распространен в сфере жилой недвижимости и использует недавние продажи аналогичной недвижимости для определения стоимости объекта недвижимости. Цена продажи «композиций» корректируется на основе различий между ними и объектом недвижимости. Например, если в сопоставимом объекте недвижимости есть дополнительная ванная комната, оценочная стоимость ванной комнаты вычитается из наблюдаемой цены продажи.
Коммерческая недвижимость считается более разнородной, поэтому метод сопоставимых продаж используется реже. Доходный подход, основанный на концепции, согласно которой внутренняя стоимость актива эквивалентна сумме всех его дисконтированных денежных потоков, чаще применяется двумя методами:
Последним методом является затратный подход, при котором стоимость оценивается на основе затрат на приобретение идентичного участка земли и строительство копии объекта недвижимости. Затем стоимость проекта амортизируется исходя из текущего состояния морального износа объекта недвижимости. Подобно корректировкам в методе сопоставимых продаж, цель состоит в том, чтобы точно соответствовать объекту оценки. Затратный подход используется реже, чем два других подхода.
Все традиционные методы оценки недвижимости являются субъективными из-за выбора исходных данных, используемых для оценки. Например, выбор ставки капитализации оказывает значительное влияние на оценку имущества:при оценке собственности с NOI в 1 миллион долларов увеличение ставки капитализации на 4% (с 6% до 10%) снизит стоимость свойство на 40% (диаграмма ниже).
Существует множество преимуществ использования регрессионных моделей для оценки недвижимости. Индустрия розничной торговли приняла его использование для выбора места, но индустрия недвижимости по большей части упустила из виду его потенциальные преимущества. Регрессионный анализ особенно подходит для анализа больших объемов данных. Было бы практически невозможно хорошо знать каждый местный рынок недвижимости в стране, но регрессионное моделирование может помочь сузить поиск.
Самым большим преимуществом использования регрессионного моделирования является присущая ему гибкость:они могут работать независимо от других моделей или в сочетании с ними.
Наиболее прямой подход заключается в использовании существующих данных о продажах для прогнозирования стоимости объекта недвижимости в качестве выходных данных для модели. Существует множество источников бесплатных данных от местных, государственных и федеральных агентств, которые могут быть дополнены частными поставщиками данных.
Другой вариант — использовать регрессионные модели для более точного прогнозирования исходных данных для других традиционных методов оценки. Например, при анализе коммерческого проекта смешанного использования разработчик может построить одну модель для прогнозирования продаж на квадратный фут для торговых площадей и другую модель для прогнозирования арендных ставок для жилых помещений. Оба они затем могут быть использованы в качестве исходных данных для доходного подхода к оценке.
Использование надежных статистических принципов обеспечивает более объективный подход к оценке. Это один из лучших способов избежать предвзятости подтверждения, которая возникает, когда люди ищут информацию, подтверждающую их ранее существовавшее мнение, или отвергают новую информацию, которая ему противоречит. Когда я разрабатывал для розничных продавцов модели для прогнозирования продаж в новых магазинах, они часто с удивлением узнавали, что многие розничные продавцы выигрывают от близости к конкурентам. На самом деле совместное размещение с Walmart, который часто был их крупнейшим конкурентом, было одной из самых распространенных переменных, используемых в моих моделях. Опора на существующие предубеждения может привести к упущенным возможностям или, что еще хуже, к скрытым бедствиям прямо за углом.
Вот некоторые из объективных преимуществ статистической оценки:
Регрессионные модели уникальны тем, что имеют встроенную проверку на точность. Построив модель на выборке из общей совокупности, вы можете использовать модель на данных вне выборки, чтобы обнаружить возможную систематическую ошибку выборки.
Все традиционные методы оценки сопряжены со значительным риском систематической ошибки при выборе. При выборе сопоставимых свойств очень легко попасть в ловушку выбора лучших результатов и предположения, что они больше всего похожи на ваш проект. В доходном подходе также делается упор на прогнозирование переменных, таких как норма прибыли. Устранение необходимости в этом прогнозе может быть привлекательным для многих инвесторов в недвижимость, поэтому оценка на основе регрессии является полезным подходом.
Количество шуток, цитирующих различные проценты выдуманных статистических данных, действительно является шуткой само по себе. Почти каждый день нас бомбардируют заголовками СМИ о результатах нового исследования, многие из которых, похоже, противоречат результатам исследования, опубликованного в прошлом году. В мире звуков нет времени обсуждать строгость методов, используемых исследователями.
Существует много типов регрессионного анализа, но наиболее распространенным является линейная регрессия. Существуют определенные допущения о линейных регрессиях, которые не следует нарушать, чтобы модель считалась достоверной. Нарушение этих предположений искажает статистические тесты, вычисляющие прогностическую силу входных данных и модели в целом.
Между входными данными (независимыми переменными) и выходными данными (зависимой переменной) должна быть линейная зависимость. Например, мы могли бы предположить, что существует линейная зависимость между количеством отапливаемых квадратных футов в доме и его общей стоимостью. Однако из-за убывающей отдачи мы можем обнаружить, что связь нелинейна и требует преобразования исходных данных.
Независимые переменные не должны быть случайными. Проще говоря, наблюдения для каждой независимой переменной в модели фиксированы, и предполагается, что в их измерении нет ошибок. Например, если мы используем количество единиц для моделирования стоимости многоквартирного дома, все здания в наших выборочных данных будут иметь фиксированное количество единиц, которое не изменится, независимо от того, как мы построим модель.Р>
«Остатки» модели (т. е. разница между прогнозируемым результатом модели и фактическими наблюдениями) в сумме будут равны 0, или, проще говоря, модель, которую мы будем использовать, будет представлять собой линию наилучшего соответствия.
Модель должна быть точной для всех наблюдений для каждой независимой переменной. Если бы мы предсказывали стоимость дома на основе его площади в квадратных футах, мы бы не стали использовать эту модель, если бы она была чрезвычайно точной при прогнозировании стоимости домов площадью менее 1500 квадратных футов, но для домов площадью более 3000 квадратных футов была большая ошибка. квадратный фут. Это известно как гетероскедастичность.
Одной из наиболее распространенных проблем с линейной регрессией при рассмотрении отрасли недвижимости является корреляция остаточных ошибок между наблюдениями. Вы можете думать об этом как о белом шуме, который не имеет шаблона. Однако, если в остатках есть закономерность, то, скорее всего, нам нужно внести поправку. Эту проблему трудно осмыслить, но есть две основные области, в которых это вызывает беспокойство в сфере недвижимости.
Построение модели на основе наблюдений за длительный период времени было бы неуместным для прогнозирования текущих значений. Предположим, мы построили модель для прогнозирования стоимости отеля, используя среднюю стоимость номера в качестве независимой переменной. Прогностическая сила этой переменной может вводить в заблуждение, поскольку стоимость номеров постоянно росла с течением времени. С точки зрения статистики, существует автокорреляция между наблюдаемыми средними ценами на номера, показывающими положительную динамику с течением времени (т. е. инфляцию), которая не учитывается в модели. Традиционный подход к сопоставимым продажам, наиболее широко используемый в сфере жилой недвижимости, устраняет эту проблему за счет использования только самых последних данных. Поскольку количество коммерческих транзакций гораздо меньше, это ограничение по времени часто делает подход сопоставимых продаж неэффективным. Однако существуют методы, использующие линейную регрессию, которые могут решить проблемы автокорреляции.
Кластерный эффект также представляет собой серьезную проблему при моделировании оценки недвижимости. Это можно рассматривать как пространственную автокорреляцию. Самый простой способ решить эту проблему — представить себе построение модели для прогнозирования стоимости домов в двух районах (А и В) по обе стороны от шоссе. В целом модель может хорошо работать при прогнозировании значений, но когда мы изучаем остаточные ошибки, мы замечаем закономерность. Дома в районе А обычно переоценены примерно на 10%, а дома в районе В недооценены примерно на 10%. Чтобы улучшить нашу модель, нам нужно учесть этот кластерный эффект или построить по одной модели для каждого района.
В идеале переменные в модели не должны коррелировать друг с другом. Эта известная проблема называется мультиколлинеарностью. Использование как квадратных футов, так и количества парковочных мест в качестве исходных данных для модели, оценивающей региональные торговые центры, вероятно, продемонстрирует мультиколлинеарность. Это интуитивно понятно, потому что правила планирования часто требуют определенного количества парковочных мест в зависимости от площади коммерческого помещения. В этом примере удаление одной из переменных даст более точную оценку скорректированной модели без существенного снижения ее прогностической способности.
Использование данных наблюдений — основа любого эмпирического подхода, но важно помнить, что прошлые результаты не всегда предсказывают будущее. Неликвидные активы, такие как недвижимость, особенно уязвимы к изменениям в деловом цикле. Прогностическая сила некоторых переменных, вероятно, изменится в зависимости от текущих экономических условий. Эта проблема характерна не только для линейной регрессии, но и для традиционных подходов.
Корреляция не равна причинности. Цель построения модели состоит в том, чтобы найти полезные переменные, которые позволят сделать достоверные прогнозы. Вы должны опасаться ложных корреляций. Вы можете быть удивлены, узнав, что существует чрезвычайно сильная корреляция между уровнем разводов в штате Мэн и потреблением маргарина на душу населения. Однако использование данных о разводах из штата Мэн не имеет смысла, если вы пытаетесь предсказать будущие продажи маргарина.
Давайте теперь применим эти знания на практике и построим линейную модель от начала до конца. В нашем примере мы попытаемся построить модель оценки недвижимости, которая прогнозирует стоимость отдельно стоящих домов на одну семью в округе Аллегани, штат Пенсильвания. Выбор округа Аллегани является произвольным, и продемонстрированные принципы будут работать в любом месте. Мы будем использовать Excel и SPSS, широко используемую статистическую программу.
Поиск качественных данных — это первый шаг в построении точной модели и, возможно, самый важный. Хотя мы все слышали фразу «мусор на входе, мусор на выходе», важно помнить, что идеального набора данных не существует. Это нормально, если мы можем с уверенностью предположить, что данные выборки репрезентативны для всего населения. Существует три основных источника данных о недвижимости:
В нашем примере мы будем использовать исключительно бесплатные данные, полученные из Регионального центра данных Западной Пенсильвании и Бюро переписи населения США. Данные Alleghany Real Estate Sales дадут нам базовый файл для наших наблюдений с ценой продажи в качестве нашей зависимой переменной (переменная Y). Мы также будем тестировать переменные, используя оценку ходьбы для каждого участка переписи и информацию о налоговой оценке.
Одна очень полезная переменная при построении моделей недвижимости — это широта и долгота каждого адреса. Вы можете получить эти данные с помощью геокодера, который использует адрес улицы для назначения широты и долготы. Геокодировщик Бюро переписи населения США также идентифицирует переписной участок для каждого местоположения, который обычно используется для агрегирования демографической и психографической информации.
Теперь, когда мы выбрали наши источники данных, нам нужно проверить качество данных. Самый простой способ проверить качество данных — запустить таблицу частот для нескольких ключевых переменных. Если имеется значительное количество отсутствующих или поврежденных записей, нам потребуется дополнительно изучить данные. В приведенной ниже таблице показано, что только 1 из 216 498 записей имеет отсутствующий почтовый индекс в файле продаж, и нет ошибочных почтовых индексов, таких как 99999 или 1X#45. Вероятно, это указывает на то, что это высококачественный набор данных.
Словарь данных является отличным ресурсом, когда он доступен. Он даст описание того, что измеряет каждая переменная, и возможные варианты для переменной. Наши данные содержат анализ каждой продажи, осуществленной в округе. Это ключевая информация, особенно при работе с необработанными документами. Все сделки с недвижимостью должны быть зарегистрированы, чтобы иметь законную силу, но не все передачи отражают истинную справедливую рыночную стоимость собственности. Например, продажа между двумя членами семьи может быть осуществлена по цене ниже рыночной в качестве подарка или для того, чтобы избежать более высоких транзакционных издержек, таких как печать акта купли-продажи. К счастью для нас, местные органы власти четко отмечают передачи, которые, по их мнению, не отражают текущую рыночную стоимость, поэтому мы будем использовать только записи, отражающие «действительную продажу». Эти продажи составляют лишь около 18% от общего числа транзакций, что свидетельствует о том, насколько важно понимать ваши данные, прежде чем вы начнете использовать их для анализа. Исходя из моего опыта, это соотношение довольно часто встречается при анализе актов гражданского состояния. Весьма вероятно, что если мы построим модель, включающую «недействительные продажи», наши окончательные результаты будут искажены.
Затем мы добавим наши оценочные данные и баллы в файл продаж. Это дает нам одну единственную таблицу для использования в нашей модели. На этом этапе нам нужно проанализировать переменные, чтобы увидеть, подходят ли они для линейной регрессии. Ниже приведена таблица, показывающая различные типы переменных.
Наш файл содержит несколько номинальных значений, таких как район или почтовый индекс, которые классифицируют данные без смысла порядка. Номинальные значения не подходят для линейной регрессии без преобразования. Есть также несколько порядковых переменных, которые оценивают качество строительства, текущее состояние собственности и т. д. Использование порядковых данных уместно только тогда, когда мы можем разумно предположить, что каждый ранг равномерно распределен. Например, в наших данных есть переменная оценок с 19 различными классификациями (A+, A, A- и т. д.), поэтому мы можем с уверенностью предположить, что эти оценки, скорее всего, распределены равномерно.
Есть также несколько переменных, которые необходимо преобразовать, прежде чем мы сможем использовать их в модели. Одно номинальное значение, которое может быть преобразовано в фиктивную переменную для тестирования, — это переменная нагрева и охлаждения. Мы установим переменную на 0 для всех объектов без кондиционера и на 1 для объектов с кондиционером. Кроме того, буквенные оценки необходимо преобразовать в числа (например, 0 =худшее, 1 =лучшее, 2 =лучшее), чтобы увидеть если есть линейная связь с ценой.
Наконец, нам нужно определить, уместно ли использовать все наблюдения. Мы хотим спрогнозировать стоимость отдельных домов на одну семью, чтобы исключить из данных всю коммерческую недвижимость, многоквартирные дома и таунхаусы. Мы также хотим избежать потенциальных проблем с автокорреляцией, поэтому мы используем данные только о продажах за 2017 год, чтобы ограничить вероятность этого. После того, как мы удалили все посторонние записи, у нас есть окончательный набор данных для тестирования.
Выбор правильного размера выборки может быть сложным. Среди академических материалов есть широкий спектр предлагаемых минимальных чисел и различных эмпирических правил. Для нашего исследования общая совокупность довольно велика, поэтому нам не нужно беспокоиться о достаточности для выборки. Вместо этого мы рискуем иметь настолько большую выборку, что почти каждая переменная будет иметь статистическую значимость в модели. В итоге для моделирования случайным образом было выбрано около 10 % записей.
Выбор переменных может быть одной из самых сложных частей процесса без статистического программного обеспечения. Однако SPSS позволяет нам быстро построить множество моделей из комбинации переменных, которые мы сочли подходящими для линейной регрессии. SPSS будет автоматически отфильтровывать переменные на основе пороговых значений статистической значимости и возвращать только лучшие модели.
Из наших выборочных данных SPSS создал пять моделей. Наиболее точная модель включала следующие 5 переменных.
Давайте посмотрим на результаты SPSS. Первоначально наше основное внимание будет сосредоточено на значении R-квадрата, которое говорит нам, какой процент дисперсии зависимой переменной (цены) предсказывается регрессией. Наилучшим возможным значением будет 1, и результат нашей модели весьма многообещающий. Стандартная ошибка оценки, которая измеряет точность модели, выглядит довольно высокой и составляет 73 091 доллар. Однако если мы сравним это со стандартным отклонением цены продажи в модели (160 429 долларов США), ошибка кажется разумной.
Модель 5 имела приемлемую стандартную ошибку и прошла тест Дарбина-Ватсона.
SPSS имеет встроенные функции для проверки автокорреляции с помощью теста Дарбина-Ватсона. В идеале значение должно быть 2,0 по шкале от 0 до 4, но значение 1,652 не должно вызывать тревогу.
Затем мы проверяем результаты модели, чтобы определить, есть ли какие-либо признаки гетероскедастичности. В SPSS нет встроенной функциональности, но с помощью этого макроса, написанного Ахмадом Дарьянто, мы можем использовать тесты Бреуша-Пагана и Кенкера. Эти тесты показывают, что в нашей модели присутствует гетероскедастичность, поскольку уровень значимости (Sig) на приведенной ниже диаграмме ниже 0,005. Наша модель нарушила одно из классических предположений линейной регрессии. Скорее всего, одну из переменных в модели нужно преобразовать, чтобы устранить проблему. Однако, прежде чем мы это сделаем, было бы неплохо посмотреть, как гетероскедастичность влияет на предсказательную силу наших независимых переменных. С помощью макроса, разработанного Эндрю Ф. Хейсом, мы можем просмотреть скорректированные стандартные ошибки и уровни значимости для наших независимых переменных.
В модели присутствует гетероскедастичность, но дальнейшие тесты показывают, что она не влияет на независимые переменные.
Дальнейшее тестирование показывает, что независимые переменные остаются статистически значимыми после учета гетероскедастичности в модели, поэтому нам пока не обязательно менять ее.
В качестве финального теста мы оценим все записи о продажах, которые не были частью исходного образца, с помощью нашей модели. Это поможет нам увидеть, как модель работает с большим набором данных. Результаты этого теста показывают, что значение R-квадрата и стандартная ошибка оценки существенно не изменились на большом наборе данных, что, вероятно, указывает на то, что наша модель будет работать так, как ожидалось.
Применение модели к полному набору данных показывает согласованность с образцом, с наблюдаемыми аналогичными значениями R-квадрата и стандартной ошибки.
Если бы мы хотели использовать нашу примерную модель в реальной жизни, мы, вероятно, дополнительно сегментировали бы данные, чтобы иметь несколько более точных моделей, или искали бы дополнительные данные для повышения точности этой единственной модели. Эти шаги также, вероятно, устранили бы гетероскедастичность, которая присутствовала в модели. Учитывая тот факт, что мы пытались использовать единую модель для прогнозирования стоимости домов в округе с населением более 1 миллиона человек, неудивительно, что нам не удалось построить «идеальную» модель всего за пару часов. .
Нашей целью было построить модель, которая предсказывает стоимость отдельных домов на одну семью. Наш анализ показывает, что мы достигли этой цели с достаточной степенью точности, но имеет ли смысл наша модель?
Если бы нам нужно было описать нашу модель, мы бы сказали, что стоимость дома зависит от размера участка, площади дома, качества строительства, текущего состояния ремонта и наличия или отсутствия ремонта. кондиционирование воздуха. Это кажется очень разумным. Фактически, если мы сравним нашу модель с традиционными методами оценки, мы увидим, что она очень похожа на затратный подход, который добавляет стоимость приобретения земли и строительства нового здания с поправкой на текущее состояние морального износа. Однако это сходство может быть, если использовать регрессионную фразу, ложной корреляцией.
Как правило, затратный подход заключается в только рекомендуется для оценки новой недвижимости из-за проблем с определением соответствующего метода амортизации старой недвижимости. С нашей моделью мы создали аналогичную стратегию, которая полезна для свойств любого возраста, фактически мы протестировали возраст как независимую переменную и пришли к выводу, что он не оказывает статистически значимого влияния на ценность свойств!
Надеюсь, теперь вы лучше понимаете основы регрессионного анализа. Следующий вопрос:может ли это помочь вашему бизнесу? Если вы ответите утвердительно на любой из этих вопросов, возможно, вам будет полезно использовать регрессионный анализ в качестве инструмента.
Приведенный выше пример модели представляет собой простую демонстрацию ценности использования регрессионного моделирования в сфере недвижимости. 2-3 часа, которые ушли на сбор данных и построение модели, далеко не показывают весь ее потенциал. На практике существует широкий спектр применений регрессионного анализа в сфере недвижимости, помимо оценки имущества, в том числе:
Геопространственное моделирование использует принципы регрессионного анализа в сочетании с тремя наиболее важными вещами в сфере недвижимости:местоположение, местоположение и еще раз местоположение. Работая в качестве застройщика в течение восьми лет, я могу подтвердить силу геопространственного моделирования. Используя ArcGIS, я смог объединить данные о продажах, карты участков и данные лидара, чтобы найти недвижимость, идеально подходящую для строительства в горах Северной Каролины.
Исходя из моего опыта, большая часть денег в сфере недвижимости зарабатывается на приобретении, а не на развитии проекта. Способность определять возможности, которые упускают другие, может стать огромным конкурентным преимуществом в сфере недвижимости. Геопространственная аналитика — это то, чем крупные компании пользуются в течение многих лет, но небольшие компании часто упускают из виду.
Очень немногие люди считают статистику своим любимым предметом. In fact, as a whole people are very bad at understanding even basic probabilities. If you’re doubtful of this opinion, take a trip to Las Vegas or Macau. Unfortunately, this can make it difficult to determine who to trust when you’re looking for advice on implementing regression analysis in your process. Here are some key things to look for when evaluating potential candidates
While people are bad at judging probabilities, intuition is actually rather good at detecting lies. You should be very skeptical of anyone who claims to be able to build a model that will answer all your questions! Don’t trust a guarantee of results. Hopefully, this article has illustrated the fact that regression analysis is based on empirical observation and sound science. It will always be the case that certain things are easier to predict than others. A trusted advisor will be open and honest when they can’t find the answers you’re looking for, and they won’t run through your budget trying to find one that isn’t there.
Look for Mr. Spock instead of Captain Kirk. Sound research can be an excellent marketing tool, but far too often people pay for sexy marketing materials with a whiff of pseudo-research and no logic to back it up. Some people are naturally more analytical, but great analytical skills come from practice. Ideally, anyone you hire to analyze data for your business will have experience finding solutions to a wide variety of problems. Someone with a narrow focus may be more susceptible to groupthink, especially when their experiences closely mirror your own.
Put potential candidates on the spot with questions that help demonstrate their reasoning abilities. This is not the time to rely on behavioral questions alone. Ideal candidates will have the ability to strategically use known information to reasonably estimate the answer to complex problems. Ask logical reasoning questions, like “How many tennis balls could you fit in the Empire State Building?”
Finally, you should look for someone with whom you can communicate. All of the information in the world won’t help if you can’t put it to good use. If someone uses so much jargon in an introductory conversation that your eyes start to glaze over, then they probably aren’t the right fit for your company.