Archivo de la etiqueta: precios de casas guadalajara

5 errores al analizar bases de datos inmobiliarias y cómo evitarlos – Datlas research

Desde hace un par de años, como lo contamos en la experiencia PROPTECH en México, hemos generado grandes aprendizajes en el sector inmobiliario, sobre todo analizando información de precios de propiedades y generando modelos matemáticos con esta información.

Datlas_barra_suscribir

Actualmente nos encontramos mejorando nuestro modelo de valuación de inmuebles, que documentamos en esta columna, y en esta columna queremos compartir nuestros aprendizajes modelando algunas bases de datos inmobiliarias. Sobre todo con enfoque a qué errores evitar en el análisis de este tipo de información. No seremos tan técnicos, pero si es necesario que para comprender la lectura tengas un conocimiento introductorio de estadística.

Para este ejercicio tomaremos de referencia una base de datos de casas y apartamentos con más de 16,000 ubicaciones para Guadalajara, Jalisco, México. La información que usaremos contiene variables como: Ubicación, Cantidad de recámaras, baños, tamaño de construcción, tamaño de superficie, Edad de inmueble y un listado de amenidades asociada al inmueble.

5 Errores a evitar

1) Usar datos sin limpiarlos previamente

También te puede interesar, metodologías para análisis de datos

  • Es importante generar un diagnóstico a la base de datos y entender muy bien cuales son los problemas que pudiera generar en el modelo que queremos trabajar
  • SI es necesario, hay que preparar las variables para poderlas manipular exitosa mente. Por ejemplo, si existe algún valor numérico, hay que asegurarnos de que esté correctamente declarado como numérico. Lo mismo cuando sean textos, como caracteres
  • Muchos analistas primerizos no consideran un proceso exhaustivo de limpieza de datos. Por ejemplo, si estamos generando un modelo que nos va a ayudar a predecir precios de bienes raíces es importante que el insumo tenga correctamente registrado los valores de precio. Para esto podemos quitar los campos vacíos y evaluar y la base sigue contando con buen poder explicativo. En este caso quitamos todos los valores en 0, menores de 0 y NAs
  • Repetimos el proceso para cada una de las variables que quisiéramos validar en el modelo

Datlas_Str(BD_1

2) Manejar información no homologada

  • Hay algunas variables que pueden ser estandarizadas o escaladas para trabajarlas en contexto de análisis. Para variables de inmuebles es importante entender que existe una relación positiva entre el tamaño de una propiedad y su precio. Entre más grande sea una casa o un departamento, su precio potencial será más alto
  • En ese sentido podemos generar una nueva variable dividiendo el precio entre los metros cuadrados de superficie de cada inmueble. Así podemos obtener el precio por metro cuadrado, que sería una medida más estándar para contemplar en el análisis
  • Repetimos este proceso generando variables dummies o dicotómicas (1 cuando aplique y 0 cuando no) para la presencia de amenidades como: Albercas, Seguridad, Terraza, Estacionamiento y/o Elevador

Datlas_Str(BD_2

Atención en las dummies que tienen valores entre 1 y 0

Datlas_Dummies

3) No diagnosticar y remover correctamente los outliers o anomalías

También te puede interesar ¿Cuánto cuesta una buena ubicación para tu negocio?

  • Este paso es uno de los más complejos, una anomalía puede ser interpretado como valores extremos en variables. Por ejemplo, una casa tradicional podría tener de 2 a 4 habitaciones. Un departamento entre 1 y 2. Si encontramos registros con valores por encima de 10 habitaciones seguramente pudo haber sido un error de registro.
  • En el mismo sentido variables como precio, edad de inmueble, baños y tamaños de superficie deben de ser revisados a detalle para remover los valores extremos a la alza y a la baja. Un buen método es graficando un boxplot donde podamos visualizar la distribución por clases, en este caso por tipo de residencia entre casas, departamentos y condominios. Los puntos extremos o fuera de la caja podrían ser considerados como “outliers”, por lo mismo hay que diagnosticarlos más a detalle
  • ¿Cómo se hace? Entre algunos métodos, de los más sencillos de explicar es utilizando el rango intercuantil. O prácticamente el equivalente a lo que está dentro de la “caja” en una gráfica de boxplot (entre el cuartil 3 y el cuartil 1). Esto, sin embargo, significaría quedarnos con el 50% de los valores. Eso sería funcional si se tratara de datos que provienen de ejercicios con más margen de error, como el de  un experimento humano, pero en esta caso los registros se hacen por sistema asi que el error de registro podría ser minimizado
  • Para estos valores, podemos generar deciles por niveles de precio. De esta manera priorizar los valores entre el decil 10% y 90%. Nos aseguramos que los valores extremos queden fuera graficando en un boxplot nuevamente y validando que haya un mejor ajuste en la distribución

El pase de diapositivas requiere JavaScript.

 

4) Ignorar la propiedad geoespacial de las bases de datos con direcciones

  • Como mencionamos al inicio, una base de datos inmobiliaria tiene atributos geográficos como direcciones o coordenadas. En este caso estamos trabajando con coordenadas y lo primero que recomendamos hacer es asegurarnos de quedarnos con los registros que solamente están en la región que queremos analizar en el modelo. Esta limpieza puede ser manual o usando técnicas más sofisticadas que implican el uso de shapefiles a nivel municipio o Estado
  • Mucha estadísticas inmobiliarias están hechas a nivel código postal. Por ejemplo te dicen cuál es el precio promedio por CP o el tamaño promedio de las casas. La realidad para México es que podemos encontrarnos con disparidades, una casa del más alto nivel socioeconómico y a dos cuadras casas de tipo popular. En este sentido para capitalizar correctamente estos estadísticos debemos de generar zonas o clústers dentro de una misma ciudad de casas que compartan ciertas características
  • A partir de esto se pueden generar valores como valor promedio por clúster
Ejemplo de mapeo de base de datos inmobiliaria sin limpiar los datos mal registrados
Ejemplo de visualización de base de datos inmobiliaria sin limpieza suficiente

Datlas_barra_suscribir

5) Dejarse llevar por el primer resultado que te haga sentido

  • Una vez con la información limpia, estructurada y homologada podemos explorar la bases datos de distintas maneras. Lo tradicional es generar histogramas, gráficos de dispersión y/o correlaciones para entender qué está pasando con las variables. Para esto, les recomendamos la paquetería de GGALLY en R para echarle un vistazo a las variables numéricas de manera general
  • Por ejemplo, encontramos entonces una correlación entre baños y precio ¿Vale la pena? Significa que la cantidad de baños está relacionado el precio. O realmente es un efecto estadístico porque todas las casas “caras o de precios altos” tienen más de 5 baños. No podemos sacar suficientes conclusiones y un mal analista sacaría conclusiones con estas líneas tan débiles de hallazgos. Se requiere profundizar

Datlas_Ggally2

  • Podemos estudiar otras opciones de métodos de relación entre variables como una regresión. Buscamos la causas que provocan variaciones en el precio revisando variables como: Recámaras, Baños, Tamaño de terreno, tamaño de construcción, edad del inmueble y amenidades.
  • Pondremos atención a los signos de los estimadores, tratando de entender que tiene efectos a favor y en contra del precio. Por ejemplo, en este caso que la casa tenga Terraza o Alberca incrementa su valor en un monto considerable. También revisaremos el valor de ajuste R2 y la significancia total del modelo.

El pase de diapositivas requiere JavaScript.

Finalmente una vez establecido el modelo podríamos generar algunos ejercicios de predicción. Poner a prueba un inmueble existente o uno hipotético y con estos ejercicios darnos cuenta si el modelo está listo o requiere seguir siendo modificado

Datlas_predicciones

Hasta aqui el ejemplo de la columna.  En la práctica nuestro modelo utiliza modelos más sofisticados que los “lineales” porque, como podrán haber observado en los gráficos previos, no todas las relaciones son lineales. Pero quisimos explicarlo con regresiones porque pensamos que es la manera más fácil de ejemplificar un caso de uso.

Si te gusto el blog y crees que les puede ser de utilidad a tus colegas que analizan datos no dudes en compartirlo. También si conoces algunos otros errores adicionales a evitar recuerda dejar aqui tus comentarios. Por último recuerda seguir nuestro podcast “Café de Datos” que el día de hoy lanza capítulo con ISAAC CARRADAex IBM  hablando de analítica para impulsar ecossitemas en México.

11. Invitado Isaac - Analítica de datos para impulsar ecosistemas de desarrollo ¿Cuál es la oportunidad en México

Saludos

Equipo Datlas

-Keep it weird-