Bogota Apartments

La última fecha de scrapeo fue: 1 de Septiembre 2024

Inicio de scrapeo: Julio 2024

Version: V2.0.0 AUGUST.2 2024

Descargar ultimos datos: https://github.com/builker-col/bogota-apartments/releases/tag/v2.0.0-august.2-2024

Índice

Bogota Apartments

Datos:

From Bogota co to the world 🌎

Descripción

El Proyecto Bogotá Apartments es una iniciativa de código abierto que busca recopilar y analizar datos sobre el mercado inmobiliario de apartamentos en la ciudad de Bogotá, Colombia. Utilizando avanzadas técnicas de web scraping y análisis de datos, este proyecto recopila información detallada sobre las ventas y alquileres de apartamentos en la ciudad, incluyendo un histórico de precios que brinda una visión temporal de la evolución del mercado.

El conjunto de datos generado está disponible para cualquier persona interesada en conocer más sobre el mercado inmobiliario de Bogotá y sus tendencias. Además, el proyecto presenta un análisis exploratorio de datos minucioso que proporciona información valiosa acerca de los precios, ubicaciones y características de los apartamentos en la ciudad.

El propósito fundamental del proyecto es estimular la investigación y el aprendizaje en el ámbito del análisis de datos y la ciencia de datos. El conjunto de datos puede ser utilizado para entrenar modelos de aprendizaje automático y realizar análisis más profundos sobre el mercado inmobiliario de la ciudad.

Este proyecto hace parte Builker.

Configuración

Si quieres ejecutar el proyecto con los servicios de mongoDB debes crear un archivo .env en la raiz del proyecto con las siguientes variables de entorno:

MONGO_URI=<<URI de conexión a MongoDB>>
MONGO_DATABASE=<<Nombre de la base de datos en MongoDB>>
MONGO_COLLECTION_RAW = 'scrapy_bogota_apartments' # Nombre de la colección donde se guardaran los datos RAW
MONGO_COLLECTION_PROCESSED = 'scrapy_bogota_apartments_processed' # Nombre de la colección donde se guardaran los datos procesados

Quitar Configuración de mongoDB

Si prefieres no utilizar MongoDB, puedes comentar las siguientes líneas de código en el archivo settings.py:

# MONGO_URI = os.getenv('MONGO_URI')
# MONGO_DATABASE = os.getenv('MONGO_DATABASE')

#ITEM_PIPELINES = {
#    'bogota_apartments.pipelines.MongoDBPipeline': 500
#}

Tiempos de Ejecución por Apartamento

A continuación se detalla el tiempo aproximado de extracción por apartamento para cada sitio web:

⚠️ Es importante destacar que estos tiempos son aproximados y pueden variar dependiendo de la velocidad de la conexión a Internet y de la carga del servidor del sitio web.

Sitio Web	Tiempo por Apartamento
Habi	0.187 segundos
Metrocuadrado	0.194 segundos

Estos tiempos representan el promedio aproximado de tiempo que tomó extraer cada apartamento de los respectivos sitios web durante la ejecución del scraper. El tiempo de extracción de cada apartamento puede variar dependiendo de la velocidad de la conexión a Internet y de la carga del servidor del sitio web.

Data Source

⚠️ Es importante destacar que durante el proceso de web scraping se respetaron las políticas y condiciones de uso establecidas por cada sitio web.

Los datos del proyecto fueron extraídos mediante web scraping de los siguientes sitios web:

Se implemento un scraper creado con la librería Scrapy y en caso de que el sitio web este creado con JavaScript Scrapy se conbinara con Selenium para poder extraer los datos.

Datos

Apartamentos

file: processed_v2.0.0_august_2_2024.json

⚠️ Advertencia: La columna coords_modified indica si las coordenadas geográficas fueron modificadas durante el procesamiento de los datos. Si el valor es True, esto significa que las coordenadas originales fueron ajustadas o corregidas. Se recomienda precaución al utilizar estos datos, ya que pueden no reflejar las coordenadas geográficas exactas del apartamento. Es importante verificar la precisión y la fuente de las coordenadas antes de utilizarlas en aplicaciones o análisis que requieran una ubicación geográfica precisa.

⚠️ Advertencia: la columna last_view se actualiza cada vez que se ejecuta el scraper. por lo tanto, este dato no es exacto. ya que el scraper puede no visitar el apartamento y este seguir publicado en la pagina web. Se recomienda usar este dato como referencia y no como dato exacto. Para saber si el apartamento sigue publicado en la pagina web se recomienda verificar manualmente en la pagina web.

Columna	Descripción
codigo	Código único que identifica cada apartamento
tipo_propiedad	Tipo de propiedad (apartamento, casa, etc.)
tipo_operacion	Tipo de operación (venta, arriendo, etc.)
precio_venta	Precio de venta del apartamento COP
precio_arriendo	Precio de arriendo del apartamento COP
area	Área del apartamento en metros cuadrados
habitaciones	Número de habitaciones del apartamento
banos	Número de baños del apartamento
administracion	Valor de la cuota de administración del apartamento
parqueaderos	Número de parqueaderos disponibles
sector	Sector o zona en la que se encuentra el apartamento
estrato	Estrato socioeconómico del apartamento
antiguedad	Antigüedad del apartamento en años
estado	Estado del apartamento (nuevo, usado)
longitud	Longitud geográfica del apartamento
latitud	Latitud geográfica del apartamento
descripcion	Descripción detallada del apartamento
datetime	Fecha y hora de extracción de los datos
jacuzzi	Indica si el apartamento cuenta con jacuzzi
piscina	Indica si el apartamento cuenta con piscina
salon_comunal	Indica si el apartamento cuenta con salón comunal
terraza	Indica si el apartamento cuenta con terraza
vigilancia	Indica si el apartamento cuenta con vigilancia privada
piso	Número de piso en el que se encuentra el apartamento
closets	Número de closets en el apartamento
chimenea	Indica si el apartamento cuenta con chimenea
permite_mascotas	Indica si se permiten mascotas en el apartamento
gimnasio	Indica si el apartamento cuenta con gimnasio
ascensor	Indica si el edificio cuenta con ascensor
conjunto_cerrado	Indica si el apartamento se encuentra en conjunto cerrado
coords_modified	Coordenadas modificadas del apartamento
localidad	Localidad en la que se encuentra el apartamento
barrio	Barrio en el que se encuentra el apartamento
estacion_tm_cercana	Nombre de la estacion de transporte masivo mas cercana
distancia_estacion_tm_m	Distancia a la estación de transporte masivo más cercana
is_cerca_estacion_tm	Indica si está cerca de una estación de transporte masivo <= 500m
parque_cercano	Nombre del parque más cercano al apartamento
distancia_parque_m	Distancia al parque más cercano al apartamento en metros
is_cerca_parque	Indica si está cerca de un parque <= 500m
website	Sitio web relacionado a la propiedad
compañia	Compañía o agencia responsable de la propiedad
last_view	Fecha de la ultima vez que el scraper visito el apartamento
timeline	Historial de precios del apartamento
url	URL del apartamento

Datos del 2023

Con la versión 2.0.0, se realizó una actualización crucial en la estructura de datos, lo que conllevó a la eliminación de los datos anteriores a 2024 de nuestra base de datos. Si necesitas acceder a esta información del 2023, puedes descargarla desde la siguiente URL: https://www.dropbox.com/scl/fi/nv1efc8me23dsa1ie0g5s/2023_bogota_apartments_processed.json?rlkey=l6cl2gsf8j2icyh5cqwkr4un5&dl=1

Esta actualización asegura una estructura más optimizada y acorde con las necesidades actuales de los datos, por lo que te invitamos a obtener los datos actualizados del 2024 y posteriores para aprovechar al máximo nuestras últimas mejoras.

Nota: Los datos del 2023 ya estan procesados y no requieren de ningún procesamiento adicional.

Actualización de los Datos

Los datos extraídos mediante web scraping serán actualizados regularmente para mantenerlos al día. A continuación se detallan los aspectos clave de la actualización:

Los datos serán actualizados al menos cada 3 semanas, con una frecuencia mínima de actualización mensual. Esto asegurará que los datos reflejen la información más reciente disponible en las fuentes de origen.
Durante el proceso de actualización, se revisarán y recopilarán los nuevos datos disponibles, así como se verificará la consistencia y calidad de los datos existentes.
Se implementará un proceso automatizado para la actualización de los datos, utilizando herramientas y scripts específicos para realizar el web scraping de las fuentes de origen de manera eficiente y precisa.
Después de cada actualización, se realizará un análisis y verificación de los datos para garantizar su integridad y confiabilidad.
Se publicará la fecha de la última actualización en este README para que los usuarios puedan verificar la frescura de los datos.

MongoDB Dashboard

Explora el tablero web para obtener una perspectiva interactiva de los apartamentos en Bogotá.

MonogoDB Dashboard

Dashboard from the web

Cómo contribuir

El proyecto es de código abierto y se anima a cualquier persona interesada en contribuir a hacerlo. Para contribuir al proyecto, por favor sigue estos pasos:

Haz un fork de este repositorio y clona el repositorio en tu máquina local.
Crea una nueva rama (git checkout -b nombre-rama) y realiza tus cambios en esa rama.
Haz commit a tus cambios (git commit -m "Descripción de los cambios") y haz push a la rama (git push origin nombre-rama).
Abre un pull request en este repositorio y describe los cambios que has realizado.
Por favor, asegúrate de seguir las pautas de contribución antes de hacer un pull request.

Mantenimiento

El conjunto de datos se actualizará regularmente para asegurarse de que se mantenga relevante y útil para la comunidad. Si encuentras algún error o tienes alguna sugerencia para mejorar el proyecto, por favor abre un issue en este repositorio.

Licencia

El software aquí proporcionado se distribuye bajo los términos de la Licencia de Software de Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0). Esto significa que los usuarios tienen el derecho de utilizar, modificar y distribuir el código fuente del scraper con la condición de que no se utilice con fines comerciales sin el permiso explícito del autor y que las obras derivadas se distribuyan bajo la misma licencia CC BY-NC-SA 4.0. Sin embargo, es importante tener en cuenta que esta licencia se aplica únicamente al software en sí, no a los datos que el scraper recopila o procesa. Los datos obtenidos por medio del scraper pueden estar sujetos a sus propias licencias o restricciones, dependiendo de su origen y de los términos establecidos por los propietarios de dichos datos

Para más información sobre la licencia, por favor lee el archivo LICENSE.

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Créditos

@erik172 - Creador del proyecto y mantenedor principal.

Hecho con ❤️ por @erik172.

Name		Name	Last commit message	Last commit date
Latest commit History 324 Commits
.github		.github
ETL		ETL
bogota_apartments		bogota_apartments
data		data
notebooks		notebooks
visualizations		visualizations
.gitignore		.gitignore
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
processing.py		processing.py
releases.md		releases.md
requirements.txt		requirements.txt
requirements_data_analysis.txt		requirements_data_analysis.txt
run.py		run.py
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Bogota Apartments

Índice

Descripción

Configuración

Quitar Configuración de mongoDB

Tiempos de Ejecución por Apartamento

Data Source

Datos

Apartamentos

Datos del 2023

Actualización de los Datos

MongoDB Dashboard

Cómo contribuir

Mantenimiento

Licencia

Créditos

About

Releases 7

Sponsor this project

Contributors 2

Languages

License

builker-col/bogota-apartments

Folders and files

Latest commit

History

Repository files navigation

Bogota Apartments

Índice

Descripción

Configuración

Quitar Configuración de mongoDB

Tiempos de Ejecución por Apartamento

Data Source

Datos

Apartamentos

Datos del 2023

Actualización de los Datos

MongoDB Dashboard

Cómo contribuir

Mantenimiento

Licencia

Créditos

About

Topics

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases 7

Sponsor this project

Contributors 2

Languages