Raspant dades útils a Internet: Web scraping i informació local

Avui en dia constituiria un exercici poc innovador i atractiu, de cara al lector, abordar l’inici d’aquest article aprofundint en el bast volum d’informació, de tota índole, que l’accés a Internet proporciona als seus usuaris, sigui quina sigui la seva naturalesa, sigui quina sigui la finalitat per la qual hi accedeixen. Simplement, n’hi haurà prou donar una ullada a la següent infografia de Domo per fer-nos una idea de la veritable magnitud d’allò que estem parlant: què hi passa a la Xarxa, en termes de creació de continguts i de trànsit d’informació, en tan sols 60 segons?:

Data never sleeps. Font: www.domo.com

Data never sleeps. Font: Domo

En la mateixa direcció, la pàgina Worldometers.info, en el seu apartat dedicat a la Societat i Mitjans de Comunicació, aventura quina és la progressió en temps real de tota aquella informació que tenim accessible a un sol clic.

És evident, arribats a aquest punt, que un dels reptes que s’apunten, per tots aquells que tenim les dades com a una de les matèries primeres en la nostra tasca diària, és la possibilitat de convertir d’aquesta ingent quantitat de dades disponibles en informació útil, i per tant en coneixement per a les polítiques locals.

A Terrassa hem endegat una experiència que té per finalitat l’anàlisi de les dades que ofereixen a Internet els operadors immobiliaris al respecte de l’oferta de locals de negoci, tant per a usos de serveis com industrials. De fet, l’experiència constitueix un modest exercici per avançar en aquesta direcció: la de l’aprofitament d’un relativament important volum de dades, que, per si mateixes, presenten una escassa utilitat més enllà de la finalitat amb la qual han estat generades i trobem disponibles a Internet, a través de la seva recollida i posterior sistematització que en faci possible l’anàlisi i la interpretació del mercat. En definitiva, i per analogia biològica, l’exemple que plantegem constitueix un exercici d’exploració i assaig procedimental de cara a facilitar la digestió d’aquestes dades, això és, per permetre’n el seu ús i aprofitament de cara, per exemple, a l’anàlisi i seguiment de les dinàmiques municipals.

En concret, ens plantejàrem la possibilitat d’ús de les dades contingudes en diferents portals temàtics d’informació immobiliària per aproximar-nos al coneixement, seguiment i anàlisi d’aquell mercat immobiliari centrat en la localització d’activitat econòmica a la ciutat de Terrassa, entenent que aquest coneixement tenia possibilitats d’incidir, d’una banda, ja sigui directament o indirecta, en la dinamització del propi teixit econòmic local, però de l’altra, que també podia constituir una bona aproximació al seguiment i anàlisi d’una dinàmica socioeconòmica de caràcter més general.

Exemples de portals immobiliaris. Font: http://www.habitaclia.es, www.idealista.com, www.pisos.com, www.masachs.es, www.fotocasa.es

Exemples de portals immobiliaris. Fonts: Habitaclia, Idealista, Pisos.com, Masachs, Fotocasa,

Amb aquest objectiu, la principal dificultat que se’ns presentava era el de la recopilació automatitzada de les dades contingudes en aquesta diversitat de portals, introduïdes ja fos per particulars o per empreses immobiliàries, de cara a la configuració d’un sistema d’informació que fos la base per a la construcció d’un indicador estadístic que possibilités caracteritzar l’evolució d’aquesta oferta i fer-ne el seguiment, per tant la seva monitorització, tant per al conjunt de la ciutat com de manera segmentada, territorialment i tipològicament. A més, més enllà de la construcció d’aquest indicador, dels processos intermedis se n’havia de derivar una aproximació individualitzada a l’oferta immobiliària existent a la ciutat que, malgrat no ser exhaustiva, conté un potencial de valorització molt rellevant.

Ens enfrontàvem, doncs, a un exercici d’allò que en anglès s’anomena web scraping, i que en català podríem traduir com a raspatge de pàgines web, entenent com a tal el procés de recopilació automàtica de dades contingudes en portals electrònics variats, oberts a Internet. De manera sintètica i resumida, el web-scraping consisteix en l’ús de software informàtic que simula la navegació humana per la Xarxa i que permet l’obtenció i recopilació de dades no estructurades de la web, en aquest cas en format HTML, en dades estructures que, per tant, poden ser emmagatzemades, sistematitzades i analitzades en una base de dades local.

De les múltiples maneres d’aproximar-se a aquesta pràctica, criteris d’eficiència i optimització dels recursos disponibles ens han encaminat cap a l’ús d’aplicacions ja desenvolupades que, d’accés obert i, per tant, gratuïtes, permeten la personalització de solucions de raspatge que, a través d’interfícies capaces de garantir la seva usabilitat a persones no necessàriament avesades en la programació, s’encarreguen de reconèixer l’estructura de les pàgines web que contenen aquelles dades que estimem com a necessàries. Constitueixen excel·lents exemples d’aquestes aplicacions, per exemple, import.io o kimono.

En essència, aquestes aplicacions faciliten la construcció de les corresponents APIs (en anglès Application Programming Interface) que a partir de la selecció de la informació oferta pels diferents portals, s’encarreguen de la seva extracció i recopilació, en el nostre cas, en arxius en format CSV: arxius de text pla que emmagatzemen aquestes dades en forma de taules en les quals les columnes es separen per punt i comes i les files per salts de línies.

D’aquesta manera, a partir de la selecció de 6 portals immobiliaris, s’ha obtingut un primer llistat d’ofertes immobiliàries disponibles a la ciutat de Terrassa que conté poc més de 2.750 registres (les referències als volums de dades, tan extretes com les implicades en el procés de tractament i depuració, corresponen al treball dut a terme la darrera setmana de març d’aquest 2015), per la majoria dels quals es disposa d’informació relativa a la tipologia d’espai (local comercial, nau industrial o oficina), a la tipologia d’operació immobiliària (lloguer i/o compra), a la seva localització (en un dels sis districtes de la ciutat), i als paràmetres bàsiques i definitoris de l’oferta (superfície i preu).

L’origen d’aquestes dades, lògicament, constitueix un dels principals condicionants en el moment de procedir al seu ús i tractament: per una banda, cal tenir en compte que l’aproximació es fa a partir de l’ús de múltiples fonts d’informació (portals immobiliaris), amb la qual cosa una part de la informació obtinguda resulta potencialment recurrent (una mateixa oferta pot estar publicada en més d’un portal); però, a més, el fet que aquestes fonts d’informació actuïn, de manera genèrica, com a simples repositoris d’ofertes immobiliàries no les converteix en garants de la qualitat de les dades en elles contingudes i introduïdes (ens referim, bàsicament, a aquelles ofertes en els quals els manca alguns d’aquests paràmetres definitoris i/o que contenen dades inconsistents, però també caldria introduir aquí el paràmetre de la caducitat de la informació).

Per tant, un cop es posseeix el llistat de dades en brut, cal establir aquelles pautes procedimentals que en permetin la seva sistematització: homogeneïtzant la informació extreta i eliminant aquelles ofertes improcedents i/o incomplertes. Aquest procés, totalment arbitrari pel que fa a l’establiment de criteris d’homogeneïtzació, tractament i depuració de les dades obtingudes, resulta cabdal de cara a assegurar les possibilitats de repetició de l’exercici tot garantint la seva consistència temporal (la comparabilitat en el temps).

Finalment, abans de poder disposar d’un llistat d’ofertes definitiu, ha calgut procedir a la identificació d’aquells registres la inconsistència dels quals no responia a aspectes formals (bàsicament registres repetits, incomplerts i/o improcedents), sinó que aquesta es desprèn del valor que prenien aquells paràmetres o variables considerats com a fonamentals, la superfície i/o el preu. D’aquesta manera, es descarten aquells registres que constitueixen valors extrems de la mostra d’ofertes, entenent que aquests valors atípics o outliers respondrien a ofertes que podríem considerar-se fora de mercat, però també poden ser el resultat de la introducció de valors erronis per part dels anunciants.

D’aquesta manera, mitjançant aquest procés de neteja, aquell llistat inicial que contenia 2.758 observacions evoluciona cap a un llistat final d’ofertes immobiliàries úniques a la ciutat de Terrassa conformat per 1.852 registres, dels quals 2 de cada 3 correspondrien a ofertes de lloguer d’espais. Notem que el procés de depuració ha suposat la eliminació de 906 registres de l’extracció inicial, la qual cosa equivaldria, pràcticament, a la eliminació de 1 de cada 3 registres originàriament obtinguts.

Extracció, depuració i llistat final d’ofertes immobiliàries recopilades

Extracció, depuració i llistat final d’ofertes immobiliàries recopilades per a Terrassa (1r trim 2015)

Arribats a aquest punt es disposa ja d’una base de dades d’informació immobiliària a partir de la qual es pot procedir a l’elaboració d’un índex de preus de l’oferta d’espais existent a la ciutat que permet dur a terme el seguiment d’aquest segment del mercat immobiliari. A banda del valor global de l’índex pel conjunt de la ciutat, la informació pot tractar-se tant de manera territorialitzada com prenent en consideració les diferents tipologies d’espais (Oferta de locals d’activitat econòmica – Índex de preus – 1r trim 2015).

El contrast d’aquest índex de preus es pot realitzar, ni que sigui parcialment, de cara a l’avaluació de la seva consistència i, per tant, de la bondat del procés, amb l’Informe d’oferta del mercat immobiliari industrial als polígons del Vallès Occidental: evolució i situació elaborat per part del Consorci per l’Ocupació i la Promoció Econòmica del Vallès Occidental (COPEVO), a partir de la recopilació trimestral d’oferta de sòl i sostre industrial disponible als polígons de la comarca, amb la col·laboració d’agents de la propietat immobiliària, administradors de finques i la plataforma empresarial Interempresas.

En l’informe, corresponent al darrer trimestre de 2014 s’hi determinava una renda mitjana de lloguer en l’oferta de naus a la ciutat de Terrassa que es situava en els 2,9 €/m2 i que en les operacions de compra assolia els 800 €/m2, unes dades que coincideixen plenament amb els índexs de preus obtinguts de les dades extretes dels portals immobiliaris en finalitzar l’any passat: 2,91€/m2 en el lloguer de naus industrials i 800,20 €/m2 en aquelles ofertes de venda (Oferta de locals d’activitat econòmica – Índex de preus – 4rt trim 2014). Estem parlant, per tant, de l’obertura d’una via pròpia de captació i procés d’informació emprant fonts d’Internet, que agregada resulta molt fiable i, conseqüentment, útil per al coneixement puntualíssim del mercat immobiliari; una informació que en principi es pot arribar a extraure de forma automatitzada i a generar documents de síntesi immediats.

Tanmateix, malgrat les bondats i les interessants perspectives que es presenten, l’aplicació de tècniques de web-scraping pateix d’alguns handicaps, amb els quals hem hagut de lidiar. Ja hem comentat abans que la utilització de diverses fonts fa que l’extracció presenti repeticions d’informació, i, per tant, s’ha hagut de preveure una fase de validació i eliminació de les duplicitats fins allà on ens ha permès distingir el sistema. A banda, però, es presenten inconvenients relacionats amb el manteniment en el temps de l’estructura de la presentació de les dades de cada font, sobre la qual apliquem el sistema que ens permet raspar la informació per resituar-la sobre l’estructura de magatzematge i tractament que nosaltres haguem decidit. Qualsevol alteració en la forma de presentació de les dades a Internet per part de la font original modifica el sistema predeterminat d’extracció i, conseqüentment, provoca errors de configuració en els sistemes amb els que pretenem automatitzar l’extracció i el magatzematge. I això succeeix amb més freqüència del què inicialment podríem pensar, associant-se les modificacions estructurals d’aquests sites a les estratègies pròpies del màrqueting de cada empresa. Per tant, haurem de preveure un necessari seguiment sobre la forma de l’estructura d’aquelles pàgines per advertir qualsevol variació que pugui afectar la captura de les dades, la qual cosa, sovint suposa un reajustament de l’aplicatiu i novament un nou procés de validació. Així el sistema haurà de curar-se de contingències, sense rebutjar correccions (o fins i tot construcció de nou) a executar manualment. Tot i aquest inconvenient, els resultats lligats a aquesta experiència són tremendament interessants en la seva forma agregada, permetent complementar qualitativament la informació que disposa l’Ajuntament en matèria de sòl i sostre per a activitats econòmiques.

Marc Armengol Rabal, Observatori Econòmic i Social i de la Sostenibilitat de Terrassa

Advertisements

One Response to Raspant dades útils a Internet: Web scraping i informació local

  1. […] a dir que s’estan desenvolupant mètodes basats en el web scraping, com el mostrat en aquest mateix bloc […]

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s

%d bloggers like this: