Big Data, Open Data i informació pública

7 gener 2017

En una sessió formativa recent que tenia per finalitat donar a conèixer el projecte d’implantació del nou sistema integrat d’informació estadística de Catalunya (SIIE) [1], el director de l’Idescat avançava que, a banda de treballar en l’arquitectura d’un nou servidor força més funcional amb les dades generades a partir dels diferents registres administratius (censos, padrons, enquestes i estimacions,… públics), s’estava sospesant la possibilitat d’incorporar al sistema informació estadístiques originàries de fonts privades, tals com bancs, asseguradores, empreses subministradores, empreses de telecomunicacions o grans companyies comercials, etc, com ja ho estaven fent altres instituts d’estadística públics de l’Estat.

El Gran Iceberg de la informació estratègica, a OESST, “Dades: la teva caixa d’eines. L’ús estratègic de la informació per millorar la gestió pública”, conferència a la sèrie Reptes de l’Ajuntament de Terrassa en l’aprenentatge organitzatiu, 25 feb 2014.

El Gran Iceberg de la informació estratègica, a OESST, “Dades: la teva caixa d’eines. L’ús estratègic de la informació per millorar la gestió pública”, conferència a la sèrie Reptes de l’Ajuntament de Terrassa en l’aprenentatge organitzatiu, Terrassa, 25 feb 2014.

Llegeix la resta d’aquesta entrada »


Emigració: crònica de la realitat esperada

23 Desembre 2014

Fa més de tres anys varem reflexionar sobre quina era l’emigració de les persones residents en els municipis del Perfil de la Ciutat.

Les dades ens mostraven que des de l’any 2009, el primer amb dades del padró d’habitants residents a l’estranger, fins al 2011 no parava de créixer any rere any el nombre de persones que havien de deixar el seu país de residència.

Doncs bé, un cop ha passat un temps prudencial hem decidit tornar a fer el mateix exercici i veure quina ha estat l’evolució en els anys següents. Primer de tot, creiem important recordar i fer present novament el que recull el registre administratiu del padró d’habitants residents a l’estranger, que trobareu aquí.

Seguint la línia de l’anterior article, al realitzar un breu repàs pels mitjans de comunicació comprovem com es mantenen els titulars que parlen, remarquen i reflexionen sobre el volum migratori exterior de les persones residents a Espanya.

De moment, la primera cerca ens mostra que tot continua igual que ara fa tres anys. Veiem en xifres palpables si es reafirmen les primeres impressions. Modulant la llista de municipis per tal d’adaptar-la a les ciutats membres integrants de la Xarxa del Perfil de la Ciutat en l’actualitat, obtenim els següents resultats:

taula_municipis_2014

Les variacions (2009-2014 i 2013-2014) constaten que lluny de disminuir el número de persones que es veuen obligades a emigrar aquest s’ha incrementat de manera notòria. Destaca l’augment, des de l’any 2009, del nombre de persones emigrants de les ciutats de Vic (+116%), Mollet del Vallès (+106%), Rubí (+87%) i Granollers (+83%), sent els tres primers municipis indicats els que també registren un major increment de migracions en l’evolució interanual de 2013 fins a 2014.

La diferència absoluta a nivell de la Xarxa mostra que hi ha 9.410 persones que abans de la crisi tenien la seva residència en un municipi del Perfil i que ara la tenen a l’estranger, passant el número dels 16.544 en l’any 2009 als 25.954 del 2014.

En el següent enllaç, teniu a la vostra disposició quins són els països de destinació de les persones migrades a data d’1 de gener de 2014. França, Argentina, Alemanya, Andorra i Bèlgica, en aquest ordre, són les principals destinacions que han escollit les persones residents en els municipis del Perfil de la Ciutat.

La informació i les dades que surten en el mapa reflecteixen quina és la situació de l’efecte sortida la tendència de sortida els municipis del Perfil a inicis de 2014. Una aproximació a la tendència migratòria la podem trobar en la següent taula. En ella, comprovem com gairebé la meitat dels catalans han emigrat a algun país de la Unió Europea, i prop d’un 17% a un país d’Europa no pertanyent a la UE. Paral·lelament a això, també observem com de les prop de 26 mil migracions registrades, un 44% d’aquestes responen a un procés de retorn als països de naixement. Aquestes, tot i que la informació aquí disponible no permeti ser totalment contundents, es podrien considerar com a conseqüència de la crisi econòmica que provoca que les poques oportunitats laborals del mercat de treball català i espanyol facin retornar als països d’origen a persones que van immigrar a l’Estat Espanyol en plena bonança econòmica. En contraposició, un 47% de les persones nascudes a territori espanyol han hagut de marxar a d’altres països, segons les dades de 2014.

taula_municipis_2014_2

Les dades ens permeten constatar una cosa: que no sabem si, tal i com diuen algunes veus en les darreres setmanes, la crisi ja va de baixada i l’economia està remuntant, però que el que sí és irrefutable és que cada cop hi ha més persones que fins fa poc vivien en un dels municipis del Perfil de la Ciutat i que ara ho fan en un altre país. Digueu-li ‘esperit d’aventura’, digueu-li ‘mobilitat exterior’. La realitat és que les persones cada cop emigren en major número.

Sergio López Ordovás – Grameimpuls, SA
Ajuntament de Santa Coloma de Gramenet


Padrons municipals i microestadística (II): el padró continu d’habitants

2 Desembre 2011

Aquest article és una continuació del que varem publicar fa uns mesos, Padrons Municipals i Microestadística (I), i que  continuarem amb articles posteriors.

L’objectiu d’aquest article és donar a conèixer a la comunitat investigadora, als estudiosos, i als planificadors, la informació que “dorm” a les bases de dades dels padrons continus, així com el seu enorme potencial per a generar coneixement bàsic sobre la dinàmica demogràfica i territorial de les ciutats (i per elevació dels territoris supramunicpals). Coneixement pràctic per a planificar polítiques i gestionar projectes des de les administracions.

L’estadística oficial del padró continu.

Com tots els investigadors socials que no han treballat mai “dins” d’un ajuntament, o que hi han treballat però no han tingut ocasió de “tafanejar” les bases de dades de l’ajuntament “al costat” dels informàtics que les gestionen i les coneixen a fons, la meva idea de les estadístiques de població del padró continu que podíem analitzar era la que té tothom sobre la habitual i estàndard explotació estadística del padró continu.

L’INE/IDESCAT, a nivell d’estadística oficial, sols treu aprofitament estadístic de les següents variables: Sexe, Nacionalitat, Lloc de naixement, Data de naixement, Lloc de residència, Edat,  Relació entre Lloc de Residència i el Lloc de Naixement, a partir del que disposa el marc normatiu del padró continu.

L’estadística oficial es genera sols per aquestes 5 variables, amb escassos creuaments entre elles, a una sola data de tall anual (u de gener), i a una desagregació territorial màxima de secció censal, que vindria a ser unes quantes illes de cases, o moltes illes si són zones de baixa densitat (urbanitzacions, per exemple).

El padró continu, una base de dades relacional.

L’estadística sol generar-se a partir de taules planes: files (individus) per columnes (variables). Per entendre’ns, un full d’Excel o una taula d’Acces. Desgraciadament, la majoria dels que generem estadística no coneixem prou el mòn de les bbdd relacionals i dels sistemes gestors de bases de dades (SMDB)…

La base de dades informàtica del padró continu està gestionada per un DBMS (Oracle habitualment), amb la quasi infinita potència analítica que això suposa. El DBMS pot ser interrogat (queries en llenguatge informàtic), sobre qualsevol aspecte, filtre o condició que ens puguem imaginar. Qualsevol texte, codi o número d’una bbdd relacional pot usar-se com a condició, filtre o base de la pregunta que vulguem fer al sistema. Però en el seu llenguatge: l’SQL o derivats. Per fer doncs anàlisis més aprofundits caldrà treballar doncs amb l’administrador informàtic de la bbdd, que és qui en coneix l’estructura del model de dades (molt complexa) del padró continu i les possibilitats tècniques.

A banda de les 5 variables famoses, la base de dades registra i codifica tots els moviments o canvis en les dades dels empadronats: altes o baixes cap a altres municipis i països (migració intermunicipal), però també canvis de domicili dins del mateix municipi (migració intermunicipal). Un altre codi que es registra és la renovació padronal dels estrangers, obligatoria cada pocs anys des del 2005.

Mes enllà de l’estadística oficial…

L’estadística oficial és de peridocitat anual i de stock o tall a un dia concret (exceptuant el cas de les estadístiques de variacions residencials a partir del que es construeixen les dades de moviments migratoris)  i amb un retard en la publicació d’un any aproximadament. En canvi, l’actualització de les bases de dades del padró continu a nivell de l’ajuntament és pràcticament contínua. L’intercanvi i actualització de dades entre l’INE (que creua les dades dels municipis amb altres bases de dades) i els ajuntaments es fa de forma automatizada i mensual. La nostra experiència és que les dades ja són prou “solides” després de tres mesos de la data de tall, com a molt aviat, doncs s’han d’incorporar les dades que procedeixen del INE, i registres oficials (naixements, morts, etc).

Habitualment, ni a nivell acadèmic ni a nivell de les pròpies administracions, almenys pel que ens consta a nosaltres, no es solen fer explotacions “mes aprofundides” de les bases de dades del padró continu. Si més no, no es publiquen. Però tampoc es fan grans explotacions a nivell “intern”, per a necessitats de planificació o gestió, més enllà de representar les dades sobre el SIG corporatiu intern. Trobem algunes excepcions en algun ajuntament gran Barcelona o Mataró, casos que ens “mostren” la punta del iceberg de les enormes possibilitats analítiques d’aquesta bbdd. Al portal d’opendata de l’ajuntament podem veure un bon aprofitament estadístic de les dades del padró continu; els companys del Servei d’Estudis i Planificació de Mataró, integrants de la xarxa de la que aquest bloc n’és expressió, també fan una bona publicació anual a partir de l’explotació més aprofundida del padró continu.

Una base de dades amb memòria històrica. Anàlisis longitudinals?

Un fet poc coneguts pels investigadors,  i que és d’extrema importància, és que el padró continu es una bbdd que guarda l’històric dels seus registres!. És a dir, puc interrogar a la bbdd sobre la població actual, peró també sobre la població i totes les seves característiques a qualsevol data anterior. Avui, a finals del 2011 podem interrogar a la base de dades per a que ens reprodueixi la  “imatge stock” del dia 6 de Febrer del 2003, o un  “acumulat de moviments” (altes, baixes, migracions, naixements, morts, renovacions padronals d’estrangers) entre els dies 6 de Maig i 3 de Juliol del 2008). Obviament, cada registre-persona o registre-moviment amb totes les variables i codis associats a la persona o el moviment “en aquell moment”.

Tècnicament és possible fer estudis longitudinals de com canvien les persones, les llars, els assentament en les zones, els edificis, els pisos…. Increible!. Encara recordo quan vaig descobrir que la bbdd guardava tot l’historic de tots els canvis en les dades…, li vaig preguntar quatre vegades seguides al informàtic…. No m’ho creia!. Ara sé que si no es fa és o per desconeixment dels potencials interessats (investigadors, però  també els mateixos tècnics i planificadors municipals i de les altres administracions) o per la complexitat tècnica de l’extracció de la informació i el seu al cost en recursos humans dels departaments de informàtica (sempre sobrecarregats de feina). Cal treballar costat a costat amb l’informàtic administrador de la base de dades i el funcionari responsable del manteniment del padró, i millor que aquests tinguin experiencia llarga en el padró per controlar canvis que s’hagin produït en la manera de registrar les dades, en els codis determinats per l’INE o altres modifiacions tecnico-administratives que poden dificultar la interpretació correcta de les estadístiques produides.

Així doncs, la base de dades conté també tota la informació padronal de les persones que han viscut al municipi en un moment donat i i ja no hi viuen, per defunció o per canvi de residència. Ens permet viatjar cap el passat. La “historicitat” té però una limitació temporal: l’any en que es va iintroduir el padró a l’ajuntament en un DBMS comme il faut, en algun moment lleugerament posterior  al 1996 (inici del padró continu). En el cas de l’ajuntament de Rubí aquest moment va ser a mitjans del 1999. A Rubí podria retrocedir, posar la lupa a qualsevol moment de la darrera dècada, una dècada apassionant pels enormes canvis demogràfics i territorials.

Estudiar estructures de llars?.

Habitualment també es treballa l’estadística de número de persones empadronades al mateix be immoble (per exemple, per a detectar pisos patera). Però tècnicament pensem que seria possible analitzar les estructures de les llars a partir de la construcció de tipologies a partir del nombre de persones cohabitants, el seu sexe i edat. I també els canvis en aquestes estructures per canvis en el lloc d’empadronament dels seus components al llarg del temps, fet que no es pot fer en cap altra font estadística a nivell municipal, doncs els censos són dades de stock.

Una bona notícia: l’actualització de la variable nivell d’estudis.

Una de les variables obligatòries de la que  no se n’ha fet fins ara cap aprofitament estadístic a nivell d’estadística oficial  és el nivell d’estudis dels empadronats. Com figura al marc normatiu, és obligatori recollir el nivell d’estudis acreditat del veí. Peró els veïns no van a actualitzar les seves dades cada cop que adquireixen un nou nivell educatiu. Per tant, es una variable tremendament desactualitzada… fins ara. Segons explicacions del funcionari responsable del padró continu al meu municipi, des de finals del 2008 l’INE creua les dades del padró continu amb les dades del ministeri d’educació i, a partir d’aquí envia als ajuntaments les dades actualitzades. Caldrà doncs fer algunes explotacions per a veure el nivell i fiabilitat d’aquesta dada, que seria de gran interès per la seva correlació amb la classe social o l’estatus de les llars.

Una base de dades amb detall geogràfic il·limitat.

Com ja varem comentar al anterior post sobre microdades, almenys en els ajuntaments mitjans i grans, amb prouta infrastructura informàtica, l’identificador (ID) de la persona està associat informàticament al ID de la referència cadastral del be immoble en el que resideix. Com també hi estan relacionats el ID dels vehicles que paguen llicència en aquell municipi, o els IDsi de les transaccions fiscals d’aquella persona, i d’aquella llar (si acceptem l’equivalencia entre “llar” i persones residents al mateix “be immoble”) amb l’ajuntament.

L’associació entre el ID del habitant i el ID del be immoble fa que puguem combinar les dades del padró continu amb qualsevol capa de dades geogràfiques i fer-ne anàlisis creuats, com ja s’ha comentat en altres posts.

L’assoaciació entre dels dos elements anteriors amb objectes fiscals, particularment els cotxes de la llar/immoble, dels que es tenen totes les dades al padró de vehicles (model concret, potència, cavallatge), i que correlaciona fortament amb la classe social o l’estatus, obra una nova dimensió als estudis de classe social, status, desigualtats, mobilitat etc…

Però aquesta ja és una altra història…., que abordada des de les tècniques del data mining obre unes possibilitats als investigadors que donen vertígen.. Per exemple, ¿es poden aplicar tècniques de scoring per a assignar clacular probabilitats de frau fiscal, de la mateixa manera que s’apliquen les tècniques d’escoring creditici des de fa ja dècades?. Les empreses d’aquests tipus de software així ho afirmen en la seva argumentació comercial. I de ben segur en administracions superiors  s’empren. 😉


Opendata: obrir les dades estadístiques dels municipis també (II). Experiències

11 Març 2011

Continuem aquí l’explicació del fenomen del opendata iniciada a un post anterior d’aquest bloc. Pretenem donar ara alguns casos pràctics d’experiències concretes fetes des d’administracions públiques, i especialment des de municipis, i alguns enllaços com a primer punt de partida per a que el lector interessat en l’estadística pugui aprofundir en una temàtica que està “definint-se” justament en aquests moments.

Projectes d’Opendata de governs i administracions.

Avui dia doncs ja existeixen  iniciatives pioneres que comencen a treballar en el sentit de posar a Internet, publicar, en formats accessibles a humans i a màquines,  les dades procedents de bases de dades de registres administratius. Alguns exemples “emblemàtics”  citats habitualment a la literatura i articles del sector:

Data.gov. engloba més de 272.000 bases de dades accessibles del Govern dels Estats Units. A a partir d’aquestes dades diverses empreses, programadors, hackers, col·lectius ciutadans etc ja han desenvolupat aplicacions (Apps) que donen algun servei als ciutadans. Es pot veure com el tret de sortida a la filosofia del Open Data, el cas impulsor. El detonador d’aquest nou servei públic.

Data.gov.uk. Dóna entrada a la informació del Govern britànic. Inclou una bústia per recollir idees dels internautes, als que demanen que diguin quina informació volen veure publicada.

Proyecto Aporta. Iniciativa del govern espanyol, inspirada en les dos anteriors per a promoure la reutilització i obertura de dades públiques.

Dades Obertes Gencat. Projecte publicat a la primera setmana de Novembre del 2010, i on es pot trobar senzilles explicacions de les característiques i abast de l’obertura de dades.

Open Data Euskadi. Segurament el projecte mes ambiciós a nivell de l’Estat Espanyol, al mateix temps que el primer en iniciar-se que nosaltres coneguem.

Opendata als municipis.

Alguns exemples internacionals citats sovint.

#        Paris (França) http://opendata.paris.fr/opendata/jsp/site/Portal.jsp

#        Washington (EEUU)  http://track.dc.gov/

#        Ann Arbor (EUA) www.a2gov.org/data/

#        Colúmbia (districte de Washington DC) (EUA) data.octo.dc.gov

#        Edmonton (Canadà) data.edmonton.ca

#        Montréal (Canadà) www.montrealouvert.net

#        Nanaimo (Canadà) www.nanaimo.ca/datafeeds/

#        Nova York (EUA) nyc.gov/html/datamine/html/data/data.shtml

#        Ottawa (Canadà) ottawa.ca/online_services/opendata/

#        Portland (EUA) www.civicapps.org/datasets

#        Rhode Island (estat d’EUA) www.ri.gov/data

#        San Francisco (ciutat i comtat) (EUA) datasf.org

#        Seattle (EUA) data.seattle.gov/

#        Toronto (Canadà) www.toronto.ca/open/

#        Vancouver (Canadà) data.vancouver.ca/datacatalogu

Finalment, un parell de projectes de cooperació entre ajuntaments, empreses i entitats ciutadanes entorn de la creació de serveis innovadors per a ciutats intel·ligents basats, en bona mesura, en l’obertura i mashup de les dades com a forma de generar coneixements i informació directament aplicables sobre aplicacions i serveis digitals al servei del ciutadà:

#        Helsinki i la seva àrea metropolitana (Finlàndia)

http://www.forumvirium.fi/en/introduction/mission-and-vision-values

#        Amsterdam (Holanda)

http://www.waag.org/programma/opendata

També trobem exercicis municipals pioners a casa nostra, de recentíssima aparició:

Segons alguns promotors de l’opendata aquests tipus de geoportals no serien pròpiament dades obertes en la mesura que l’usuari no es pugui descarregar les dades en formats editables o manipulables per altre “programari”. Sovint es limiten a ser visors (visualitzadors) de dades. D’aquesta manera es perden bona part dels beneficis socials i econòmics potencials de l’opendata, desenvolupats a la part I d’aquest article, i que justifiquen l’obertura. De fet, els geoportals són serveis existents ja des de fa bastants anys, anteriors a la definició del concepte de l’obertura de dades. Tampoc serien dades obertes google maps perquè no et permet exportar les dades a altres aplicacions. Pots “pujar-hi” dades, però no pots “baixar-ne”. Estratègia empresarial, òbviament.

Un cop vistos aquests casos voldríem apuntar dos conclusions rellevants:

1. / Cal diferenciar “dada publicada” (qualsevol dada escrita a un paper o a una pàgina web públic és es accessible a tothom) de  “dada oberta” (opendata). Aquesta darrerra consisteix a facilitar l’accès el màxim d’automatitzat i immediat a dades massives i amb el màxim de “granularitat” possible. Amb l’única restricció de la protecció de dades personals o les protegides expressament per llei.  La dada oberta és més un procediment que un contingut. O les dos coses: com fem accessibles determinats continguts (dades quantitatives estadístiques pel que fa als objectius d’aquesta web i dels observatoris municipals).

Una referència obligada per a diferenciar aquests dos conceptes són els coneguts “8 principis” de les dades obertes :

http://www.opengovdata.org/home/8principles

2. / Segurament, l’obertura de dades a nivell dels municipis girarà entorn del màgic duo sistemes d’informació geogràfica (SIG) +  base de dades del cadastre doncs la referència a un territori és el que permet integrar de forma automatitzada i escalable (com qui va muntant un puzzle, en que tot va encaixant progressivament) dades procedents de bases de dades diferents. Recentment la Diputació de Barcelona ha tret una publicació publicació molt inspiradora sobre el valor dels SIGs a l’administració local.

La base de dades del cadastre georeferenciada permet creuar, i representar gràficament i de forma conjunta, registres (dades) procedents de diferents fonts i procedències. La georeferència juga un paper clau de “identificador universal”, de “facilitador de la inteoperabilitat i agregació de dades i registres” de base territorial. Tot el que hi ha a un municipi (les persones, les entitats jurídiques, les empreses, els habitatges, les cases i els edificis, el trànsit), existeix a “un lloc a l’espai”, a un be immoble, que té una referència única, un identificador únic. I que és com la llavor a l’entorn de la que, com les capes d’una ceba, es poden anar superposant, relacionant, creuant, quasi la totalitat de les dades i registres de els administracions públiques.

I la informació cadastral, exceptuant el import fiscal i la persona associats (informació reservada) és informació legalment “pública” i, en gran mesura ja “oberta”  en formats digitals, en el sentit de dades accessibles automatitzadament. Molts professionals (arquitectes) les descarreguen i les usen habitualment pels seus projectes.

Idescat. Dades estadístiques, municipis, APIs i Widgets.

Finalment volíem ressenyar la bona feina que esta fent l’Idescat, un pioner a Catalunya, que pot servir d’exemple als municipis i el seus serveis estadístics i observatoris de per on es pot avançar. En una recent, i extensa presentació, el resposable web de l’Idescat, en Xavier Badosa, repassa bona part dels reptes  de l’opendata relacionats amb el cas particular de les dades estadístiques a casa nostra: “La difusión estadística y la apertura de datos gubernamentales” (Octubre 2010, Càceres).

És a a partir d’aquests plantejaments que l’Idescat ja te operatius diversos dispositius tecnològics automatitzats de difusió oberta de dades, precisament les estadístiques municipals. Vegem-ne un parell:

1 #  Les  dades estadístiques municipals de l’Idescat es poden consultar ja al Data Explorer de Google. Una aplicació al “cloud”, una aplicació de Google, que s’usa per visualitzar, creuar  i mapificar les dades que publica l’Institut d’Estadística de Catalunya: http://www.idescat.cat/emex/gpde/

2 #  Les dades estadístiques municipals integrables, a través de petits “widgets“, que interaccionen amb l“API” de l’Idescat es poden integrar a qualsevol altra web. No és més que unes ratlles de “codi” o “llenguatge” web que es “copien i peguen” a la web de destí), exactament igual com copiaríem i pegaríem les dades. Un exemple de implementació a la web de l’ajuntament de Rubí:

http://www.rubi.cat/ajrubi/apartats/index.php?apartat=3036

Aquest dos casos ens mostren que l’obertura de dades està sovint lligada a determinades tecnologies i tècniques de programació-web molt recents i poc implantades encara fora dels serveis i les empreses punteres del cloud computing a Internet google, facebook, twitter etc. Particularment parlem de les APIs. Coses “molt estranyes” i especialitzades. I que ens fan pensar que els científics socials que ens dediquem a l’estadística municipal en un futur, potser encara llunyà, haurem de treballar amb administradors de sistemes, programadors i dissenyadors web i altres perfils que ens són estranys ara. Igual que fins ara hem treballat amb dissenyadors gràfics i maquetadors per a fer les publicacions, llibres i articles en paper, tard o d’hora treballarem amb aquesta mena de “teechs”. Un repte professional. Que pot donar cert vertigen, però que al temps es engrescador i apassionant.

—————-

Observatori de la Ciutat. Ajuntament de Rubí


A %d bloguers els agrada això: