La covariància en l’atur registrat municipal

7 Octubre 2016

Programa Salvados: “El funcionamiento de la economía financiera”

Segurament amb el títol que he posat a aquesta entrada la meitat dels subscriptors del bloc no llegiran l’article, però sincerament no se m’ha acudit un títol més original.

El que llegireu en aquesta entrada està en part inspirat, per un costat, pel que apareix en el vídeo del programa Salvados que hi ha al principi de l’article (entre el 59” i 1’57”), i per un altre per l’article “Votos en la ONU con R”del bloc Datanalytics.

En primer lloc, donat que apareix en el títol de l’article, crec que és important explicar que és la covariància, especialment pels que no ho recordeu o pels que no ho sabeu. La covariància és un valor que mesura el grau de dispersió conjunta de dues variables aleatòries; en els següents tres enllaços trobareu explicacions de què és la covariància: aquí, aquí i aquí. Llegeix la resta d’aquesta entrada »


Enquestes electorals i escopetes de fira

15 Juliol 2016

“Les enquestes han fallat!”. Aquesta és segurament la frase que més vaig sentir als amics, la família i als mitjans de comunicació durant les hores i dies següents a les eleccions generals del passat 26 de juny. El programa d’humor Polònia va fer un gag sobre les empreses que fan les enquestes electorals que a mi, personalment, em va fer riure molt.

Estic totalment d’acord amb totes aquestes apreciacions, però en descàrrec de les empreses que fan demoscòpia he de dir que no és gens fàcil preveure el resultat d’unes eleccions, i menys quan hi ha dues noves formacions que passen a formar part del panorama electoral. En la “cuina” de les enquestes electorals s’utilitza bàsicament ––però no únicament– el record del vot per assignar als indecisos a qui votaran, i amb dues noves formacions com Podemos i Ciutadans es més difícil fer les estimacions de a qui votaran els indecisos. A més també cal tenir present que l’abstenció a les eleccions va ser superior al 30%, mentre que en la darrera enquesta electoral del CIS el percentatge d’abstenció no arribava al 20% (aquí, pregunta 6), i que en l’enquesta de El Periódico l’abstenció se situava per sota del 10% (aquí). Llegeix la resta d’aquesta entrada »


Viatge a Ítaca…amb R i la MCVL

15 gener 2016

Quan surts per fer el viatge cap a Ítaca,

has de pregar que el camí sigui llarg,

ple d’aventures, ple de coneixences.

Així comença el famós poema de Kavafis, amb la traducció de Carles Riba, que glosa el viatge de tornada d’Ulisses a casa seva, Ítaca. Reconec que és agosarat utilitzar aquest preciós poema per parlar d’R i de la Mostra Contínua de Vides Laborals (MCVL), però crec que és un bon símil per explicar l’experiència de Laura Gómez García amb R i amb la MCVL.

Certament no és el primer cop, ni serà l’últim, que parlem des de l’Ajuntament de Mataró de la Mostra Contínua de Vides Laborals (vegeu aquí, aquí, aquí i aquí), però si que és el primer cop que Laura Gómez García, treballadora de l’Ajuntament de Mataró com Pla d’Ocupació, utilitza el software estadístic lliure R (i més concretament la seva IDE R-Studio) i s’endinsa dins de la maresma que implica utilitzar la Mostra Contínua de Vides Laborals (MCVL).

En el viatge de tornada d’Ulisses, hi ha tres aspectes rellevants: el destí (Ítaca), el mitja de transport (el vaixell), i el lloc per on transcorre el viatge (la mar Mediterrània). Continuant amb el símil, en el treball que ha fet Laura el destí serien els objectius que se li van encarregar, el mitjà de transport seria el software utilitzat per fer el treball, i el lloc per on transcorre el viatge seria la MCVL. Llegeix la resta d’aquesta entrada »


And the winner is… “San…joy”

13 Març 2015

Els passats dies 24 i 25 de febrer, va tenir lloc al Congrés dels Diputats de Madrid el darrer “Debat de l’Estat de la Nació” de l’actual legislatura. Una de les preguntes habituals després d’aquests debats és: “qui ha guanyat el debat?”

Entre els principals diaris de pagament d’àmbit nacional, habitualment, el guanyador és el que més s’acosta al perfil o a la línia editorial del diari. Així, per a El País i El Periódico, el guanyador del debat va ser Pedro Sánchez; mentre que per a El Mundo, ABC i La Razón el guanyador va ser Mariano Rajoy.

Sigui com sigui, molts mitjans de comunicació, el 27 de febrer, van treure una notícia on es deia que, segons l’enquesta feta pel CIS, Pedro Sánchez havia guanyat a Rajoy en el “Debat de l’Estat de la Nació”. Adjunto uns quants enllaços dels articles apareguts en alguns mitjans de comunicació:

El Mundo: Sánchez ganó por la mínima el Debate sobre el estado de la Nación, según el CIS

eldiario.es: Pedro Sánchez ganó el debate a Rajoy por 7 décimas, según el CIS Llegeix la resta d’aquesta entrada »


Les trajectòries dels residents a Mataró a través de la Mostra Contínua de Vides Laborals

28 Novembre 2014

Ja fa més de dos anys que no parlàvem de la Mostra Contínua de Vides Laborals (MCVL) i de la seva aplicació a nivell local. Durant en aquests més de dos anys l’Idescat ha començat a publicar informació de la MCVL a nivell local (aquí), però vull recordar que des del Servei d’Estudis de l’Ajuntament de Mataró venim publicant dades de la MCVL (principalment per l’àmbit del nostre municipi) des del 2010 (aquí), si bé es cert que no ho venim fent de forma regular.

El motiu d’aquesta manca de regularitat en l’explotació de la MCVL és ben senzill; per una administració local, emprendre l’anàlisi d’una base de dades tan gran (més de 9 GB de dades, 5 taules que ocupen 22 fitxers, i més de 20 milions de registres) i tan complicada (més de 130 variables) resulta una tasca titànica, ja que per tal d’analitzar les dades és requereix d’ordinadors prou potents, es requereix de personal amb coneixements de programació i es requereix de temps. Afortunadament per a l’Ajuntament de Mataró la contractació d’un pla d’ocupació, Antoni Braza, amb formació estadística i coneixements avançats de programació ens està permetent afrontar l’estudi de la MCVL de l’any 2013, tant amb l’onada sense dades fiscals com amb dades fiscals.

L’objectiu d’aquesta entrada no és tant veure les trajectòries laborals dels mataronins, com d’una banda insistir en l’ús de la MCVL per analitzar més a fons la situació laboral a nivell local (dels municipis de més de 40.000 habitants), i per altra banda mostrar el paquet TraMineR que permet fer gràfics de les trajectòries d’individus. Llegeix la resta d’aquesta entrada »


Benvinguts al “Circos” de la mobilitat!!!

30 Mai 2014

Sí, ho reconec. El títol d’aquest post sembla ben bé que hagi estat extret d’un diari esportiu, però no m’he pogut resistir a fer un joc de paraules.

Qui tingui al voltant de quaranta anys, com ara és el meu cas, de ben segur que recorda “El Gran Circo de TVE”, un programa que feien els dissabtes a la tarda. Aquell circ té ben poc a veure amb el que s’està fent avui en dia, l’exemple més mediàtic del qual a escala internacional és el dels canadencs Circ du Soleil. Més a la vora, a casa nostra, hi podem trobar companyies de circ —unes més grans com ara Circ Cric i d’altres de més petites com Los Herrerita— que fan un circ força diferent al d’ara fa trenta anys.

Dit això, val a dir que en la visualització de les dades de migració o de mobilitat s’ha produït transformació similar. Així, doncs, s’ha passat de mapes com aquest:

a mapes interactius com aquest altre:

L’objectiu d’aquest post és doble: d’una banda, ensenyar les dades de mobilitat del Cens de 2011 i, de l’altra, mostrar una manera diferent de visualitzar dades de flux a través de gràfics circulars. Llegeix la resta d’aquesta entrada »


Moltes felicitats!!!!

29 Novembre 2013

El passat 16 de novembre es va commemorar el 75è aniversari del final de la Batalla de l’Ebre. Aquesta commemoració és una de les moltes que tenen lloc cada dia, i habitualment aquestes commemoracions corresponen a aniversaris: l’aniversari de casament, l’aniversari del divorci, aniversari de la fundació de l’empresa, l’aniversari de la mort d’alguna persona, l’aniversari d’una victòria (o d’una derrota), etc.

En aquestes commemoracions Google és segurament un referent, ja que pràcticament tots els dies de l’any a la pàgina d’entrada de Google hi trobem algun Doodle, com per exemple el del 96è aniversari de naixement de Ella Fitzgerland, o el del 161è aniversari de naixement d’Antoni Gaudí, o el del 200è aniversari de la publicació de la primera edició dels contes recopilats pels germans Grimm. La majoria d’aquests Doodle d’aniversaris fan referència al naixement, i això és el que analitzarem en aquest post els aniversaris de naixement, i més concretament els aniversaris de naixement dels empadronats a Mataró. Llegeix la resta d’aquesta entrada »


Ens assemblem o no els municipis del Perfil de la Ciutat?

27 Setembre 2013

Quan disposem d’un volum important d’informació (variables i registres), amb l’anàlisi clàssica descriptiva pot ser molt complicat (o quasi impossible) extraure’n alguna conclusió conjunta. És en aquest punt que ens pot interessar fer servir algun mètode (estadístic) que ens permeti sintetitzar (o agrupar) la informació disponible, per tal de facilitar la nostra anàlisi i arribar a conclusions a les quals amb l’estudi univariant habitual no seria possible d’arribar.

Vegem-ho amb un exemple: prenem la taula d’indicadors del capítol de Demografia del darrer Informe del Perfil de la Ciutat. Les dades que obtenim per al conjunt de municipis analitzats són les que s’observen en el quadre següent:

Taula

Amb aquesta informació podem veure que Santa Coloma de Gramanet és on menys creix la població en els últims deu anys o que Barberà del Vallès és el municipi que registra una taxa més baixa de població estrangera. Ara bé, intentar una anàlisi conjunta a partir de la visualització directa de la informació no seria un exercici senzill (Barberà i Santa Coloma tenen algun comportament comú?). Així doncs, ens plantejarem emprar un mètode estadístic de síntesi de la informació que ens permetrà resumir-ho en poques variables. L’anàlisi en qüestió és la de Components Principals: Aquesta anàlisi estadística consisteix a sintetitzar la informació disponible, tot reduint el nombre de variables disponibles i agrupant-les.

Així doncs, i fent servir en nostre programari d’anàlisi estadística habitual, R, obtenim els següents resultats després d’aplicar una anàlisi de Components Principals:

Resultats acp

Els resultats mostren que el més raonable seria reduir el nombre de variables a tres components principals. La justificació: amb tres components expliquem el 89% de tota la informació disponible, percentatge més que suficient (de fet, amb dues ja disposem d’un 71%, percentatge que també es podria considerar suficient). El pas següent serà etiquetar cada una d’aquestes components, a partir de la (cor)relació que tenen amb les nostres variables originals.

Component 1: correlacionada positivament amb les variables densitat i mitjana d’edat. Aquesta component resumiria la informació relacionada amb el grau de concentració de la població.

Component 2: la segona component està correlacionada, negativament, amb la variable envelliment. Per tant, aquesta component ens indica els municipis amb un menor pes de gent gran (i, en conseqüència, amb un més pes d’edats joves i madures).

Component 3: la tercera component està correlacionada positivament amb les variables taxa de fecunditat, taxa de natalitat i percentatge de població estrangera. Aquesta component ens indicaria els municipis amb un % de fecunditat més elevat.

Ara ja tenim sintetitzada la informació disponible, tot reduint el nombre de variables inicials (9) en 3 (components). El pas següent en la nostra anàlisi serà agrupar els nostres municipis a partir de les noves variables (components) obtingudes, donant resposta, així, al grau de semblança que tenen els municipis. És el que es coneix com a Anàlisi Clúster. Aquesta tècnica estadística és, en realitat, un conjunt de tècniques estadístiques que tenen com a objectiu agrupar elements semblants en grups o clústers. En aquest cas, el que emprarem serà el mètode jeràrquic o de classificació.

Utilitzant R, el resultat d’aplicar aquest mètode s’obté a continuació (en forma de gràfic):

Dendo

Amb el gràfic s’observa que els nostres municipis es poden classificar en cinc grups:

Un primer integrat pel municipi de Santa Coloma de Gramanet.

Un segon integrat pel municipi de Vic.

Un tercer integrat pel municipi de Manresa.

Un quart format pels municipis de Barberà del Vallès, Mollet i Rubí. Aquests municipis, doncs, formen un clúster de municipis que es caracteritzen per tenir una població més jove respecte de la resta de municipis analitzats.

I el cinquè clúster està integrat per la resta de municipis: Girona, Granollers, Lleida, Mataró, Sabadell, Terrassa i Vilafranca del Penedès. En aquest cas, aquests municipis no es caracteritzen per destacar, ni en un sentit ni em l’altre, amb cap de les components seleccionades.

Així doncs, i com a conclusió final, la utilització d’aquestes tècniques estadístiques ens ha permès veure el grau de semblança (o diferència) entre els municipis que formen part del Perfil de la Ciutat a partir d’una sèrie de variables originals, tot agrupant-les i generant-ne de noves a partir de les correlacions que s’estableixen entre les variables inicials i les components finals.

Observatori de l’Economia Local de Sabadell


Eines d’anàlisi: R i R-Commander

5 Desembre 2012

Més enllà de l’habitual anàlisi comparativa dels diferents municipis que integren la xarxa del Perfil de la Ciutat, l’anàlisi de mètodes o tècniques o bé l’opinió sobre temàtiques concretes, també hi ha la voluntat, des d’aquest blog, de presentar i/o difondre eines que ajudin a una millor interpretació de la informació disponible. I si aquestes eines són lliures i de distribució gratuïta, encara millor.

Així doncs, el post d’avui el dedicaré a presentar (no és un manual!) una eina que pot resultar molt útil per a tothom que treballi amb dades i requereixi eines que vagin més enllà de l’habitual full de càlcul. Aquesta eina és l’R, un programari lliure i gratuït que es basa en el llenguatge de programació per poder fer anàlisi estadística. Us el podeu descarregar des de l‘enllaç següent:

http://www.r-project.org

Gràf 1

De l’R ja fa temps que se’n parla, sobretot en l’àmbit universitari, ja que és una eina gratuïta, potent i lleugera. Un exemple d’això que dic el visualitzem en el següent gràfic, on queden comptabilitzats el nombre de posts que parlen d’R en el blog r-bloggers en els últims anys:

Gràf 2

Quan dic que R és una eina potent, em refereixo a què, actualment, al repositori d’R hi ha disponibles més de 4.000 paquets diferents. Cap software estadístic comercial actual disposa d’aquesta àmplia gamma de paquets d’anàlisi, i no únicament estadístic, sinó que també permet fer anàlisis demogràfics, o de programació lineal, o càlculs financers, etc. Quan dic que R és una eina lleugera, em refereixo a que quan s’arranca un software estadístic comercial actual, el programari triga un temps (depenent de la potència de l’ordinador) en carregar tot el programa; en canvi amb R, el programa es carrega molt ràpidament, ja que no instal·la tots els paquets disponibles sinó únicament uns paquets bàsics; és l’usuari qui en funció de l’anàlisi que vulgui fer ha de carregar el paquet adient.

Tal com dic a la introducció, R és en llenguatge de programació. Això vol dir que qualsevol que vulgui utilitzar aquesta eina necessita certs coneixements previs de programació (informàtica). Per evitar que potencials usuaris “fugin” d’aquesta eina (més pel fet de no disposar d’aquests coneixements previs de programació, i no tant d’estadística), hi ha la possibilitat de poder descarregar i instal·lar (des del mateix entorn) l’R Commander. Què és l’R Commander? És una interfície tipus finestra que cobreix la major part de les anàlisis estadístiques més habituals en uns menús desplegables, als quals estem bastant acostumats els usuaris que hem treballat alguna vegada amb un paquet estadístic basat en aquest tipus d’entorn.

Així doncs, amb l’R Commander podrem realitzar una anàlisi estadística sense haver de tenir un cert domini de llenguatge de programació i en un entorn en què el seu ús ens és familiar. A més, alhora que l’utilitzem, ens podrem familiaritzar amb el llenguatge de programació, ja que el programa incorpora una pantalla on podem anar veient la majoria d’operacions que anem realitzant amb els menús. Això ens permetrà anar aprenent llenguatge de programació (sintaxi), que ens podrà ser útil per a posteriors anàlisis sense la necessitat d’haver de recórrer, de nou, a l’ús dels menús desplegables. Si voleu aprofundir una mica més sobre R i R-Commander, la Universitat de Cadis ha editat un llibre gratuït titulat Estadística bàsica con R y R-Commander.

Sense entrar en aspectes funcionals de l’eina (hi ha manuals disponibles des del mateix enllaç on et pots descarregar el programa), un aspecte que m’agradaria destacar d’aquesta eina és la seva facilitat en la importació de fitxers de dades des d’altres entorns (fulls de càlcul, bases de dades, txt), entorns, tot sigui dit, en què és habitual que hi tinguem la majoria de la informació emmagatzemada.

Per acabar, i tal com he dit des del principi, aquest post té com a objectiu presentar (que no fer de manual) una eina disponible a la xarxa que permet fer anàlisi quantitativa i estadística, en un entorn conegut, i sense la necessitat d’haver d’adquirir un programari estadístic que requereixi de llicència comercial, aspecte, aquest últim, que pot apropar “per a tots els púbics” funcionalitats que fins ara només estaven a l’abast d’una minoria.

Observatori de l’Economia Local de Sabadell


%d bloggers like this: