La puresa de la font

En una base de dades, que és un conjunt de dades agrupades de forma ordenada, hi conflueixen, normalment, dos perfils d’usuari: qui introdueix informació i qui la consulta.

Les bases de dades poden ser classificades segons multitud de criteris. Uns exemples citats a cuita-corrents serien segons l’estructura, segons la variabilitat de les dades, segons el contingut o segons la forma d’administrar les dades. Sorprèn constatar que cap categorització convencional pren com a criteri de classificació la fiabilitat de les dades introduïdes. Sota aquest criteri, es tindrien bases de dades amb dades fiables i bases de dades amb dades no fiables. Es disposa d’una extensa literatura per gairebé cada tipus de base de dades definida pels acadèmics. Per contra, no es disposa de literatura per les bases de dades amb dades no fiables, tanmateix, sí que hi ha una paraula que les defineix: gigo, acrònim de ‘garbage in garbage out’.

Gigo sintetitza de forma brillant l’òbvia idea, i sovint obviada, que si a una base de dades s’entren bajanades, surten bajanades. Aquesta premissa té tant de pes dins el món de les bases de dades com dins el món de la química té la que diu que la matèria ni es crea ni es destrueix, sinó que només es transforma. Si, qui introdueix dades a una base de dades, entra bajanades, qui faci una consulta, consultarà bajanades. Mentre que resulta habitual que, qui consulta dades, no és conscient del grau de fiabilitat de la informació que està consultant, qui introdueix dades acostuma a ser conscient del grau de fiabilitat de la informació que està introduint.

Si un equip de catedràtics de l’Economics University of Illinois elabora un complert dossier de dues-centes pàgines analitzant una tirallonga de paràmetres extrets d’una base de dades gigo, l’informe serà garbage. I si l’informe es maqueta a color, s’imprimeix amb tapes dures, es presenta davant cinc-centes persones i els mitjans de comunicació anuncien la seva existència en horari de màxima audiència, seguirà sent garbage.

Quan es tracta d’una font interna i s’és proper a qui nodreix d’informació la base de dades, es pot indagar si els inputs s’introdueixen de forma curosa o a la xamberga. A partir de bases de dades ben gestionades, es podran elaborar bons informes. A partir de les altres, no. En els casos de les bases de dades gigo, resulta més profitós dedicar esforços a fer depuracions que no pas a fer explotacions estadístiques.

Si es tracta d’una base externa i s’està lluny de qui introdueix informació, costa discernir el grau de gigo de la base de dades. L’espectre dels que analitzen les bases de dades externes és interessant per la seva amplitud; anant des de l’escèptic que no consulta la base de dades perquè no se la creu, fins el fervent devot que segueix la seva doctrina a ulls clucs.

Per tot això és important saber la composició química de l’aigua que es veu, és a dir, el grau de puresa de la font, més enllà de doctrines i prejudicis.

 

Ramon Culleré

Responsable del Servei d’estudis de l’Ajuntament de Manresa

2 respostes a La puresa de la font

  1. Xavier Muñoz escrigué:

    El garbuix de les fonts pures o la volatilitat de les dades…

    Les contribucions d’en Ramon Culleré, com ja va sent habitual, no ens deixen indiferents, esperonen el debat! (especialment significatives en tocar el tema de la qualitat de les dades públiques, en uns dies durant els quals els mitjans no deixen de noticiar la infiabilitat de les dades sobre el dèficit d’algunes comunitats autònomes, dels números de la banca o de les afirmacions d’alguns polítics d’alt nivell, que no deixen de generar dubtes i incertesa sobre el moment econòmic present).

    Tanmateix, en “La puresa de la font” es donen molts aspectes per suposats, al respecte de la fiabilitat de la feina mateixa dels observadors, però també al respecte de conjunt d’actors que hi intervenen. D’entrada a mi em falta un d’important, previ a qui introdueix la informació, que és qui dissenya la base de dades.

    De fet, la bondat de la informació introduïda i de la posterior anàlisi dependrà també de quin hagi estat el disseny de la base de dades i d’allò de concret que en el seu contingut es preveu captar, per tal de respondre a uns objectius de coneixement. I això, tenint en compte també que sovint qui dissenya la base de dades no és forçosament qui l’omple, i sovint també que qui la dissenya pressuposa que qui l’ha d’omplir sap tant o més que ell o que tindrà el seu mateix criteri a l’hora de decidir si s’incorpora tal dada o com s’incorpora o es classifica. Efectivament en molts casos no coincideix dissenyador amb el complimentador i s’experimenta certa distorsió dels criteris, a menys que la base hagi estat dissenyada de tal manera que la introducció de les dades sigui absolutament unívoca, que no ofereixi cap dubte i faciliti el procés.

    Us poso un exemple real: el programa de gestió dels usuaris dels serveis d’ocupació fins a un determinat moment (en el que feliçment va intervenir l’Observatori), incloïa un camp obert per a la classificació dels subsectors en els que aquells usuaris havien estat ocupats en el darrer lloc de treball. I així, per exemple, segons fos el funcionari que atenia l’usuari, una persona que havia treballat en una carnisseria podia ser classificada directament com a “carnisseria”, “carn”, o “comerç d’alimentació” o dins el subsector de la “indústria càrnia”…, amb la qual cosa, les cerques posteriors eren evidentment equívoques, i, a més, especialment sensibles si d’allò es derivava augmentar o disminuir les possibilitats de facilitar una nova feina a l’usuari en qüestió. S’introduïa, per tant, més que una bondat, una dificultat afegida a la utilitat de la base de dades, que, si se n’era conscient de l’assumpte per part dels gestors de la base, obligava a fer una explotació manual (depuracions) de cadascun dels possibles candidats a una plaça de carnisser o d’operari d’una cadena de tractament industrial de la carn. Es tractava, per tant, d’una deficiència de la base de dades, per tal com s’estava introduint informació equívoca en funció del criteri de cada persona que hi participava en el procés de les dades, especialment greu per tal com qui té accés a modificacions a la base no és poca gent, sinó tot un equip, i que, a sobre, ha estat molt variable en el temps (en funció de la política de contractació de la casa de cada moment). La deficiència no es va resoldre fins que, a la vista de les explotacions curoses de la base, es posà de manifest el garbuix que aquella indefinició ocasionava en la seva anàlisi i que feia necessari unificar el criteri en relació a la classificació de l’activitat econòmica. La dificultat es corregí afegint un menú unívoc del CNAE 3 amb el suport (per a qualsevol dubte) d’un manual d’ajuda.

    Coses semblants també s’observen quan es tracta amb variables tant importants per a les polítiques locals com l’adreça dels establiments d’activitat o la determinació de les professions de les persones. La solució, en aquells casos, també reclamava la introducció en la base de dades de menús unívocs, que facilitessin la classificació o, per exemple, el posicionament sobre el mapa.

    Nogensmenys, això també ens demostra que qui introdueix dades no sempre acostuma a ser conscient de la importància de la forma en que s’introdueix la informació o del seu perquè i, per tant, tampoc que de la seva feina en depèn en bona part la fiabilitat de la informació que s’introdueix. Conseqüentment, també, la fiabilitat de la informació resultant dependrà en bona mesura del disseny de la base de dades i dels criteris que, a partir d’aquell disseny, s’estableixin i es respectin a l’hora de complimentar la base (i que, en essència, haurien de formar part de les metadades de la base). Això acostuma a passar quan qui processa realment la informació no és personal tècnic i/o no ha rebut la formació adequada i/o, a més, no serà qui finalment utilitzi la informació.

    Per altra banda, qui explota les dades no es pot desempallegar de la seva responsabilitat de conèixer el detall del què està oferint la base de dades que utilitza (és com el cuiner que no es preocupa de l’origen i la qualitat dels ingredients amb els que vol fer l’arròs: farà l’arròs però sense garantir la qualitat). No pot treballar amb aquella i quedar-se tant panxo, especialment si el resultat que en dóna és inversemblant o contradictori; si, en definitiva, n’és conscient que allò que n’obté és quelcom infiable o esbiaixat. També és responsabilitat de qui ofereix la base de dades d’advertir de possibles handicaps que hi incorpori que afectin la seva fiabilitat, com la forma per la qual ha estat complimentada o s’ha fet el seguiment o l’actualització de les dades. Aquí doncs, també hi correspondrà una qüestió d’ètica o de qualitat professional, que es requereix necessàriament explícita per ambdues bandes, per tal de conèixer quin és aquell “grau de puresa de la font”, que es traduirà necessàriament en un marge de qualitat tant de la pròpia estructura de la informació com de l’explotació.

    Dues coses més. Cal diferenciar també entre el què és infiable (o directament mentida, allò que ha estat mal entrat o que mai havia d’haver estat entrat a la base de dades, o entrar de qualsevol manera, etc) i el què es o no representatiu sobre un horitzó de mostra o al 100% de dades censals. La informació sobre una mostra, podrà ser no representativa i esbiaixada, però fiable i tenir significació en funció de factors determinants, com la selecció dels subjectes qüestionats.

    També cal considerar que malgrat la proximitat a l’origen de la font, mai no s’estarà prou segur de la seva puresa, a menys que qui analitzi les dades sigui també qui les hagi captat, i, ni així… Res garanteix la fiabilitat al 100%. O no sabeu el que es fa de més i de menys en enquestes i censos, quan es té en ment la constatació d’una determinada hipòtesi? Juguem sempre, per tant, amb un marge d’error o de subjectivitat implícit al propi procés, que a la pràctica es traduirà en un determinat grau de fiabilitat de la informació, i que, al cap i a la fi, acceptarem en un quasi-religiós acte de fe.

  2. Rubén Pérez escrigué:

    Us havia deixat un comentari més llarg però m’ha demanat que em loguegi… i l’he perdut…
    En fi, que completament d’acord Ramon, que els que treballem amb bases de dades fem molta feina en l’ombra i que amb les externes hem d’anar amb molt de compte.
    Salut!

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s

%d bloggers like this: