Quadre resum de la Recerca
Línies de recerca
Anàlisi de dades composicionals
La temàtica central que dóna cohesió al grup de recerca
és l'anàlisi estadística de les dades composicionals.
Aquest tipus de dades es caracteritza pel fet de ser vectors aleatoris
de components positives i de suma constant (p.e., 100, 1, 1 milió).
Aquesta restricció fa que les tècniques d'anàlisi
i interpretació estadístiques estàndards no siguin
aplicables. Si bé es tracta d'un problema antic que ha provocat
moltes controvèrsies entre els investigadors, no és fins
els anys 80 quan el professor J. Aitchison dóna, des d'una perspectiva
estrictament estadística, les primeres indicacions per analitzar
de forma coherent aquest tipus de dades. A partir d'aquestes primeres indicacions
s'ha observat que la fonamentació matemàtica i rigorosa d'aquestes
anàlisis estadístiques es basa en la definició d'una
geometria específica sobre el símplex (espai suport de les
dades composicionals) a partir de la qual es poden anar desenvolupant amb
rigor totes les anàlisis habituals (anàlisi cluster, anàlisi
discriminant, anàlisi factorial, models de regressió, etc).
Tot això fa que la temàtica del grup de recerca no es limiti
només al desenvolupament de les tècniques pròpies
de l'anàlisi estadística de les dades composicionals, sinó
que abordi també els aspectes estrictament matemàtics que
fonamenten aquestes tècniques i que pertanyen als àmbits
de la geometria, de la teoria de la mesura i del càlcul diferencial
i integral sobre el símplex i que poden ser aplicats a d'altres
suports, com ara R+,R2+, (0,1) i
d'altres..
En Geologia, Petrologia, Química, Economia, Arqueometria, etc.
és habitual treballar amb vectors de dades les components dels quals
representen la contribució relativa de diferents parts en relació
a un total, cosa que dóna lloc a mostres composicionals.
L'objectiu genèric del grup és avançar en l'anàlisi
estadística de les dades composicionals i la seva fonamentació
matemàtica. Aquest objectiu general es concreta actualment en els
següents objectius parcials:
-
Fonamentació matemàtica de l'anàlisi de dades composicionals.
A partir de la definició de composició com una classe d'equivalència,
s'obre la possibilitat d'aplicar a l'espai quocient de les composicions
tota la metodologia que s'ha estat elaborant sobre el símplex i,
a més a més, ampliar-la. D'aquesta manera es fonamenten amb
rigor i precisió les tècniques d'anàlisi estadística
de dades composicionals que s'han anat desenvolupant últimament.
Aquesta fonamentació matemàtica obliga a definir sobre l'espai
quocient composicional -o equivalentment sobre el símplex- conceptes
propis de la geometria, de la teoria de la mesura i del càlcul diferencial
i integral.
-
Ortogonalitat i independència en el símplex. El fet
que, amb la mètrica adequada, el símplex esdevingui un espai
euclidià, permet introduir el concepte de base ortonormal en el
símplex i la transformació de logquocients isomètrica
associada. A partir d'aquí, hom planteja l'estudi de la independència
subcomposicional, íntimament lligada a l'ortogonalitat de subespais
en el símplex.
-
Anàlisi cluster paramètrica de dades composicionals.
Els darrers anys s'han abordat les metodologies no paramètriques
de classificació de dades composicionals, basades fonamentalment
en la distància introduïda per Aitchison. Hom aborda ara les
metodologies paramètriques de classificació de dades composicionals
basades en la hipòtesi que els grups o clusters són
mostres procedents de distribucions de probabilitat de classe aln (normal
logística additiva). D'altra banda, és sabut que en dades
composicionals de procedència geoquímica és força
habitual que algunes de les components o parts siguin quasi nul·les
pel fet que el seu nivell de presència en el conjunt de la composició
és inferior al llindar de detecció dels aparells de mesura.
Això comporta que aquestes components "quasi nul·les" s'hagin
de substituir per valors no nuls abans de procedir a la classificació
de les dades. Caldrà analitzar fins a quin punt la metodologia multiplicativa
de substitució -introduïda en el seu dia per J.A. Martín,
membre del grup de recerca- és compatible amb les tècniques
paramètriques de classificació.
-
La distribució normal asimètrica logística additiva
(alsn). Hom és a punt d'acabar l'estudi de la modelització
de dades composicionals a partir de la utilitizació de la distribució
normal asimètrica introduïda per Azzalini (1996), utilitzant
la mateixa estratègia que Aitchison va fer servir en el seu dia
a partir de la distribució normal i complementar-la amb resultats
provinents de la teoria de la mesura. Això porta a introduir les
distribucions alsn i a estudiar-ne les seves propietats en relació
a l'estructura del símplex com a espai vectorial real, i en relació
a les subcomposicions. El fet que la composició que resulta de l'amalgama
de dues o més parts d'una composició aleatòria de
classe aln no tingui perquè ajustar-se necessàriament a una
composició del mateix tipus, obre les portes a l'estudi de fins
a quin punt les distribucions de classe alsn poden complementar aquest
dèficit que presenten les distribucions de classe aln.
-
Taules de bondat d'ajust de distribucions normals asimètriques.
El fet que la distribució normal asimètrica sigui d'introducció
tan recent fa que no hi hagi encara eines a l'abast per contrastar estadísticament
si un conjunt de dades es pot ajustar prou bé per una distribució
d'aquest tipus. Aquest fet ha obligat al grup de recerca a elaborar taules
específiques per a dur a terme aquest tipus de contrastos de bondat
d'ajust. Aquestes taules s'estan desenvolupant en base a la metodologia
proposada per Stephens, per a diferents mides de mostres i per a diferents
nivell de significació.
-
Anàlisi estadística de dades composicionals amb dependència
espacial. Resulta molt habitual en geoestadística (desde aplicacions
en mineria fins a estudis mediambientals) disposar de dades composicionals
que presenten dependència espacial. Fins ara, les tècniques
estàndard de cokriging -que s'apliquen per a l'anàlisi
d'aquest tipus de dades- s'han basat en una extensió al cas espacial
de les tècniques de transformació proposades per Aitchison,
però sense tenir en compte l'estructura d'espai vectorial del símplex.
Així doncs, hom pretén reformular aquestes tècniques
des de la metodologia de l'anàlisi composicional basada en la mètrica
euclidiana definida sobre el símplex.
-
Models lineals i no lineals en el símplex. Els recents avenços
en l'estructura algebraica-geomètrica del símplex obliguen
a reformular -des de l'òptica de la geometria composicional- les
tècniques de modelització de processos lineals i no lineals
en termes de processos composicionals. S'ha començat a emprar aquest
models sobre dades reals procedents de l'àmbit de la Geologia i
els resultats obtinguts resulten prometedors.
-
Sotware composicional (CoDaPack).
Des de principis del segle XXI el grup de recerca ha desenvolupat un paquet anomenat CoDaPack que conté un conjunt
de rutines destinades a usuaris finals sense excessiva expertesa en l’ús d’ordinadors. Mitjançant menús l’usuari
es comunica amb el paquet i aquest retorna tant sortides numèriques com gràfiques. Les sortides gràfiques poden ser
en 3D i s’hi pot aplicar zooms i rotacions.
Originalment CoDaPack estava associat, mitjançant rutines en VisualBasic, al software Excel de tal manera que s’executava
com un menú més d’Excel i els resultats es dipositaven, també, en fulls Excel. Més endavant es van millorar els gràfics
i es van programar en OpenGL, encara sense sortir d’Excel.
Des de maig de 2011 hi ha disponible una nova versió del CoDaPack, 2.0, que ja no depèn d’Excel. Aquesta versió està
programada en Java i només requereix tenir instal·lat la màquina virtual de Java (versió mínima 1.5). Això ha permès
que el CoDaPack 2.0 es pugui executar sota qualsevol sistema operatiu que disposi de màquina virtual de java. En concret
els ordinadors de la família Mac d’Apple i els sistemes operatius basats en Unix poden ara executar el CoDaPack 2.0.
Aquest paquet va ampliant constantment amb noves rutines i millores en les ja existents.resultats.
Anàlisi factorial de dades
Disseny i tractament d'enquestes