Quadre resum de la Recerca

      Resum des del GREC (Aplicatiu de Gestió de la Recerca)

Línies de recerca

Anàlisi de dades composicionals

La temàtica central que dóna cohesió al grup de recerca és l'anàlisi estadística de les dades composicionals. Aquest tipus de dades es caracteritza pel fet de ser vectors aleatoris de components positives i de suma constant (p.e., 100, 1, 1 milió). Aquesta restricció fa que les tècniques d'anàlisi i interpretació estadístiques estàndards no siguin aplicables. Si bé es tracta d'un problema antic que ha provocat moltes controvèrsies entre els investigadors, no és fins els anys 80 quan el professor J. Aitchison dóna, des d'una perspectiva estrictament estadística, les primeres indicacions per analitzar de forma coherent aquest tipus de dades. A partir d'aquestes primeres indicacions s'ha observat que la fonamentació matemàtica i rigorosa d'aquestes anàlisis estadístiques es basa en la definició d'una geometria específica sobre el símplex (espai suport de les dades composicionals) a partir de la qual es poden anar desenvolupant amb rigor totes les anàlisis habituals (anàlisi cluster, anàlisi discriminant, anàlisi factorial, models de regressió, etc). Tot això fa que la temàtica del grup de recerca no es limiti només al desenvolupament de les tècniques pròpies de l'anàlisi estadística de les dades composicionals, sinó que abordi també els aspectes estrictament matemàtics que fonamenten aquestes tècniques i que pertanyen als àmbits de la geometria, de la teoria de la mesura i del càlcul diferencial i integral sobre el símplex i que poden ser aplicats a d'altres suports, com ara R+,R2+, (0,1) i d'altres..

En Geologia, Petrologia, Química, Economia, Arqueometria, etc. és habitual treballar amb vectors de dades les components dels quals representen la contribució relativa de diferents parts en relació a un total, cosa que dóna lloc a mostres composicionals.

L'objectiu genèric del grup és avançar en l'anàlisi estadística de les dades composicionals i la seva fonamentació matemàtica. Aquest objectiu general es concreta actualment en els següents objectius parcials:

  1. Fonamentació matemàtica de l'anàlisi de dades composicionals. A partir de la definició de composició com una classe d'equivalència, s'obre la possibilitat d'aplicar a l'espai quocient de les composicions tota la metodologia que s'ha estat elaborant sobre el símplex i, a més a més, ampliar-la. D'aquesta manera es fonamenten amb rigor i precisió les tècniques d'anàlisi estadística de dades composicionals que s'han anat desenvolupant últimament. Aquesta fonamentació matemàtica obliga a definir sobre l'espai quocient composicional -o equivalentment sobre el símplex- conceptes propis de la geometria, de la teoria de la mesura i del càlcul diferencial i integral.
  2. Ortogonalitat i independència en el símplex. El fet que, amb la mètrica adequada, el símplex esdevingui un espai euclidià, permet introduir el concepte de base ortonormal en el símplex i la transformació de logquocients isomètrica associada. A partir d'aquí, hom planteja l'estudi de la independència subcomposicional, íntimament lligada a l'ortogonalitat de subespais en el símplex.
  3. Anàlisi cluster paramètrica de dades composicionals. Els darrers anys s'han abordat les metodologies no paramètriques de classificació de dades composicionals, basades fonamentalment en la distància introduïda per Aitchison. Hom aborda ara les metodologies paramètriques de classificació de dades composicionals basades en la hipòtesi que els grups o clusters són mostres procedents de distribucions de probabilitat de classe aln (normal logística additiva). D'altra banda, és sabut que en dades composicionals de procedència geoquímica és força habitual que algunes de les components o parts siguin quasi nul·les pel fet que el seu nivell de presència en el conjunt de la composició és inferior al llindar de detecció dels aparells de mesura. Això comporta que aquestes components "quasi nul·les" s'hagin de substituir per valors no nuls abans de procedir a la classificació de les dades. Caldrà analitzar fins a quin punt la metodologia multiplicativa de substitució -introduïda en el seu dia per J.A. Martín, membre del grup de recerca- és compatible amb les tècniques paramètriques de classificació.
  4. La distribució normal asimètrica logística additiva (alsn). Hom és a punt d'acabar l'estudi de la modelització de dades composicionals a partir de la utilitizació de la distribució normal asimètrica introduïda per Azzalini (1996), utilitzant la mateixa estratègia que Aitchison va fer servir en el seu dia a partir de la distribució normal i complementar-la amb resultats provinents de la teoria de la mesura. Això porta a introduir les distribucions alsn i a estudiar-ne les seves propietats en relació a l'estructura del símplex com a espai vectorial real, i en relació a les subcomposicions. El fet que la composició que resulta de l'amalgama de dues o més parts d'una composició aleatòria de classe aln no tingui perquè ajustar-se necessàriament a una composició del mateix tipus, obre les portes a l'estudi de fins a quin punt les distribucions de classe alsn poden complementar aquest dèficit que presenten les distribucions de classe aln.
  5. Taules de bondat d'ajust de distribucions normals asimètriques. El fet que la distribució normal asimètrica sigui d'introducció tan recent fa que no hi hagi encara eines a l'abast per contrastar estadísticament si un conjunt de dades es pot ajustar prou bé per una distribució d'aquest tipus. Aquest fet ha obligat al grup de recerca a elaborar taules específiques per a dur a terme aquest tipus de contrastos de bondat d'ajust. Aquestes taules s'estan desenvolupant en base a la metodologia proposada per Stephens, per a diferents mides de mostres i per a diferents nivell de significació.
  6. Anàlisi estadística de dades composicionals amb dependència espacial. Resulta molt habitual en geoestadística (desde aplicacions en mineria fins a estudis mediambientals) disposar de dades composicionals que presenten dependència espacial. Fins ara, les tècniques estàndard de cokriging -que s'apliquen per a l'anàlisi d'aquest tipus de dades- s'han basat en una extensió al cas espacial de les tècniques de transformació proposades per Aitchison, però sense tenir en compte l'estructura d'espai vectorial del símplex. Així doncs, hom pretén reformular aquestes tècniques des de la metodologia de l'anàlisi composicional basada en la mètrica euclidiana definida sobre el símplex.
  7. Models lineals i no lineals en el símplex. Els recents avenços en l'estructura algebraica-geomètrica del símplex obliguen a reformular -des de l'òptica de la geometria composicional- les tècniques de modelització de processos lineals i no lineals en termes de processos composicionals. S'ha començat a emprar aquest models sobre dades reals procedents de l'àmbit de la Geologia i els resultats obtinguts resulten prometedors.
  8. Sotware composicional (CoDaPack). Des de principis del segle XXI el grup de recerca ha desenvolupat un paquet anomenat CoDaPack que conté un conjunt de rutines destinades a usuaris finals sense excessiva expertesa en l’ús d’ordinadors. Mitjançant menús l’usuari es comunica amb el paquet i aquest retorna tant sortides numèriques com gràfiques. Les sortides gràfiques poden ser en 3D i s’hi pot aplicar zooms i rotacions.
    Originalment CoDaPack estava associat, mitjançant rutines en VisualBasic, al software Excel de tal manera que s’executava com un menú més d’Excel i els resultats es dipositaven, també, en fulls Excel. Més endavant es van millorar els gràfics i es van programar en OpenGL, encara sense sortir d’Excel.
    Des de maig de 2011 hi ha disponible una nova versió del CoDaPack, 2.0, que ja no depèn d’Excel. Aquesta versió està programada en Java i només requereix tenir instal·lat la màquina virtual de Java (versió mínima 1.5). Això ha permès que el CoDaPack 2.0 es pugui executar sota qualsevol sistema operatiu que disposi de màquina virtual de java. En concret els ordinadors de la família Mac d’Apple i els sistemes operatius basats en Unix poden ara executar el CoDaPack 2.0.
    Aquest paquet va ampliant constantment amb noves rutines i millores en les ja existents.resultats.

Anàlisi factorial de dades

 

 
 
 
 
 
 
 
 
 

Disseny i tractament d'enquestes