CARTOGRAFIADO DE DATOS. La Imagen de los datos permite brindar una representación de toda la estructura de la información en un sólo gráfico, aunque estos datos sean numéricos, alfanuméricos o textuales, precisos o imprecisos. Además permite, visualizar las relaciones multidimensionales que puedan existir entre ellos, permitiendo brindar un diagnóstico por imagen, una rápida y completa comunicación e interpretación de la información contenida en los datos.

martes, 3 de noviembre de 2009

FactoClass de R


Combinación de Métodos Factoriales y Análisis de Cluster
La creación de paquetes portables facilita la labor académica cuando se utiliza R como lenguaje para la ejecución de los métodos estadísticos. Un paquete es útil aun cuando no se requiera la programación de nuevas funciones, ya que se pueden incluir tablas de datos y líneas de comandos para los talleres de un curso (Campo, 2007).
Para el análisis de una tabla de datos haciendo uso de métodos multivariados, Lebart et al. (1995) presenta una estrategia que consiste en realizar primero un análisis factorial según la naturaleza de los datos y luego una clasificación basada en un algoritmo mixto: clasificación jerárquica con el método de Ward y agregación alrededor de centros móviles (K-medias). Finalmente se obtiene una partición del conjunto de datos y la caracterización de cada una de las clases, según las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterización de las clases se utilizan los valores test, que son índices descriptivos construidos siguiendo la metodología de pruebas de hipótesis, pero sin el objetivo de hacer inferencias. La ordenación de los valores test dentro de cada clase permite obtener las variables continuas que la caracterizan positivamente, en el sentido de que la media de la clase es suficientemente mayor de la media global, o negativamente cuando la media de la clase es inferior. Para las categorías de variables nominales, la ordenación permite obtener aquellas categorías cuya proporción dentro de la clase se diferencia lo suficiente de la proporción global, ya sea porque es mayor (valor test positivo) o menor (valor test negativo).
   La utilización de las coordenadas factoriales permite tener un marco común en el proceso de formación de conglomerados. Para el proceso de clasificación el análisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formación de conglomerados es equivalente a efectuar una clasificación de las filas de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un filtrado: se supone que los ejes utilizados para la clasificación tienen la información relevante y que los desechados se deben a las fluctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisión del número de ejes que se utilizan en la clasificación. Algunas veces, sobre todo en tablas pequeñas, se usan todos los ejes. (Campo, 2007).
  El método de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeración, las dos clases que incrementen menos la inercia intraclases.
  El algoritmo K-medias para la obtención de una partición directa de un conjunto de “individuos” por variables cuantitativas requiere el número de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una partición que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando la distancia euclidiana canónica entre los individuos y los centros móviles utilizados para la agregación. En cada paso del algoritmo se actualizan los centros móviles calculando los centros de gravedad de la partición obtenida del paso anterior.
  Para seleccionar las variables continuas o las categorías de las variables nominales más características de cada clase, se mide la desviación entre los valores relativos a la clase y los valores globales, utilizando los valores test.

Sintaxis del commando en R:
FactoClass( dfact, metodo, dfilu = NULL , nf = 2, nfcl = 10, k.clust = 3,
scanFC = TRUE , n.max = 5000 , n.clus = 1000 ,sign = 2.0,
conso=TRUE , n.indi = 25 )
print.FactoClass(x, ...)
analisis.clus(X,W)
En el paquete de R FactoClass (Campo, 2007), se implementa la estrategia descrita en Lebart et al. (1995), que combina métodos factoriales con análisis de conglomerados, en la exploración multivariada de tablas de datos. FactoClass es una función que conecta a las funciones de ade4 (Chessel et al. 2004) para realizar el análisis factorial de los datos y de stats para el análisis de conglomerados. Funciones complementarias que, incluyendo para producir salidas en formato L ATEX1, utilizando el paquete xtable (Dahl 2006).

Argumentos:
dfact
Objeto de la clase data.frame, Con los datos de las variables activas.
metodo
Función de ade4 para análisis factorial,
dudi.pca, Análisis de Componentes Principales;
dudi.coa, Análisis de Correspondencias;
dudi.acm, Análisis de Correspondencias Múltiples
witwit.coa, Análisis de la correspondencia interna;...
dfilu
Variables ilustrativas (por defecto NULL).
nf
Número de ejes a utilizar en el análisis factorial (por defecto 2).
nfcl
Número de ejes a utilizar en la clasificación (por defecto 10).
k.clust
Número de clases para trabajar (por defecto 3).
scanFC
Si es cierto, pide en la consola los valores nf, nfcl y k.clust
n.max
si rowname(dfact)> = n.max, antes realiza k-means (por defecto 5000)
n.clus
si rowname(dfact)> = n.max, antes realiza k-means con n.clus grupos (por defecto 1000)
sign
Valor umbral de prueba para demostrar las características y modalidades de las variables.
conso
proceso de consolidación de la clasificación (por defecto TRUE)
n.indi
Número de los índices para dibujar en el histograma (por defecto 25).
x
objeto de la clase FactoClass
X
coordenadas de los elementos de una clase
W
ponderaciones de los elementos de una clase
...
FactoClass utiliza el paquete estadístico ade4 (Chessel et al. 2004) para realizar el análisis factorial de los datos. Estas funciones retornan un objeto de tipo dudi con los valores y vectores propios y las coordenadas factoriales de las filas y columnas. Las demás ayudas a la interpretación se obtienen con la función inertia.dudi.
Las funciones dudi de ade4 reciben los datos en un objeto data.frame y utlizan todas las columnas como activas. El paquete ade4 tiene varias funciones para obtener los planos factoriales; si embargo en FactoClass se incluye la función planfac que recibe un objeto dudi y produce un plano factorial similar a los del paquete ade4.
La función ward.cluster transforma la distancia euclidiana en distancia de Ward y llama la función hclust del paquete básico stats. En ward.cluster se incluye una gráfica de los índices de nivel para facilitar la decisión de cuántas clases seleccionar para la partición.
La función kmeans de stats no maneja pesos distintos para las filas. Estos pesos influyen en los centros de gravedad y en las inercias intra de las clases. Se modificó (Campo, 2007) esta función para incluir los pesos de las filas y obtener las inercias intra clases; se nombra kmeansW. En su opción por defecto la función kmeans utiliza el algoritmo de Hartigan & Wong (1979).
Para la caracterización de las clases, se incluye la función cluster.carac, donde se calculan los valores test y se retorna un objeto list con información similar a la que se obtiene en los programas SPAD (Lebart et al. 1999) y DTM (Lebart 2007).
La función analisis.clus calcula las características geométricas de cada clase: el tamaño, la inercia, el peso y el cuadrado de la distancia de origen.
Para impresión en formato de látex ver FactoClass.tex ()
Para dibujar planos factorial ver con el grupo plotFactoClass (), recibe un objeto de tipo FactoClass y produce el plano factorial solicitado.

Objeto de la clase FactoClass:
dudi
objeto de la clase dudi de ade4 con las especificaciones del análisis factorial
nfcl
número de ejes seleccionados para la clasificación
k
número de clases
indices
tabla de los índices obtenidos mediante el método de WARD
cor.clus
coordenadas de los grupos
clus.summ
resumen de los grupos
cluster
vector que indica el grupo de cada uno de los elementos
carac.cate
caracterización del grupo por variables cualitativas
carac.cont
caracterización del grupo por las variables cuantitativas
carac.frec
caracterización del grupo por las variables frecuencia activa

El término clasificación se utiliza como sinónimo de análisis o formación de conglomerados o clasificación no supervisada. En ningún momento hace referencia a la clasificación supervisada o discriminación

Ejemplos [Package FactoClass version 0.7.1
# El análisis de clusters con el Análisis de Correspondencias
data(ColorAdjetive)
FC.col <-FactoClass(ColorAdjetive, dudi.coa)
6
10
5
FC.col
FC.col$dudi
# El análisis de clusters con el Análisis de Correspondencias Múltiples
data(BreedsDogs)
BD.act <- BreedsDogs[-7] # active variables
BD.ilu <- BreedsDogs[7] # ilustrative variables
FC.bd <-FactoClass( BD.act, dudi.acm, k.clust = 4,scanFC = FALSE, dfilu = BD.ilu, nfcl = 10)
FC.bd
FC.bd$clus.summ
FC.bd$indices

Autores
  • Pedro Cesar del Campo {pcdelcampon@unal.edu.co},
  • Campo Elías Pardo mailto:%7Bcepardot@unal.edu.co} {http://www.docentes.unal.edu.co/cepardot},
  • Mauricio Sadinle {msadinleg@unal.edu.co}

Referencias
El paquete FactoClass se instala en R (versión 2.4.1 en adelante) a partir del zip disponible en la página: http://www.docentes.unal.edu.co/cepardot/docs/
§ Campo Elías Pardo & Pedro César Del Campo, Combinación de métodos factoriales y de análisis de conglomerados en R, Revista Colombiana de Estadística 30 (2007) 231–245
§ Chessel, D., Dufour, A. B. & Thioulouse, J. (2004), ‘The ade4 Package - I: One table Methods’, R News 4(1), 5–10.
§ Dahl, D. B. (2006), xtable: Export Tables to LaTeX or HTML. David B. Dahl with contributions from many others. R package version 1.4-2
§ Lebart, L. (2007), ‘DTM. Data and Text Mining’, Software. *http://ses.enst.fr/lebart/
§ Lebart, L., Morineau, A. & Piron, M. (1995), Statisitique exploratoire multidimensionnelle, Dunod, Paris.
§ Lebart, L., Morineau, A., Lambert, T. & Pleuvret, P. (1999), SPAD. Système Pour l’Analyse des Donèes, Paris. *http://www.spad.eu
§ R Development Core Team (2007a), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. *http://www.R-project.org


miércoles, 1 de julio de 2009

SINTESIS CARTOGRAFIADO DE TEXTOS




El objetivo de esta tesis es exponer nuevas estrategias metodológicas de minería de texto aptas para emplear los cartografiados de datos como representación del contenido de los textos. Se propone un marco metodológico que constituye un “protocolo para el proceso de estudio de datos textuales”.
La metodología general propuesta comporta en su realización cuatro fases: [1] adquisición terminológica, [2] control del vocabulario, [3] clasificación de los términos y textos (constitución de los cartografiados), [4] descripción conceptual de los clusters y comentario de los mapas. Dos fases son asistidas por la computadora (1 y 3), mientras que las otras dos (2 y 4) implican la intervención humana, aquélla de los expertos del campo de aplicación. El enfoque estadístico textual (fase 3) proporciona el soporte objetivo para que los expertos precisen cuál es el (
1) significado conceptual de los clusters (fase 4).
Se busca (
2) principalmente investigar la existencia grupos de unidades de observación que se caracterizan por la utilización de un lenguaje similar. Esto implica que el conocimiento que se obtiene de los individuos está basado en la identificación de si dicen aproximadamente lo mismo, y no en lo que dicen. La lectura de las diferentes salidas del análisis le permite al investigador tener una idea bastante general del conocimiento presente en los textos.
Las posibles técnicas de la Estadística Textual son diversas; mi interés se centra en los métodos de análisis de correspondencias y clasificación automática, dos métodos exploratorios multivariantes complementarios adecuados al tratamiento de datos cualitativos. La propuesta involucra la aplicación de estos métodos, a tablas específicas creadas a partir de los datos textuales. Estos se completan con métodos propios del dominio textual como los glosarios de palabras, las concordancias y la selección del vocabulario más específico de cada texto, para así proveer una herramienta comparativa.
En esta propuesta, qué métodos aplicar, cuándo y cómo, depende de dos tipos de estudio: “análisis de respuestas abiertas” (ARA) o el “estudio diferencial de textos” (EDT). Para el ARA, el objetivo es la comparación de opiniones escritas para encontrar similitudes y diferencias entre los individuos e identificarlos por sus características de grupo utilizando la información cerrada que califica los individuos. Estos, pueden provenir de encuestas, entrevistas, cuestionarios, blogs, e-mail u otro medio que permite expresar la opinión escrita de una persona sobre un tema. En el caso del EDT, el objetivo es el análisis comparativo de fragmentos de textos. Estos, pueden provenir de una observación para estudios constituidos por un conjunto de artículos de periódicos o incluso, encuestas o test psicológicas, textos literarios o científicos.
Esta clasificación es el 1º paso para realizar el estudio de textos, el procedimiento a seguir será diferente se esté en un caso u otro. Para determinar el enfoque, se debe observar el objetivo del estudio y la fuente o instrumento de observación de donde provienen los textos a analizar.

1 La parte más importante del trabajo de los expertos es analizar los clusters con el objetivo de determinar su significación conceptual, y caracterizar en función de esta significación el cartografiado en el cual la posición relativa de los clusters se encuentra representada.2 El problema que motiva un análisis estadístico puede ser tratar de formalizar un modelo probabilístico a priori; o bien, puede estar planteado en términos generales con el objetivo de explorar un universo tomado en consideración.

La guía metodológica propuesta, permite el análisis léxico de los textos y especialmente la construcción automática de estructuras de clasificación que se codifican en forma de tesauros. En cada etapa o procedimiento se obtienen una serie de resultados con la interpretación y validación estadística de los indicadores de conocimiento que se van obteniendo, de esta manera al finalizar se integra en un informe global todas las conclusiones.
Para ambos enfoques el protocolo propone en primer lugar procedimientos de corrección y normalización de los textos y codificación de textos individuales, preparación de las tablas con datos complementarios y confección de los ficheros con los datos. Con el fichero con la variable léxica y cualitativas se procede a la segmentación del corpus, se obtienen las unidades de análisis básicas: formas, lemas, segmentos, etc. Se logra el (1) glosario con las unidades léxicas sobre la cuál se realizan procedimientos como el estudio de la Riqueza del vocabulario, la Desambiguación y la Lematización para finalmente obtener el diccionario con las unidades seleccionadas. A partir del glosario se confecciona la tabla léxica base (2). A partir de esta formamos los “Cartografiados de textos” mediante la aplicación del (3) análisis factorial y métodos de clasificación sobre los factores. Se incluye la caracterización y (4) validación de clusters y su visualización en los mapas. Opcionalmente se incluye el estudio de la especificidad del vocabulario para cada texto individual y el análisis de asociación de palabras (lemas), para el enfoque EDT. A partir de la tabla léxica transpuesta se confeccionan otras tablas (5) en función de datos complementarios. A partir de cada una de estas confeccionamos el o los “Cartografiados de textos”. Se incluye la caracterización y validación de grupos según datos complementarios. Opcionalmente se incluye el estudio de la especificidad del vocabulario para cada grupo de textos. En estas estrategias se proponen procedimientos relacionados al estudio de la “inercia” para detectar textos elementales o grupos de textos extremos que afectan la proyección de la información en el mapa. El uso de la proyección “ilustrativa” trae muchas ventajas y es parte de la propuesta. Los métodos de clasificación conducirán a la construcción de clases de individuos homogéneas en cuanto al vocabulario empleado, o a la determinación de grupos de palabras que suelen ser empleadas por los mismos individuos y que delimitan, por tanto, campos semánticos o temáticas conectadas entre sí. La clasificación de los individuos o unidades textuales puede realizarse a partir de las coordenadas de estos tras llevar a cabo un análisis factorial. El estudio de concordancia se utilizará tanto el la preparación del vocabulario, como en la interpretación de los resultados, para clarificar dudas respecto al contexto de ciertos lemas o palabras claves.

[1] Para el EDT se tratan dos glosarios uno con lemas conseguidos por un lematizador automático y otro con palabras y segmentos seleccionados.[2] Tabla de contingencia “individuos * unidades elementales”[3] El Análisis de Correspondencias es aplicado, en el marco de la Estadística Textual, a tablas de contingencia en las que disponemos de información sobre la frecuencia en que aparecen determinadas unidades textuales en distintos textos o partes de un corpus textual considerado.[4] Los valores-test conforman una herramienta de caracterización de un eje factorial de un AC a partir de las modalidades de una variable suplementaria o de un grupo o cluster obtenido a través de un método de clasificación[5] Tabla agregada “unidades elementales* grupos individuos”