CARTOGRAFIADO DE DATOS. La Imagen de los datos permite brindar una representación de toda la estructura de la información en un sólo gráfico, aunque estos datos sean numéricos, alfanuméricos o textuales, precisos o imprecisos. Además permite, visualizar las relaciones multidimensionales que puedan existir entre ellos, permitiendo brindar un diagnóstico por imagen, una rápida y completa comunicación e interpretación de la información contenida en los datos.

miércoles, 1 de julio de 2009

SINTESIS CARTOGRAFIADO DE TEXTOS




El objetivo de esta tesis es exponer nuevas estrategias metodológicas de minería de texto aptas para emplear los cartografiados de datos como representación del contenido de los textos. Se propone un marco metodológico que constituye un “protocolo para el proceso de estudio de datos textuales”.
La metodología general propuesta comporta en su realización cuatro fases: [1] adquisición terminológica, [2] control del vocabulario, [3] clasificación de los términos y textos (constitución de los cartografiados), [4] descripción conceptual de los clusters y comentario de los mapas. Dos fases son asistidas por la computadora (1 y 3), mientras que las otras dos (2 y 4) implican la intervención humana, aquélla de los expertos del campo de aplicación. El enfoque estadístico textual (fase 3) proporciona el soporte objetivo para que los expertos precisen cuál es el (
1) significado conceptual de los clusters (fase 4).
Se busca (
2) principalmente investigar la existencia grupos de unidades de observación que se caracterizan por la utilización de un lenguaje similar. Esto implica que el conocimiento que se obtiene de los individuos está basado en la identificación de si dicen aproximadamente lo mismo, y no en lo que dicen. La lectura de las diferentes salidas del análisis le permite al investigador tener una idea bastante general del conocimiento presente en los textos.
Las posibles técnicas de la Estadística Textual son diversas; mi interés se centra en los métodos de análisis de correspondencias y clasificación automática, dos métodos exploratorios multivariantes complementarios adecuados al tratamiento de datos cualitativos. La propuesta involucra la aplicación de estos métodos, a tablas específicas creadas a partir de los datos textuales. Estos se completan con métodos propios del dominio textual como los glosarios de palabras, las concordancias y la selección del vocabulario más específico de cada texto, para así proveer una herramienta comparativa.
En esta propuesta, qué métodos aplicar, cuándo y cómo, depende de dos tipos de estudio: “análisis de respuestas abiertas” (ARA) o el “estudio diferencial de textos” (EDT). Para el ARA, el objetivo es la comparación de opiniones escritas para encontrar similitudes y diferencias entre los individuos e identificarlos por sus características de grupo utilizando la información cerrada que califica los individuos. Estos, pueden provenir de encuestas, entrevistas, cuestionarios, blogs, e-mail u otro medio que permite expresar la opinión escrita de una persona sobre un tema. En el caso del EDT, el objetivo es el análisis comparativo de fragmentos de textos. Estos, pueden provenir de una observación para estudios constituidos por un conjunto de artículos de periódicos o incluso, encuestas o test psicológicas, textos literarios o científicos.
Esta clasificación es el 1º paso para realizar el estudio de textos, el procedimiento a seguir será diferente se esté en un caso u otro. Para determinar el enfoque, se debe observar el objetivo del estudio y la fuente o instrumento de observación de donde provienen los textos a analizar.

1 La parte más importante del trabajo de los expertos es analizar los clusters con el objetivo de determinar su significación conceptual, y caracterizar en función de esta significación el cartografiado en el cual la posición relativa de los clusters se encuentra representada.2 El problema que motiva un análisis estadístico puede ser tratar de formalizar un modelo probabilístico a priori; o bien, puede estar planteado en términos generales con el objetivo de explorar un universo tomado en consideración.

La guía metodológica propuesta, permite el análisis léxico de los textos y especialmente la construcción automática de estructuras de clasificación que se codifican en forma de tesauros. En cada etapa o procedimiento se obtienen una serie de resultados con la interpretación y validación estadística de los indicadores de conocimiento que se van obteniendo, de esta manera al finalizar se integra en un informe global todas las conclusiones.
Para ambos enfoques el protocolo propone en primer lugar procedimientos de corrección y normalización de los textos y codificación de textos individuales, preparación de las tablas con datos complementarios y confección de los ficheros con los datos. Con el fichero con la variable léxica y cualitativas se procede a la segmentación del corpus, se obtienen las unidades de análisis básicas: formas, lemas, segmentos, etc. Se logra el (1) glosario con las unidades léxicas sobre la cuál se realizan procedimientos como el estudio de la Riqueza del vocabulario, la Desambiguación y la Lematización para finalmente obtener el diccionario con las unidades seleccionadas. A partir del glosario se confecciona la tabla léxica base (2). A partir de esta formamos los “Cartografiados de textos” mediante la aplicación del (3) análisis factorial y métodos de clasificación sobre los factores. Se incluye la caracterización y (4) validación de clusters y su visualización en los mapas. Opcionalmente se incluye el estudio de la especificidad del vocabulario para cada texto individual y el análisis de asociación de palabras (lemas), para el enfoque EDT. A partir de la tabla léxica transpuesta se confeccionan otras tablas (5) en función de datos complementarios. A partir de cada una de estas confeccionamos el o los “Cartografiados de textos”. Se incluye la caracterización y validación de grupos según datos complementarios. Opcionalmente se incluye el estudio de la especificidad del vocabulario para cada grupo de textos. En estas estrategias se proponen procedimientos relacionados al estudio de la “inercia” para detectar textos elementales o grupos de textos extremos que afectan la proyección de la información en el mapa. El uso de la proyección “ilustrativa” trae muchas ventajas y es parte de la propuesta. Los métodos de clasificación conducirán a la construcción de clases de individuos homogéneas en cuanto al vocabulario empleado, o a la determinación de grupos de palabras que suelen ser empleadas por los mismos individuos y que delimitan, por tanto, campos semánticos o temáticas conectadas entre sí. La clasificación de los individuos o unidades textuales puede realizarse a partir de las coordenadas de estos tras llevar a cabo un análisis factorial. El estudio de concordancia se utilizará tanto el la preparación del vocabulario, como en la interpretación de los resultados, para clarificar dudas respecto al contexto de ciertos lemas o palabras claves.

[1] Para el EDT se tratan dos glosarios uno con lemas conseguidos por un lematizador automático y otro con palabras y segmentos seleccionados.[2] Tabla de contingencia “individuos * unidades elementales”[3] El Análisis de Correspondencias es aplicado, en el marco de la Estadística Textual, a tablas de contingencia en las que disponemos de información sobre la frecuencia en que aparecen determinadas unidades textuales en distintos textos o partes de un corpus textual considerado.[4] Los valores-test conforman una herramienta de caracterización de un eje factorial de un AC a partir de las modalidades de una variable suplementaria o de un grupo o cluster obtenido a través de un método de clasificación[5] Tabla agregada “unidades elementales* grupos individuos”

No hay comentarios: