Cómo convertir los datos en bruto en una matriz de análisis predictivo

Antes de poder extraer grupos de elementos de datos similares de su conjunto de datos para su proyecto de análisis predictivo, puede que tenga que representar los datos en un formato tabular conocido como matriz de datos

. Se trata de un paso de preprocesamiento que viene antes de la agrupación de datos.

¿Cómo crear una matriz de análisis predictivo de los términos en los documentos

Supongamos que el conjunto de datos que usted está a punto de analizar está contenida en un conjunto de documentos de Microsoft Word. Lo primero que hay que hacer es convertir el conjunto de documentos en una matriz de datos. Varias herramientas comerciales y de código abierto pueden manejar esa tarea, produciendo una matriz, en la que cada fila corresponde a un documento en el conjunto de datos. Ejemplos de estas herramientas incluyen RapidMiner y paquetes texto mineras R.

LA documento es, en esencia, un juego de palabras. LA término es un conjunto de una o varias palabras.

Cada término que un documento contiene se menciona una vez o varias veces en el mismo documento. El número de veces que un término se menciona en un documento puede ser representado por frecuencia de los términos (TF), un valor numérico.

Construimos la matriz de términos en el documento de la siguiente manera:


  • Los términos que aparecen en todos los documentos se enumeran en la fila superior.

  • Títulos de los documentos se enumeran abajo de la columna de la izquierda

  • Los números que aparecen dentro de las células de la matriz corresponden a la frecuencia de cada término.

Por ejemplo, Documento A se representa como conjunto de números (5,16,0,19,0,0.) Donde 5 corresponde al número de veces que el término análisis predictivo se repite, 16 corresponde al número de veces Ciencias de la Computación se repite, y así sucesivamente. Esta es la forma más sencilla de convertir un conjunto de documentos en una matriz.

Predictive AnalyticsCiencias de la ComputaciónAprendizajeClustering2013Antropología
El documento A51601900
Documento B862300
Documento C052339
Documento D1913467
Documento E216160213
Documento F130191642

Fundamentos de la selección de términos de análisis predictivo

Uno de los retos en los documentos de texto de clustering es determinar cómo seleccionar las mejores condiciones para representar a todos los documentos de la colección. ¿Qué tan importante es un término en una colección de documentos se puede calcular de distintas maneras.


Si, por ejemplo, se cuenta el número de veces que un término se repite en un documento y comparar ese total con la frecuencia con que se repite en toda la colección, se obtiene una idea de la importancia de la palabra en relación con otros términos.

Basando la importancia relativa de un término en su frecuencia en una colección es a menudo conocido como ponderación. El peso que se asigne puede basarse en dos principios:

  • Términos que aparecen varias veces en un documento se ven favorecidos sobre los términos que aparecen sólo una vez.

  • Términos que se utilizan en relativamente pocos documentos son favorecidos sobre los términos que se mencionan en todos los documentos.

Si (por ejemplo) el término siglo se menciona en todos los documentos en su conjunto de datos, entonces no puede ser que considere asignándole el peso suficiente para tener una columna propia en la matriz.

Del mismo modo, si usted está tratando con un conjunto de datos de los usuarios de una red social en línea, usted puede convertir fácilmente ese conjunto de datos en una matriz. ID de usuario o nombres ocuparán el rows- las columnas enumerarán las características que mejor describen esos usuarios.




» » » » Cómo convertir los datos en bruto en una matriz de análisis predictivo