32 research outputs found
Automatic language-independent detection of multiword descriptions for text summarization
En las últimas dos décadas un aumento exponencial de la información electrónica provoca una gran necesidad de entender rápidamente grandes volúmenes de información. En esta tesis se desarrollan los métodos automáticos para producir un resumen. Un resumen del texto es un texto corto que transmite la información más importante del documento o de una colección de documentos. El tipo de resúmenes con el cual trabajamos en esta tesis son resúmenes extractivos: una selección de las oraciones del texto más importantes. Otros retos consisten en generar resúmenes de manera independiente de lenguaje y dominio.
La primera contribución de esta tesis consiste en identificar cuatro etapas para generación de resúmenes extractivos. La primera etapa es la selección de términos donde uno tiene que decidir que unidades contarían como los términos individuales. El proceso de estimación de la utilidad de los términos individuales se llama la etapa de pesado de términos. El siguiente paso se denota como pesado de oraciones donde todas las secuencias reciben alguna medida numérica de acuerdo a la utilidad de términos. Finalmente, el proceso de selección de las oraciones más importantes se llama selección de oraciones. Los diferentes métodos para generación de resúmenes extractivos se pueden ser caracterizados como representan estas etapas.
Las contribuciones principales en la etapa de selección de términos que hemos propuesto es la detección de descripciones multipalabra considerando Secuencias Frecuentes Maximales (SFMs), cuales adquieren un significado importante mientras Secuencias Frecuentes (SF) no maximales los cuales son partes de otros SF, no deben de ser consideradas. En la motivación se consideró costo vs. beneficio: existe muchas SF no maximales mientras la probabilidad de adquirir un significado importante es baja. De todos modos, SFMs representan todas SFs en el modo compacto: todas SFs podrían ser obtenidas a partir de todas SFMs explotando cada SFM al conjunto de todas sus subsecuencias.
Otras contribuciones de este trabajo son nuevos métodos basados en grafos, algoritmos de agrupamiento, y algoritmo genético cuales facilitan la tarea de generación de resúmenes de textos. Se ha experimentado diferentes combinaciones de las opciones de selección de términos, pesado de términos, pesado de oraciones y selección de oraciones para generar los resúmenes extractivos de textos independiente de lenguaje y dominio para una colección de noticias. Se ha analizado algunas opciones basadas en descripciones multipalabra considerándolas en los métodos de grafos, algoritmos de agrupamiento y algoritmos genéticos. Se ha obtenido los resultados superiores al de estado de arte
Determinación del desempeño de resúmenes generados automáticamente para el idioma español
En la actualidad el crecimiento rápido de internet ha provocado gran cantidad de información que está disponible en formato electrónico que crece de manera exponencial. Esto da lugar a millones de documentos cuya magnitud dificulta en gran medida su manejo. Esto lleva a la búsqueda de nuevos programas que suplan las tareas cada vez más específicas. Por ejemplo, cuando se quiere saber más de un tema es necesario revisar más de un documento ya sea en internet o en la computadora. Después se necesita identificar un documento con mayor relevancia de información para nuestros fines. Lo que facilitaría la tarea de búsqueda es si pudiéramos tomar solamente las partes más relevantes (documentos, renglones, oraciones, frases o palabras) y leer solo lo importante. Precisamente estas partes formarían un resumen de un tema buscado.
Un resumen se define como un texto muy corto que comunica la información más importante del documento original (Ledeneva 2008). Esta tesis se trata de la generación automática de resúmenes, que es una tarea de gran utilidad para hacer las tareas más rápidas con ayuda de una herramienta.
En el presente trabajo se evaluan las diferentes herramientas comerciales tanto en línea como las que son instalables para saber su desempeño en el idioma español. Los experimentos se llevan a cabo sobre el corpus TER (corpus en español). Posteriormente, el desempeño de las herramientas comercioales se compara con el método del estado de arte de (Matias 2016), ya que se había probado como uno de los mejores métodos para los idiomas inglés y portugués (Matias 2013, Ibañez 2013)
Determinación del desempeño de resúmenes generados automáticamente para el idioma español
En la actualidad el crecimiento rápido de internet ha provocado gran cantidad de información que está disponible en formato electrónico que crece de manera exponencial. Esto da lugar a millones de documentos cuya magnitud dificulta en gran medida su manejo. Esto lleva a la búsqueda de nuevos programas que suplan las tareas cada vez más específicas. Por ejemplo, cuando se quiere saber más de un tema es necesario revisar más de un documento ya sea en internet o en la computadora. Después se necesita identificar un documento con mayor relevancia de información para nuestros fines. Lo que facilitaría la tarea de búsqueda es si pudiéramos tomar solamente las partes más relevantes (documentos, renglones, oraciones, frases o palabras) y leer solo lo importante. Precisamente estas partes formarían un resumen de un tema buscado.
Un resumen se define como un texto muy corto que comunica la información más importante del documento original (Ledeneva 2008). Esta tesis se trata de la generación automática de resúmenes, que es una tarea de gran utilidad para hacer las tareas más rápidas con ayuda de una herramienta.
En el presente trabajo se evaluan las diferentes herramientas comerciales tanto en línea como las que son instalables para saber su desempeño en el idioma español. Los experimentos se llevan a cabo sobre el corpus TER (corpus en español). Posteriormente, el desempeño de las herramientas comercioales se compara con el método del estado de arte de (Matias 2016), ya que se había probado como uno de los mejores métodos para los idiomas inglés y portugués (Matias 2013, Ibañez 2013)
Generación automática de resúmenes independientes del lenguaje
En la actualidad la información en formato digital crece de manera exponencial y ante ello surgen diversas problemáticas, como la sobrecarga de información, redundancia de información, pérdida de información, entre otras. Este tipo de problemas puede ocasionar en los usuarios deficiencia en su trabajo, al no tener el tiempo disponible necesario, para procesar toda la información, ante esto surge la importante necesidad de contar con métodos que permitan la generación automática de resúmenes. Pero además de contar con un método que nos permite generar resúmenes, sería ideal que los métodos generaran resúmenes en cualquier lenguaje, principalmente en el lenguaje que domina el usuario (en nuestro caso el español). Un método de generación automática de resúmenes independientes del lenguaje, trata de contrarrestar los efectos negativos de la sobrecarga de información, además de que permite generar un resumen, independientemente del lenguaje en el que se encuentre el texto original. Según (Ledeneva, 2008) un resumen es un texto corto que transmite la información más importante de un documento de origen. Actualmente existen métodos del estado del arte que dicen ser independientes del lenguaje, pero solo prueban en el lenguaje inglés. Existen otros que son independientes del lenguaje y prueban más de una colección de documentos, pero no en español. Entre los métodos del estado del arte que dicen ser independientes del lenguaje está el propuesto por (Matias, 2013), el cual obtienen buenos resultados para el lenguaje inglés y puede trabajar con otros lenguajes. Entonces con referencia a los resultados que se obtienen con el método de (Matias, 2013), en este trabajo se propone el método en los lenguajes: inglés, portugués y español. Además se ajustaron los parámetros de las etapas: pre-procesamiento, modelo de texto, importancia de las oraciones, función de aptitud y el operador de selección, para tratar de mejorar la calidad de los resúmenes. Las colecciones de documentos utilizadas en este trabajo son, para inglés la colección DUC2002, para portugués la colección TeMário y para el lenguaje español TER. La colección TER es una aportación de este trabajo, la cual es una colección de noticias de un periódico mexicano (La crónica) especialmente para el uso de resúmenes. Los resúmenes resultantes son evaluados con la herramienta ROUGE la cual permite comparar los resúmenes generados a partir del método con los resúmenes generados por un humano. Los resultados obtenidos de los experimentos con cada una de las colecciones se comparan con los resultados obtenidos con los resúmenes generados con las herramientas comerciales 5 y otros métodos del estado del arte. Los resultados obtenidos con el método propuesto en todos los lenguajes superan tanto a las herramientas comerciales como a los métodos del estado del arte
Evaluación de sistemas de extracción de frases clave.
El manejo de información en la actualidad es un factor de gran importancia dentro de los
sectores públicos y privados. Con el crecimiento constante de los volúmenes de información
electrónica, ésta requiere ser organizada para su uso. Con la tecnología que se cuenta hoy
en día, el manejo de la información se ha facilitado. Dentro del área de Procesamiento de
Lenguaje Natural una de las disciplinas que la integran es la Recuperación de Información (RI).
La RI es el proceso de encontrar en un repositorio grande de datos, material (usualmente
documentos) de naturaleza no estructurada (usualmente texto) o semiestructurada (páginas
Web) que satisfaga una necesidad de información [Manning 09]. Para lograr la RI, existen
varios sistemas, estos reciben el nombre de sistemas de recuperación de información. Un
Sistema de Recuperación de Información (SRI) consiste básicamente de un conjunto de
procesos interrelacionados que permiten obtener información de interés, a partir de una
determinada consulta [Jiménez 03].
Un ejemplo de un SRI es un buscador Web, ya que se ingresa una búsqueda y este devuelve
los resultados que han coincidido con el texto de entrada.Hoy en día, la cantidad de información electrónica en forma de texto ha aumentado considerablemente por lo que una búsqueda de información puede traer consigo varios documentos recuperados. Posteriormente, los documentos recuperados se tienen que revisar para saber si contienen lo que realmente se busca. Una manera de simplificar una búsqueda es el empleo de palabras o frases clave ya que actúan como filtro en un campo de búsqueda. Las palabras o frases clave se utilizan en muchas áreas, por ejemplo, la mercadotecnia y publicidad, en donde el objetivo es capturar la atención del público. De igual forma, en todo aquello que se quiere dar a conocer hacia el público en general. Ya sean documentos de textos impresos o electrónicos, las frases clave ayudan al lector mostrándole las ideas principales del texto. En esta tesis, se comparan los sistemas de extracción automática de frases clave sobre un conjunto de artículos científicos utilizados en la tarea 5 del SemEval-2010, con el objetivo de conocer qué sistemas pueden encontrar las frases clave que fueron propuestas por un ser humano. En la experimentación se presentan los resultados de la comparación entre los sistemas instalables y en línea. Por último, los resultados de la evaluación se comparan con los de la tarea 5 del SemEval-2010
DESEMPEÑO DE LOS MÉTODOS DEL ESTADO DEL ARTE PARA LA GENERACIÓN AUTOMÁTICA DE RESÚMENES EXTRACTIVOS PARA EL CORPUS TEXTRUSS
Hoy en día la información digital crece de manera exponencial. Por esto, cuando se realiza una investigación sobre un tema específico en un motor de búsqueda (Google Search, Yahoo! Search) nos genera demasiados resultados, por lo cual se complica revisar todos los documentos recuperados que contengan las palabras de la consulta. Uno de los recursos más eficientes utilizados por los usuarios para condensar el volumen de información es el uso de resúmenes.
Un resumen es un texto corto producido a partir de uno o más documentos, clasificado en abstractivo o extractivo. El resumen extractivo se crea a partir de la selección de oraciones sobresalientes del texto original, por otro lado, el resumen abstractivo consiste en interpretar el texto en menos palabras.
Además, existen dos tareas en la generación de un resumen: a partir de un solo documento o a partir de múltiples documentos. El resumen generado de un solo documento consiste en generar un texto corto, mientras que el resumen generado por múltiples documentos consiste en generar un texto corto con los elementos relevantes de éstos.
En este trabajo de tesis se utiliza el resumen de tipo extractivo y con la tarea de un solo documento.
Se han elaborado diversos trabajos que determinan el desempeño de las herramientas comerciales y métodos del estado del arte para la generación automática de resúmenes en el idioma inglés, español, portugués y ruso; utilizando conjuntos de documentos como entrada llamados corpus, los cuales son orientados al dominio de noticias. Sin embargo, en el caso del idioma ruso no se han utilizado diversos métodos del estado del arte.
En este trabajo de tesis se determina el desempeño de los métodos del estado del arte para la generación automática de resúmenes extractivos de un solo documento utilizando el corpus TEXTRUSS, por medio de la herramienta de evaluación ROUGE (Lin, 2004), utilizando la medida F-measure como indicador de evaluación.
Se realizaron experimentos con diferentes configuraciones de parámetros de los métodos del estado del arte para la generación automática de resúmenes en el idioma ruso. Además, se comparan los resultados de los métodos del estado del arte para determinar su desempeño
Extracción de palabras en twitter utilizando patrones léxicos
Hoy en día, la mayoría de personas tiene la necesidad de usar internet para mantenerse actualizados teniendo acceso ilimitado a la información, entre ellos se encuentra la necesidad de utilizar las redes sociales para comunicarse con familiares o amigos y compartir intereses en común sin importar la distancia (Echeverría, 2013).
Existe una gran cantidad de medios sociales ofrecidos por internet como Twitter que es una red social de servicios web de micro-blogs muy populares, fue fundada en 2006 y en tan solo 10 años se ha convertido en una de las redes sociales más populares del internet, con más de 600 millones de usuarios.
Según la estadística de Miniwatts Marketing Group (MMG, 2017), en abril del presente año existían 3,739,698,500 usuarios en internet, lo que significa que más de 16.5% de personas usan Twitter como medio de comunicación. La Fundación Española de la Ciencia y la Tecnología (FECYT, 2017) en abril del presente año, presento los resultados de la VIII Encuesta de la Percepción Social de la Ciencia, menciona que las redes sociales se sitúan como la fuente preferida de los ciudadanos para informarse sobre temas científicos, en un porcentaje de un 43,6%.
Twitter permite a los usuarios de la red enviar mensajes cortos de hasta 140 caracteres de texto, llamados “tweets”, compartiendo información de cualquier actividad diaria que expresa intereses en tiempo real.
Debido a la gran cantidad de texto generada por cada usuario, se convierte en una mina de datos por explorar, conocer y abundar de manera más profunda o analítica, para ello es necesario obtener información de los tweets que resulten relevantes a una temática en específico. En los miles de millones de tweets que circulan en la red diariamente se pueden encontrar diversos temas de interés para fines diversos como tendencias, preferencias, aptitudes, experiencia, marketing, entre otros a través de palabras clave.
Las palabras clave son palabras que capturan los temas principales de un documento y benefician tareas de procesamiento del lenguaje natural como: resúmenes, recuperación de información y respuesta a preguntas (Kim et al., 2010).
En esta tesis, para la tarea de extracción de palabras clave se identifica un conjunto de características en común que hay dentro de un texto, las cuales trabajan a nivel léxico, denominado, patrones léxicos.
Los patrones léxicos son secuencias de caracteres generadas a través de reglas (definidas por el lenguaje), las cuales representan palabras candidatas a ser palabras clave (Hernández, 2016), (Gallegos, 2016). Pueden ser obtenidas a partir de secuencias con un número de repeticiones llamadas secuencias frecuencias maximales (García, 2004), (García, 2006), (Camacho, 2015).
En el presente trabajo, se extraen palabras clave a partir de patrones léxicos en Twitter, se realizaron experimentos con el corpus “Opinosis” que está constituido por 51 archivos que cuentan con tweets, se crearon dos gold standard: el primero está conformado por palabras clave como frases nominales (Bellaachia et al., 2014) y el segundo se conforma por palabras clave donde cada archivo cuenta con palabras clave asignadas manualmente.
Los resultados obtenidos en esta tesis se comparan con los métodos del estado del arte: TF-IDF (Hasan & Ng, 2010). y TextRank (Hasan & Ng, 2010), que son considerados métodos no supervisados para la extracción de palabras clave
EXTRACCIÓN DE FRASES CLAVE UTILIZANDO PATRONES LÉXICOS A PARTIR DE RESÚMENES DE ARTÍCULOS CIENTÍFICOS
Hoy en día personas buscan la mejor forma de adquirir conocimiento y aprendizaje, sin embargo, este conocimiento se encuentra dentro de documentos con cantidades enormes de información, es por eso que las personas requieren un acercamiento al contenido, para poder determinar si es o no relevante para ellas.
Las frases clave captan la idea principal de un documento y dan al lector una descripción del mismo. No obstante su asignación manual resulta costosa y se tiene que invertir mucho tiempo. Este inconveniente ha llevado a que investigadores busquen métodos que permitan extraer frases clave de manera automática y que éstas contengan la información principal de un documento. Es ahí donde inicia la tarea de extracción de frases clave, la que consiste en dos etapas: la identificación de frases clave candidatas y la selección de frases clave.
En el presente trabajo de tesis, se extraen frases clave a partir de patrones léxicos para los resúmenes de artículos científicos en el idioma inglés.
Se realizan los experimentos con el corpus de Inspec, el cual está constituido por 2000 resúmenes de artículos científicos en el idioma inglés. Cada resumen cuenta con 2 conjuntos de frases clave asignadas manualmente por un experto.
Se comparan los resultados obtenidos con otros métodos del estado del arte
Cálculo de Topline para la generación automática de resúmenes usando algoritmos genéticos.
Evaluación de las herramientas comerciales para la clasificación de tuits para el idioma español
En la actualidad la mayoría de las personas hacen uso de internet para estar actualizados de lo que pasa en el mundo, entre esta necesidad se encuentra el hacer uso de las redes sociales con las cuales pueden mantenerse en comunicación con familiares y amigos, así como encontrar páginas de su interés.
Hay diferentes redes sociales que son ofrecidas por internet entre las cuales se encuentra TWITTER, la cual fue fundada en 2006. Es un servicio web de micro-blogs que en casi 11 años esta red social tiene cerca de 600 millones de usuarios.
Según la estadística de Miniwatts Marketing Group [MMG, 2017], en abril del presente año existían 3,739,698,500 usuarios en internet, lo que significa que el 16.5% del total de personas que usan Twitter como medio de comunicación. La Fundación Española de la Ciencia y la Tecnología [FECYT, 2016] del 20 de octubre al 10 de diciembre de 2016, presentaron los resultados de la VIII Encuesta de la Percepción Social de la Ciencia, menciona que las redes sociales se sitúan como la fuente preferida de los ciudadanos para informarse sobre temas científicos, en un porcentaje de un 43,6% de la población total encuestada (6357 entrevistas).
Twitter permite a los usuarios de la red enviar mensajes cortos de hasta 140 caracteres de texto, llamados “tuits”, compartiendo información de cualquier actividad diaria que expresa intereses en tiempo real.
La cantidad de información generada por los usuarios se convierte en una mina de datos en internet, si la información generada se trata de algún producto o servicio, esta información es relevante para las diversas compañías que se encuentran en una lucha constante por sobresalir una de la otra.
En este trabajo de tesis se presenta una investigación relacionada al Análisis de Sentimientos (AS), sobre frases escritas en Twitter llamados tuits acerca de diversos temas de los cuales se pretende conocer si el tuit contiene algún sentimiento. Se trabaja con un corpus proporcionado por parte del Taller de Análisis de Sentimientos en Español (TASS). Se evalúan las herramientas comerciales del estado del arte, se presentan los resultados y comparación de la evaluación
