Desarrollo de estratégias bioinformáticas para el análisis genómico funcional de datos provenientes de secuenciación masiva

Título

Desarrollo de estratégias bioinformáticas para el análisis genómico funcional de datos provenientes de secuenciación masiva

Colaborador

Lew, Sergio
Paniego, Norma

Editor

Universidad de Buenos Aires. Facultad de Ingeniería

Fecha

2020-12-04

Extensión

159 p.

Resumen

El ensamblado de-novo del transcriptoma de especies sin genoma de referencia es un tema de preocupación para muchos investigadores a partir del acceso a las tecnologías de secuenciación masiva de los laboratorios de ciencias biológicas. Existe una brecha de investigación sobre que metologías aplicar en cada ensayo, para la obtención de un ensamblado de-novo de calidad. Tampoco hay consenso en cuanto a métricas de calidad adecuadas para evaluar de manera individual o comparativa los ensamblados conseguidos. Ante este panorama, este trabajo aborda el análisis del desempeño de las herramientas bioinformáticas y métricas de calidad más comúnmente utilizadas para la reconstrucción denovo y evaluación de transcriptomas ensamblados a partir de lecturas cortas (RNA-Seq) y propone una estrategia de optimización sobre los resultados. Durante el desarrollo de la Tesis se simularon conjuntos de datos de lecturas de secuenciación transcriptómica, con diferentes grados de complejidad y basados en datos reales de alta calidad. Se ensayó el funcionamiento de programas de ensamblado de acceso público y diferentes estrategias de mejora sobre los resultados primarios. Para clasificar y comparar los ensamblados obtenidos bajo distintas condiciones se utilizaron un grupo de métricas dependientes e independientes de referencia. Estas métricas se analizaron en forma individual y en conjunto a través de análisis multivariados. A partir de los resultados obtenidos se identificaron las variables nivel de splicing alternativo seguido por el tamaño de fragmento de las lecturas pareadas (PE) como las de mayor incidencia sobre la calidad de los ensamblados. Analizando los ensamblados obtenidos a partir de diferentes valores de las variables tamaño de lectura (SE) y tamaño de fragmento (PE) se detectaron problemas de muestreo asociados a la distribución de tamaños de transcriptos, al tamaño y cantidad de exones y a los niveles de splicing alternativo. Se implementaron diferentes estrategias de agrupamiento de ensamblados, las que no produjeron mejoras en los resultados finales, aumentando los niveles de error y redundancia. Se trabajó en la caracterización y modelado de los diferentes tipos de errores producidos en los ensamblados como base para una estrategia de filtrado de contigs erróneos y se entrenaron clasificadores para predecir la probabilidad de que un contig se encuentre correctamente ensamblado. Los resultados obtenidos realzan la importancia de obtener ensamblados con una mayor cantidad de genes representados, en lugar de intentar resolver todas las isoformas de splicing implementando estrategias de agrupamiento que aumentan las tasas de error.


De-novo transcriptome assembly of species without a reference genome is a common problem among researchers working in functional genomics. Although programs and routines for the assembly of transcriptomes are continuously published, the quality of de novo assemblies using short readings is limited by different error types. One issue to overcome is the research gap about which methodologies apply in each experiment to obtain a highquality de-novo assembly. Also, it is unclear how accurate the quality metrics are to evaluate assemblies individually or comparatively if different tools and settings were used to obtain multiple de novo transcriptome assemblies. In this context, this work addresses the analysis of the performance of the bioinformatics tools and quality metrics commonly applied to denovo transcriptome assembly using short reads (RNA-Seq). During the development of this work, transcriptomic sequencing datasets were simulated from high-quality real data. Datasets exhibiting different degrees of complexity were used to test assembly programs and different improvement strategies from the primary results. To compare and classify the assemblies obtained, we used a group of dependent and independent of reference metrics. These metrics were analyzed individually and collectively through multivariate analysis. From the obtained results, the level of alternative splicing and the fragment size of the pairend reads (PE) were identified as the variables with the highest incidence on the quality of the assemblies. Analyzing the assemblies obtained from different values of the variables read size (SE) and fragment size (PE), sampling problems associated with the distribution of transcripts sizes, exon numbers, and the splicing levels were detected. Different clustering strategies were implemented, which did not produce improvements in the final results, increasing the levels of error and redundancy. We also worked on the characterization and modeling of the different types of errors produced in the assemblies. Then, we trained different classifiers to predict the probability that a contig is correctly assembled, which can be use for erroneous contigs filtration. The results obtained highlight the importance of obtaining assemblies with a greater number of represented genes, instead of trying to solve all splicing isoforms by implementing clustering strategies that increase error rates.