Глава
Optimizing Computational Infrastructure for Large Language Models in Bioinformatics: A Case Study
В книге
В статье формулируется проблема построения широко применимой и гибкой Концептуальной Метаграмматики (КМГ). Так предлагается называть набор правил, позволяющих шаг за шагом построить семантическое представление (или, в другой терминологии, представление значения текста) практически произвольных предложений и связных текстов (дискурсов), относящихся к сферам массовой профессиональной деятельности человека. Это мнение обосновано тем, что первая версия широко применимой и гибкой КМГ уже имеется в научной литературе. Высказывается гипотеза о том, что определение класса СК-языков (стандартных концептуальных языков), предоставляемое теорией К-представлений (концептуальных представлений), может интерпретироваться как первая версия широко применимой и гибкой КМГ. Текущая версия теории К-представлений излагается в монографии автора, опубликованной издательством Шпрингер в 2010 г. Заключительная часть статьи описывает связи с близкими подходами, в частности, с исследованиями по созданию Мультилингвистического Семантического Веба.
Статья является текстом часового пленарного доклада на открытии 18- международной конференции по автоматической обработке естественных языков (Франция, Университет Монпелье 2, 27 июня – 1 июля 2011 года).
The paper describes the structure and possible applications of the theory of K-representations (knowledge representations) in bioinformatics and in the development of a Semantic Web of a new generation. It is an original theory of designing semantic-syntactic analyzers of natural language (NL) texts with the broad use of formal means for representing input, intermediary, and output data. The current version of the theory is set forth in a monograph by V. Fomichov (Springer, 2010). The first part of the theory is a formal model describing a system consisting of ten operations on conceptual structures. This model defines a new class of formal languages – the class of SK-languages. The broad possibilities of constructing semantic representations of complex discourses pertaining to biology are shown. A new formal approach to developing multilingual algorithms of semantic-syntactic analysis of NL-texts is outlined. This approach is realized by means of a program in the language PYTHON.
Этот том охватывает некоторые темы, связанные со стремительно развивающейся сферой биомедицинской информатики. С 11 по 12 июня 2010 года был организован симпозиум под названием «Оптимизация и анализ данных в биомедицинской информатике», который проходил в институте The Fields. Благодаря этому событию на основе выступлений были сделаны основные выводы, а также на основе высказываний лидирующих экспертов были собраны дополнительные главы. В этой публикации авторы делятся своими знаниями и опытом современных исследований, объединяя исследования в различных дисциплинах и подчеркивая ценность математических методов в сфере клинических наук.
The lion's share of bacteria in various environments cannot be cloned in the laboratory and thus cannot be sequenced using existing technologies. A major goal of single-cell genomics is to complement gene-centric metagenomic data with whole-genome assemblies of uncultivated organisms. Assembly of single-cell data is challenging because of highly non-uniform read coverage as well as elevated levels of sequencing errors and chimeric reads. We describe SPAdes, a new assembler for both single-cell and standard (multicell) assembly, and demonstrate that it improves on the recently released E+V−SC assembler (specialized for single-cell data) and on popular assemblers Velvet and SoapDeNovo (for multicell data). SPAdes generates single-cell assemblies, providing information about genomes of uncultivatable bacteria that vastly exceeds what may be obtained via traditional metagenomics studies. SPAdes is available online (http://bioinf.spbau.ru/spades). It is distributed as open source software.
Error correction of sequenced reads remains a difficult task, especially in single-cell sequencing projects with extremely non-uniform coverage. While existing error correction tools designed for standard (multi-cell) sequencing data usually come up short in single-cell sequencing projects, algorithms actually used for single-cell error correction have been so far very simplistic.
We introduce several novel algorithms based on Hamming graphs and Bayesian subclustering in our new error correction tool BAYESHAMMER. While BAYESHAMMER was designed for single-cell sequencing, we demonstrate that it also improves on existing error correction tools for multi-cell sequencing data while working much faster on real-life datasets. We benchmark BAYESHAMMER on both k-mer counts and actual assembly results with the SPADES genome assembler.
P { margin-bottom: 0.21cm; }A:link { }
Исследование репертуара TCR монозиготных и дизиготных близнецов с помощью биоинформатических методов. Показаны особенности TCR репертуаров близнецов и методы анализа.
Abstracts of the Ninth International Conference on Bioinformatics of Genome Regulation and Structure\Systems Biology. Printed without editing.