Статья
Перспективы использования центров обработки данных при решении задач математической биологии и биоинформатики
В статье анализируется состояние современной «науки о жизни» - вычислительной биологии, рассматривается проблема «больших данных» и способы решения этой крайне актуальной для современной науки задачи, связанной с необходимостью хранения и оперативной аналитической обработки сверхбольших объёмов информации, получаемой в ходе научных экспериментов, анализируется потенциал центров обработки данных и, особенно, модульных центров обработки данных, как основного средства обеспечения научных центров необходимыми, для успешного решения их исследовательских задач, вычислительными ресурсами.
В статье формулируется проблема построения широко применимой и гибкой Концептуальной Метаграмматики (КМГ). Так предлагается называть набор правил, позволяющих шаг за шагом построить семантическое представление (или, в другой терминологии, представление значения текста) практически произвольных предложений и связных текстов (дискурсов), относящихся к сферам массовой профессиональной деятельности человека. Это мнение обосновано тем, что первая версия широко применимой и гибкой КМГ уже имеется в научной литературе. Высказывается гипотеза о том, что определение класса СК-языков (стандартных концептуальных языков), предоставляемое теорией К-представлений (концептуальных представлений), может интерпретироваться как первая версия широко применимой и гибкой КМГ. Текущая версия теории К-представлений излагается в монографии автора, опубликованной издательством Шпрингер в 2010 г. Заключительная часть статьи описывает связи с близкими подходами, в частности, с исследованиями по созданию Мультилингвистического Семантического Веба.
Статья является текстом часового пленарного доклада на открытии 18- международной конференции по автоматической обработке естественных языков (Франция, Университет Монпелье 2, 27 июня – 1 июля 2011 года).
The paper describes the structure and possible applications of the theory of K-representations (knowledge representations) in bioinformatics and in the development of a Semantic Web of a new generation. It is an original theory of designing semantic-syntactic analyzers of natural language (NL) texts with the broad use of formal means for representing input, intermediary, and output data. The current version of the theory is set forth in a monograph by V. Fomichov (Springer, 2010). The first part of the theory is a formal model describing a system consisting of ten operations on conceptual structures. This model defines a new class of formal languages – the class of SK-languages. The broad possibilities of constructing semantic representations of complex discourses pertaining to biology are shown. A new formal approach to developing multilingual algorithms of semantic-syntactic analysis of NL-texts is outlined. This approach is realized by means of a program in the language PYTHON.
Информационные технологии являются важным атрибутом практически всех сфер жизни человека. Они используются на производстве, в процессе предоставления услуг населению, в образовательном процессе, в быту. Тем не менее, область применения информационных технологий постоянно расширяется. В монографии рассмотрен опыт применения информационных технологий для решения отдельных прикладных задач.
Секвенирование человеческого генома началось в 1994 году. Понадобилось 10 лет работы многих научных коллективов для того, чтобы получить черновую последовательность ДНК человека. Современные технологии секвенирования позволяют получать геном конкретного человека за несколько дней. Обсуждаются успехи современной биоинформатики, связанные с появлением высокопроизводительных платформ секвенирования, которые не только способствовали расширению возможностей различных направлений биологии и других смежных наук, но и породили феномен больших данных. Обосновывается необходимость разработки новых технологий и методов для организации хранения, управления, анализа и визуализации больших данных. Современная биоинформатика столкнулась не только с проблемой больших данных, но и с огромным разнообразием методов обработки и представления, одновременным существованием различных программных средств и форматов данных. Обсуждаются пути решения возникших проблем, в частности путем использования наработок работы с большими данными из других областей современной жизни, таких как сетевой анализ и анализ деловых данных. Новые системы управления базами данных, отличные от реляционных, помогут решить проблему хранения больших данных и обеспечения приемлемого времени выполнения поисковых запросов. Новые технологии программирования, такие, как обобщенное программирование и визуальное программирование призваны решить проблему разнообразия форматов геномных данных и обеспечить возможность оперативного создания собственных скриптов для обработки данных.
Издание содержит труды ежегодной конференции молодых ученых и специалистов "Информационные технологии и системы" (ИТиС'10), традиционно организуемой Советом молодых ученых и специалистов ИППИ РАН.
Сборник содержит статьи по всем основным для ИППИ РАН направлениям научной деятельности: теория передачи и защиты информации, математическая теория информации и управления, многокомпонентные случайные системы, информацинно-коммуникационные технологии и их применение в сложных системах и сетях, информационные процесы в живых системах, биоинформатика, компьютерная лингвистика и моделирование естественного языка, высшая математика.
Этот том охватывает некоторые темы, связанные со стремительно развивающейся сферой биомедицинской информатики. С 11 по 12 июня 2010 года был организован симпозиум под названием «Оптимизация и анализ данных в биомедицинской информатике», который проходил в институте The Fields. Благодаря этому событию на основе выступлений были сделаны основные выводы, а также на основе высказываний лидирующих экспертов были собраны дополнительные главы. В этой публикации авторы делятся своими знаниями и опытом современных исследований, объединяя исследования в различных дисциплинах и подчеркивая ценность математических методов в сфере клинических наук.
В статье рассматривается актуальная проблема значительного роста объёмов данных, получаемых, хранимых и обрабатываемых в ходе научной деятельности, в первую очередь в таких областях как биоинформатика и астрофизика. Рассматриваются современные программные методы и компьютерные технологии, используемые для работы со сверхбольшими объёмами данных. Проводится анализ состояния дел в институтах Пущинского научного центра РАН – Институте математических проблем биологии РАН и Пущинской радиоастрономической обсерватории Астрокосмического центра ФИАН им. Лебедева.
The lion's share of bacteria in various environments cannot be cloned in the laboratory and thus cannot be sequenced using existing technologies. A major goal of single-cell genomics is to complement gene-centric metagenomic data with whole-genome assemblies of uncultivated organisms. Assembly of single-cell data is challenging because of highly non-uniform read coverage as well as elevated levels of sequencing errors and chimeric reads. We describe SPAdes, a new assembler for both single-cell and standard (multicell) assembly, and demonstrate that it improves on the recently released E+V−SC assembler (specialized for single-cell data) and on popular assemblers Velvet and SoapDeNovo (for multicell data). SPAdes generates single-cell assemblies, providing information about genomes of uncultivatable bacteria that vastly exceeds what may be obtained via traditional metagenomics studies. SPAdes is available online (http://bioinf.spbau.ru/spades). It is distributed as open source software.
P { margin-bottom: 0.21cm; }A:link { }
Исследование репертуара TCR монозиготных и дизиготных близнецов с помощью биоинформатических методов. Показаны особенности TCR репертуаров близнецов и методы анализа.
Журналы событий, сохраняемые современными информационными и техническими системами, как правило, содержат достаточно данных для автоматизированного восстановления моделей соответствующих процессов. Разработано множество алгоритмов для построения моделей процессов, проверки соответствия фактического поведения системы модельному, сравнения моделей процессов, и т.д. Однако возможность быстрого анализа выбираемых пользователями частей журнала до сих пор не нашла полноценной реализации. В статье описан метод многомерного хранения журналов событий для извлечения и анализа процессов, основанный на подходе ROLAP. Результатом анализа журнала является направленный невзвешенный граф, представляющий собою сумму возможных последовательностей событий, упорядоченных по вероятности их возникновения с учетом заданных условий. Разработанный инструмент позволяет выполнять совместный анализ моделей подпроцессов, восстановленных из частей журнала путем задания критериев отбора событий и требуемого уровня детализации модели.
Труды содержат доклады, представленные учеными из России, Украины, Белоруссии, Казахстана, Эстонии, Узбекистана, Германии, Польши, посвященные актуальным проблемам радиационной физики твердого тела (влияние радиации на физико-химические свойства и структуру металлических, полупроводниковых и диэлектрических материалов, влияние факторов космического пространства на свойства конструкционных и функциональных материалов и покрытий космических аппаратов, радиационно-технологические методы получения материалов, в частности наноматериалов, модифицирования и обработки материалов с целью улучшения их эксплуатационных свойств, создание и получение экологически чистых материалов с низкой наведенной радиоактивностью и др.).
Труды содержат доклады, представленные специалистами из России, Украины, Белорусии, Казахстана, Узбекистана, Германии, Великобритании, Польши по направлениям:«Радиационная физика металлов», «Радиационная физика неметаллических материалов», «Физические основы радиационной технологии» и посвященные разнообразным проблемам радиационной физики твердого тела (процессы прохождения заряженных и нейтральных частиц, рентгеновского и гамма-излучений через вещество, электрон-атомные, атом-атомные, ион-атомные и др. столкновения в твердых телах, ориентационные явления при взаимодействии высокоэнергетических частиц с твердым телом, радиационно-индуцированные и радиационно-стимулированные явления в твердых телах и др.).
В сборнике представлены тезисы докладов участников XIX Международной студенческой конференции-школы-семинара «Новые информационные технологии», состоявшейся в мае 2011 года.
Сборник состоит из двух разделов. Первый раздел сборника включает пленарные доклады ведущих специалистов. Второй раздел содержит тезисы докладов студентов и аспирантов, учащихся техникумов и колледжей, участвовавших в работе школы-семинара.
В данной работе рассматривается пятое уравнение Пенлеве, которое имеет 4 комплексных параметра α, β, γ, δ. Методами степенной геометрии ищутся асимптотические разложения его решений при x → ∞. При α≠0 найдено 10 степенных разложений с двумя экспоненциальными добавками каждое. Шесть из них - по целым степеням x (они были известны), и четыре по полуцелым (они новые). При α=0 найдено 4 однопараметрических семейства экспоненциальных асимптотик y(x) и 3 однопараметрических семейства сложных разложений x=x(y). Все экспоненциальные добавки, экспоненциальные асимптотики и сложные разложения найдены впервые. Также уточнена техника вычисления экспоненциальных добавок.
Электронное издание является сборником материалов международной научно-практической конференции "Теория активных систем" (ТАС-2014)
Я выписываю точную формулу для (теоретико-множественной) системы результантов как набора коэффициентов одного результанта.