[ЗАСТАВКА] Добрый день.
Добро пожаловать на 3-ю неделю нашего курса.
Сегодня мы с вами поговорим о контроле качества исходных данных.
Мы узнаем о том, как выглядят наши данные, и чем хорошие данные отличаются от плохих.
Как мы с вами уже знаем, результаты работы секвенатора — это огромное количество
небольших фрагментов ДНК, так называемых рид, из которых нам и предстоит собрать
исходную последовательность того генома, который нас интересует.
И если бы мы с вами жили в идеальном мире,
то наш рабочий процесс выглядел бы следующим образом.
Мы выделяем ДНК, готовим из нее геномную библиотеку,
отправляем ее в секвенатор, получаем фрагменты,
воссоздаем последовательность исходного генома,
анализируем ее и публикуемся в хорошем журнале.
Но в жизни все не так просто.
Как и любой прибор, секвенатор может ошибаться.
И если эти ошибки вовремя не обнаружить, то они окажут влияние на все последующие
этапы анализа и, в конечном счете, наши результаты просто окажутся не верны.
В биоинформатике, как и во многих других науках,
действует принцип Garbage in — Garbage out.
То есть мусор на входе — мусор на выходе, что означает,
что если у нас плохие исходные данные, то насколько хороши бы
ни были наши алгоритмы, и насколько бы точны ни были наши программы анализа,
в конечном счете мы получим абсолютно недостоверный результат.
Поэтому как только мы получаем наши данные,
мы должны, значит, прежде всего, сделать следующее.
Проверить их качество, обнаружить проблемы, если они есть,
устранить их и повторно проверить качество.
Если результат нас удовлетворяет, мы переходим к последующему этапу анализа.
Если нет — то повторяем обнаружение и удаление проблем, пока не получим
данные нужного качества, или пока от наших данных ничего не останется.
Теперь давайте посмотрим, какие у нас бывают проблемы.
Во-первых — это риды низкого качества.
То есть содержащие в себе те нуклеотиды, в которых мы не уверены.
Которые могут быть ошибочны.
Во-вторых — это контаминация, то есть примесь ДНК другого организма.
Она может возникать по самым разным причинам.
В наш образец могут попасть бактерии из воздуха,
или с поверхности рук экспериментатора, или при изначальном отборе образцов туда
могла попасть часть ткани какого-нибудь другого организма.
Причин довольно много, но в любом случае, от контаминации нам нужно избавиться.
Потому что мы можем потратить много сил и времени,
и в итоге секвенировать совсем не тот организм, который мы собирались изучать.
В третьих — это служебная последовательность.
Эта могут быть адаптеры, за которые наши фрагменты ДНК крепятся к поверхности
подпроточной ячейки, или индексы,
которые позволяют секвенировать за один прогон сразу много образцов.
Конечно, все эти фрагменты необходимо обнаружить и удалить.
Обычно это делается внутри самого секвенатора,
для этого там есть специальное программное обеспечение.
Но оно не всегда срабатывает, поэтому нам нужно проверять наши данные на наличие
этих последовательностей и удалять их.
Для этого есть специальные инструменты, с которыми мы сегодня тоже познакомимся.
В четвертых — это артефакт создания библиотек.
Во время подготовки ДНК к секвенированию на этапе ПЦР у нас возможна
такая ситуация, что некоторые фрагменты окажутся представлены
в конечной смеси в гораздо большем числе копий, чем другие.
И это довольно сильно усложняет нашу последующую работу.
Поскольку большинство программ, с которыми мы работаем, исходит из того
предположения, что наш геном равномерно покрыт секвенированными фрагментами.
В четвертых — это различный формат записи качества.
У разных приборов и разных версий программного обеспечения
форматы несколько отличаются, поэтому это тоже всегда необходимо учитывать.
Ну и конечно человеческий фактор.
Люди могут ошибаться, люди могут путать пробирки, там, все, что угодно.
Поэтому хорошо бы подобные ошибки тоже отловить в самом начале анализа.
Пока мы еще не потратили кучу сил и времени на обработку
этих данных.