[ЗАСТАВКА] Итак, проблему мы с вами уже поняли, теперь давайте от неё избавляться. Для очистки наших данных мы воспользуемся программой Trimmomatic, но прежде чем её запускать нам нужно найти те последовательности адаптеров, от которой нам... от которых нам нужно избавиться. Поищем их просто в Интернете. По запросу illumina nextera adapter мы можем найти тему на форуме Seqanswers, где обсуждаются проблемы, связанные с секвенированием, и мы видим тут последовательности всех этих адаптеров, которые можно просто скопировать. Затем я открываю терминал и перехожу в папку нашего проекта. [ПЕЧАТАЕТ] Вот мы видим здесь все наши файлы, здесь же я создаю файл, в котором будут лежать последовательности адаптеров. Делаю это командой touch. Назову его mp.fa, потому что он будет в формате фаста, и открою его в любом текстовом редакторе, например Nano. Вот. Пока это пустой файл. Я вставляю сюда наши последовательности. Вот. Это пять адаптеров, которые используются при приготовлении библиотек. [ПЕЧАТАЕТ] Так... Всё. Мы сохранили этот файл. Можем работать дальше. Программа Trimmamatic написана на языке Java. Поэтому, чтобы её запустить, нам нужна следующая команда: java − jar, и дальше я указываю путь к исполняемому файлу этой программы. Вот он. Если запустить её без всяких аргументов, то она выдаст подсказку, как именно её запускать. [ПЕЧАТАЕТ]. Воспользуемся этой подсказкой. Сначала я говорю, что у нас парные риды, затем я указываю формат, запись и качество phred33, и после этого указываю исходные данные, для paired n-библиотек это вот такое вот такое название для первого файла, и вот такое название для файла с обратными ридами. После этого мне нужно указать, куда сложить результат. Во-первых, прямые риды, для которых у нас осталась пара. Назовём его, например, pairedPE_1 .fq Затем прямые ряды, для которых у нас их пара потерялась, оказалась ненадлежащего качества и её выбросили из рассмотрения. Назовём её single. И тоже самое для обратных. [ПЕЧАТАЕТ] [ПЕЧАТАЕТ] paired и single. А после этого нам нужно указать, как именно мы хотим чистить и фильтровать наши данные. Во-первых, мы уже помним, что, начиная со 180-го нуклеотида, в этой библиотеке у нас всё начинается очень плохо. Поэтому в этом месте мы их и обрежем. Скажем, CROP 180. Дальше, мы помним, что в самом начале у нас было довольно сильное отклонение в распределении нуклеотидов от равномерного, поэтому сначала мы тоже отрежем небольшой фрагмент рида, например, вот так. После этого мы попросим удалить адаптеры иллюмены. Команда ILLUMENACLIP. И в качестве адаптеров укажем ей тот самый файл, который мы только что создали. Эти параметры указывают, насколько точно искать совпадение, потому что адаптеры, как мы знаем, тоже могут быть прочитаны с ошибками. После этого мы проходимся по каждому риду и, если в нём у четырёх идущих подряд нуклеотидов окажется среднее количество ниже 20, в этом месте рид обрезается. И, наконец, нам нужно удалить все короткие ошмётки, которые останутся после этих манипуляций, чтобы в конечном итоге у нас остались риды не менее, скажем, 50. Попросим командой MINLEN: 50. Всё. Теперь осталось немножко подождать. Так. Мы видим, что наша программа закончила работу, и у нас осталось 83 % от наших пар. Довольно неплохой результат, мы потеряли не так много данных. Теперь давайте сделаем то же самое для обратных ридов. Я указываю, собственно, файлы с прямыми и обратными ридами, для mate paired, вот это прямой, это — обратный. Вот. И, чтобы не перепутать, те файлы, в которые у нас будут сложные результаты, мы тоже обозначим немножко по-другому. К примеру, вот так вот. Так, готово. И ещё одно небольшое изменение. Мы помним, что в случае mate paired-ов у нас не было такого резкого падения данных ближе к концу ридов, поэтому у нас нет необходимости в таком жёстком обрезании краёв. Всё. Запускаем. Так. Процесс закончен, мы видим, что мы потеряли почти половину информации, но в данном случае это оправдано, потому что гораздо важнее использовать мало хороших данных, чем много и плохих. Давайте посмотрим, к чему привели все наши старания. Я снова запускаю FastQC и открываю наши риды. Сначала pairedPE, первую и вторую. Так. [БЕЗ ЗВУКА] Вот мы видим, что данные стали гораздо чище. С этим уже вполне можно работать. Никаких ридов плохого качества и никаких адаптеров. Тоже самое в обратном случае. Тоже довольно высокое качество, никаких переставленных последовательностей, никаких адаптеров. И теперь посмотрим на наши mate paired. [ПЕЧАТАЕТ] Так, мы тоже видим, что всё стало гораздо чище, с качеством всё хорошо. С качеством всё хорошо, с адаптерами всё хорошо. Всё. Эти данные мы можем использовать для нашей дальнейшей работы. [ЗАСТАВКА]