Ученые из Университета Райса отправляют RAMBO на помощь исследователям в области геномики, которые иногда днями или неделями ждут результатов поиска в огромных базах данных ДНК.
Секвенирование ДНК настолько популярно, что наборы геномных данных удваиваются в размере каждые два года, а инструменты для поиска данных не успевают за ними. Исследователи, которые сравнивают ДНК геномов или изучают эволюцию организмов, таких как вирус, вызывающий COVID-19, часто неделями ждут, пока программное обеспечение проиндексирует большие «метагеномные» базы данных, которые становятся больше с каждым месяцем и теперь измеряются в петабайтах.
RAMBO, что сокращенно от «повторного и объединенного фильтра Блума», – это новый метод, который может сократить время индексации для таких баз данных с недель до часов и время поиска с часов до секунд. Ученые из Университета Райса представили RAMBO на прошлой неделе на конференции по науке о данных SIGMOD 2021 Ассоциации вычислительной техники.
«Запросы миллионов последовательностей ДНК к большой базе данных с использованием традиционных подходов могут занять несколько часов в большом вычислительном кластере и несколько недель на одном сервере», – сказал соавтор RAMBO Тодд Треанген, ученый-компьютерщик Райса, чья лаборатория специализируется на метагеномике. . «Сокращение времени индексации базы данных, помимо времени выполнения запросов, имеет решающее значение, поскольку размер геномных баз данных продолжает расти невероятными темпами».
Чтобы решить эту проблему, Treangen объединился с ученым-компьютерщиком Райс Аншумали Шриваставой, который специализируется на создании алгоритмов, которые делают большие данные и машинное обучение более быстрыми и масштабируемыми, и аспирантами Гауравом Гуптой и Минхао Яном, со-ведущими авторами рецензируемой конференции. бумага на РАМБО.
RAMBO использует структуру данных, которая имеет значительно более быстрое время запроса, чем современные методы индексации генома, а также другие преимущества, такие как простота распараллеливания, нулевой процент ложноотрицательных и низкий уровень ложных срабатываний.
«Время поиска RAMBO до 35 раз быстрее, чем у существующих методов», – сказал Гупта, докторант в области электротехники и вычислительной техники. По словам Гупта, в экспериментах с использованием набора данных микробных геномов размером 170 терабайт RAMBO сократил время индексации с «шести недель на сложном специализированном кластере до девяти часов на общем товарном кластере».
Ян, студент Ph.D в компьютерной науке, сказал: «На этом огромном архиве, RAMBO можно искать последовательности гена в течение нескольких миллисекунд, даже суб-миллисекунды с использованием стандартного сервера 100 машин.»
RAMBO улучшает работу фильтров Блума, техники поиска полувековой давности, которая применялась для поиска геномной последовательности в ряде предыдущих исследований. RAMBO улучшает более ранние методы фильтра Блума для геномного поиска, используя вероятностную структуру данных, известную как скетч count-min, который «приводит к лучшему компромиссу времени запроса и памяти», чем более ранние методы, и «превосходит текущие базовые показатели, достигая очень надежная структура данных с низким объемом памяти и сверхбыстрой индексацией », – пишут авторы в исследовании.
Гупта и Ян сказали, что RAMBO может демократизировать геномный поиск, позволяя практически любой лаборатории быстро и недорого искать в огромных геномных архивах с помощью готовых компьютеров.
«RAMBO может сократить время ожидания для множества исследований в области биоинформатики, таких как поиск присутствия SARS-CoV-2 в метагеномах сточных вод по всему миру», – сказал Ян. «RAMBO может, например, сыграть важную роль в изучении геномики рака и эволюции бактериального генома».