Ученые из лаборатории Беркли Тияна Радивоевич (слева) и Гектор Гарсия Мартин в прошлом году работали над механистическим и статистическим моделированием, визуализацией данных и метаболическими картами в Agile BioFoundry.
Если вы ели веганские бургеры со вкусом мяса или использовали синтетический коллаген в своей косметической рутине – оба продукта «выращены» в лаборатории, – значит, синтетическая биология принесла вам пользу. Это область, изобилующая потенциалом, поскольку она позволяет ученым разрабатывать биологические системы в соответствии со спецификациями, например создавать микроб для производства агента для борьбы с раком. Тем не менее, традиционные методы биоинженерии медленны и трудоемки, а основным подходом является метод проб и ошибок.
Теперь ученые из Национальной лаборатории Лоуренса Беркли Министерства энергетики США (Berkeley Lab) разработали новый инструмент, который адаптирует алгоритмы машинного обучения к потребностям синтетической биологии для систематического руководства разработкой. Это нововведение означает, что ученым не придется тратить годы на детальное понимание каждой части клетки и того, что она делает, чтобы управлять ею; вместо этого, с ограниченным набором обучающих данных, алгоритмы могут предсказать, как изменения в ДНК или биохимии клетки повлияют на ее поведение, а затем дать рекомендации для следующего инженерного цикла вместе с вероятностными прогнозами для достижения желаемой цели.
«Возможности революционные», – сказал Гектор Гарсия Мартин, исследователь из отдела биологических систем и инженерии (BSE) лаборатории Беркли, который руководил исследованием. «В настоящее время биоинженерия – очень медленный процесс. Потребовалось 150 человеко-лет, чтобы создать противомалярийный препарат, артемизинин. Если вы сможете создать новые клетки в соответствии со спецификациями за пару недель или месяцев вместо лет, вы могли бы действительно революционизируют то, что вы можете сделать с помощью биоинженерии ».
Работая с специалистом по анализу данных BSE Тияной Радивоевич и международной группой исследователей, команда разработала и продемонстрировала ожидающий патентования алгоритм, названный Автоматическим инструментом рекомендации (ART), описанный в паре статей, недавно опубликованных в журнале Nature Communications . Машинное обучение позволяет компьютерам делать прогнозы после «обучения» на основе значительных объемов доступных «обучающих» данных.
В статье «АРТ: автоматизированный инструмент рекомендаций для синтетической биологии с машинным обучением» под руководством Радивоевича исследователи представили алгоритм, который адаптирован к особенностям области синтетической биологии: небольшие наборы обучающих данных, необходимость количественной оценки неопределенности и рекурсивный циклы. Возможности этого инструмента были продемонстрированы на моделировании и исторических данных из предыдущих проектов метаболической инженерии, таких как улучшение производства возобновляемого биотоплива.
В «Комбинировании моделей механического и машинного обучения для прогнозирования и оптимизации метаболизма триптофана» команда использовала ART для управления процессом метаболической инженерии с целью увеличения производства триптофана, аминокислоты с различным использованием, разновидностями дрожжей, называемыми Saccharomyces cerevisiae. , или пекарские дрожжи. Проект возглавили Цзе Чжан и Сорен Петерсен из Центра биологической устойчивости Novo Nordisk при Техническом университете Дании в сотрудничестве с учеными из Berkeley Lab и Teselagen, стартап-компании из Сан-Франциско.
Для проведения эксперимента они выбрали пять генов, каждый из которых контролируется разными промоторами генов и другими механизмами внутри клетки и представляет в общей сложности почти 8000 возможных комбинаций биологических путей. Затем исследователи из Дании получили экспериментальные данные о 250 из этих путей, что составляет всего 3% от всех возможных комбинаций, и эти данные были использованы для обучения алгоритма. Другими словами, ART узнала, какой результат (производство аминокислот) связан с каким входом (экспрессия гена).
Затем, используя статистический вывод, инструмент смог экстраполировать, как каждая из оставшихся более 7000 комбинаций повлияет на производство триптофана. В конечном итоге рекомендованный дизайн увеличил производство триптофана на 106% по сравнению с современным эталонным штаммом и на 17% по сравнению с лучшими дизайнами, используемыми для обучения модели.
«Это наглядная демонстрация того, что биоинженерия, основанная на машинном обучении, возможна и разрушительна, если ее можно масштабировать. Мы сделали это для пяти генов, но мы считаем, что это может быть сделано для полного генома», – сказал Гарсия Мартин, член Agile BioFoundry, а также директор группы количественного метаболического моделирования в Объединенном институте биоэнергетики (JBEI), Исследовательском центре биоэнергетики Министерства энергетики; оба поддержали часть этой работы. «Это только начало. Этим мы показали, что существует альтернативный способ проведения метаболической инженерии. Алгоритмы могут автоматически выполнять рутинные части исследования, в то время как вы посвящаете свое время более творческим частям научных исследований: принятию решений. важные вопросы, планирование экспериментов и закрепление полученных знаний ».
Требуется больше данных
Исследователи говорят, что были удивлены тем, как мало данных потребовалось для получения результатов. Тем не менее, по их словам, чтобы по-настоящему реализовать потенциал синтетической биологии, алгоритмы необходимо обучить на гораздо большем количестве данных. Гарсиа Мартин описывает синтетическую биологию как находящуюся в зачаточном состоянии – эквивалент промышленной революции 1790-х годов. «Только вложив средства в автоматизацию и высокопроизводительные технологии, вы сможете использовать данные, необходимые для настоящей революции в биоинженерии», – сказал он.
Радивоевич добавил: «Мы предоставили методологию и демонстрацию на небольшом наборе данных; потенциальные приложения могут быть революционными при доступе к большим объемам данных».
Уникальные возможности национальных лабораторий
Помимо нехватки экспериментальных данных, Гарсия Мартин говорит, что еще одним ограничением является человеческий капитал или эксперты по машинному обучению. Учитывая взрывной рост объемов данных в нашем современном мире, многие отрасли и компании конкурируют за ограниченное количество экспертов в области машинного обучения и искусственного интеллекта.
Гарсия Мартин отмечает, что знание биологии не является обязательным условием, если его окружает командная среда, предоставляемая национальными лабораториями. Радивоевич, например, имеет докторскую степень по прикладной математике и не имеет опыта работы в области биологии. «За два года работы здесь она смогла продуктивно сотрудничать с нашей многопрофильной командой биологов, инженеров и компьютерных ученых и добиться успеха в области синтетической биологии», – сказал он. «При традиционных способах проведения метаболической инженерии ей пришлось бы потратить пять или шесть лет, просто изучая необходимые биологические знания, прежде чем даже начать свои собственные независимые эксперименты».
«Национальные лаборатории обеспечивают среду, в которой специализация и стандартизация могут процветать и объединяться в большие многопрофильные команды, которые являются их отличительной чертой», – сказал Гарсия Мартин.
Синтетическая биология может оказать существенное влияние практически на все отрасли: продукты питания, медицина, сельское хозяйство, климат, энергия и материалы. Согласно различным рыночным отчетам, мировой рынок синтетической биологии в настоящее время оценивается примерно в 4 миллиарда долларов и, по прогнозам, к 2025 году вырастет до более чем 20 миллиардов долларов.
«Если бы мы могли автоматизировать метаболическую инженерию, мы могли бы стремиться к более смелым целям. Мы могли бы создавать микробиомы для терапевтических или биоремедиационных целей. Мы могли бы создавать микробиомы в нашем кишечнике для производства лекарств для лечения аутизма, например, или микробиомов в окружающей среде, которые преобразовывают отходы на биотопливо », – сказал Гарсия Мартин. «Комбинация машинного обучения и редактирования генов на основе CRISPR обеспечивает более эффективную сходимость с желаемыми спецификациями».
Источник: Национальная лаборатория Лоренса Беркли
Фото: Тор Свифт / Лаборатория Беркли