Каждый год в мире создается больше данных, чем в предыдущем году. По данным International Data Corporation, только в 2020 году будет «создано, захвачено, скопировано и использовано» около 59 зеттабайт данных – этого достаточно, чтобы заполнить около триллиона 64-гигабайтных жестких дисков.
Но тот факт, что данные растут, не означает, что каждый может их использовать. Компании и учреждения, справедливо озабоченные конфиденциальностью своих пользователей, часто ограничивают доступ к наборам данных – иногда в рамках своих собственных команд. А теперь, когда пандемия COVID-19 закрыла лаборатории и офисы, лишив людей возможности посещать централизованные хранилища данных, безопасный обмен информацией стал еще сложнее.
Без доступа к данным сложно создать действительно работающие инструменты. Введите синтетические данные: разработчики и инженеры искусственной информации могут использовать их вместо реальных данных.
Синтетические данные немного похожи на диетическую газировку. Чтобы быть эффективным, оно должно в определенном смысле напоминать «настоящую вещь». Диетическая сода должна выглядеть, иметь вкус и шипеть как обычная газированная вода. Точно так же синтетический набор данных должен иметь те же математические и статистические свойства, что и реальный набор данных, для которого он предназначен. «Он выглядит так, и имеет подобное форматирование», – говорит Калян Веерамачанени, главный исследователь лаборатории данных для ИИ (DAI) и главный научный сотрудник Лаборатории информации и систем принятия решений Массачусетского технологического института. Если он запускается через модель или используется для создания или тестирования приложения, он работает так же, как и реальные данные.
Но – точно так же, как диетическая газировка должна содержать меньше калорий, чем обычная разновидность, – синтетический набор данных также должен отличаться от реального в важных аспектах. Например, если он основан на реальном наборе данных, он не должен содержать или даже намекать на какую-либо информацию из этого набора данных.
Заправлять нить в эту иглу сложно. После многих лет работы Вирамачанени и его сотрудники недавно представили набор инструментов для генерации данных с открытым исходным кодом – универсальный магазин, где пользователи могут получить столько данных, сколько им нужно для своих проектов, в форматах от таблиц до временных рядов. Они называют это хранилищем синтетических данных.
Максимальный доступ при сохранении конфиденциальности
Верамачанени и его команда впервые попытались создать синтетические данные в 2013 году. Им было поручено проанализировать большой объем информации из программы онлайн-обучения edX, и они хотели привлечь на помощь некоторых студентов Массачусетского технологического института. Данные были конфиденциальными и не могли быть переданы этим новым сотрудникам, поэтому команда решила создать искусственные данные, с которыми студенты могли бы работать, полагая, что «как только они напишут программное обеспечение для обработки, мы сможем использовать его на реальных данных. , – говорит Верамачанени.
Это обычный сценарий. Представьте, что вы разработчик программного обеспечения, нанятый больницей. Вас попросили создать информационную панель, которая позволяет пациентам получать доступ к результатам своих тестов, рецептам и другой медицинской информации. Но вам не разрешено видеть какие-либо реальные данные о пациентах, потому что они конфиденциальны.
Большинство разработчиков в этой ситуации сделают «очень упрощенную версию» необходимых им данных и сделают все, что в их силах, – говорит Карлес Сала, исследователь лаборатории DAI. Но когда приборная панель запускается, есть большая вероятность, что «все рушится, – говорит он, – потому что есть некоторые крайние случаи, которые они не принимали во внимание».
Качественные синтетические данные – столь же сложные, как и то, что они должны заменить – помогли бы решить эту проблему. Компании и учреждения могут свободно делиться им, позволяя командам работать более эффективно и совместно. Разработчики могли даже носить его с собой на своих ноутбуках, зная, что они не подвергают риску конфиденциальную информацию.
Совершенствование формулы и устранение ограничений
Еще в 2013 году команда Веерамачанени дала себе две недели на создание пула данных, который они могли бы использовать для этого проекта edX. Сроки «казались действительно разумными», – говорит Вирамачанени. «Но мы полностью потерпели неудачу». Вскоре они поняли, что если они построят серию генераторов синтетических данных, они смогут ускорить этот процесс для всех остальных.
В 2016 году команда завершила алгоритм, который точно фиксирует корреляции между различными полями в реальном наборе данных, включая возраст пациента, артериальное давление и частоту сердечных сокращений, и создает синтетический набор данных, который сохраняет эти отношения без какой-либо идентифицирующей информации. Когда специалистов по обработке данных попросили решить проблемы с использованием этих синтетических данных, их решения были столь же эффективны, как и решения, сделанные с использованием реальных данных, в 70% случаев. Команда представила это исследование на Международной конференции IEEE по науке о данных и передовой аналитике 2016 года.
Для следующего обхода команда глубоко погрузилась в инструментарий машинного обучения. В 2019 г. студент Лэй Сюй представил свой новый алгоритм CTGAN на 33-й конференции по системам обработки нейронной информации в Ванкувере. CTGAN (для «условных табличных генерирующих состязательных сетей») использует GAN для построения и совершенствования таблиц синтетических данных. GAN – это пары нейронных сетей, которые «играют друг против друга», – говорит Сюй. Первая сеть, называемая генератором, что-то создает – в этом case, строка синтетических данных, а вторая, называемая дискриминатором, пытается определить, настоящая она или нет.
«В конце концов, генератор может генерировать идеальные [данные], а дискриминатор не заметит разницы», – говорит Сюй. GAN чаще используются для создания искусственных изображений, но они также хорошо работают и для синтетических данных: CTGAN превзошел классические методы создания синтетических данных в 85% случаев, протестированных в исследовании Сюй.
Статистическое сходство имеет решающее значение. Но в зависимости от того, что они представляют, наборы данных также имеют собственный жизненно важный контекст и ограничения, которые должны сохраняться в синтетических данных. Исследователь лаборатории DAI Сала приводит пример бухгалтерской книги отеля: гость всегда выписывается после регистрации. Даты в синтетическом наборе данных бронирования отелей также должны соответствовать этому правилу: «Они должны быть в правильном порядке», он говорит.
Большие наборы данных могут содержать ряд различных подобных отношений, каждое из которых строго определено. «Модели не могут изучить ограничения, потому что они очень зависят от контекста», – говорит Вирамачанени. Поэтому команда недавно доработала интерфейс, который позволяет людям сообщать генератору синтетических данных, где находятся эти границы. «Данные генерируются в рамках этих ограничений», – говорит Верамачанени.
Такие точные данные могут помочь компаниям и организациям во многих различных секторах. Одним из примеров является банковское дело, где усиление оцифровки, наряду с новыми правилами конфиденциальности данных, «вызвало растущий интерес к способам генерации синтетических данных», – говорит Вим Бломмарт, руководитель группы финансовых услуг ING. По его словам, современные решения, такие как маскирование данных, часто уничтожают ценную информацию, которую банки могли бы использовать для принятия решений. Такой инструмент, как SDV, может обойти конфиденциальные аспекты данных, сохранив при этом эти важные ограничения и взаимосвязи.
Одно хранилище, чтобы править всеми
«Synthetic Data Vault» объединяет все, что группа построила на данный момент, в «целую экосистему», – говорит Вирамачанени. Идея состоит в том, что заинтересованные стороны – от студентов до профессиональных разработчиков программного обеспечения – могут прийти в хранилище и получить то, что им нужно, будь то большая таблица, небольшой объем данных временных рядов или смесь многих различных типов данных.
Хранилище с открытым исходным кодом и расширяемым. «Есть много разных областей, в которых, как мы понимаем, можно использовать синтетические данные», – говорит Сала. Например, если конкретная группа недостаточно представлена в выборочном наборе данных, для заполнения этих пробелов можно использовать синтетические данные – деликатное мероприятие, требующее большой тонкости. Или компании могут также захотеть использовать синтетические данные для планирования сценариев, с которыми они еще не сталкивались, например огромного скачка пользовательского трафика.
По словам Веэрамачанени, по мере появления новых вариантов использования будут разработаны и добавлены в хранилище новые инструменты. Это может занять команду еще как минимум семь лет, но они готовы: «Мы только касаемся верхушки айсберга».
Источник: Массачусетский технологический институт
Фото: CC0 Public Domain