Как ИИ научился описывать запахи лучше, чем люди: новая модель Google и Monell
Обоняние — это одно из самых сложных и загадочных чувств, которое связывает нас с окружающим миром. Как наш мозг распознает и интерпретирует запахи, которые мы вдыхаем? Какие химические свойства определяют аромат вещества? И можно ли создать цифровую систему, которая бы могла записывать и воспроизводить запахи так же, как мы делаем это с изображениями и звуками?
На эти вопросы пытаются ответить ученые из Центра химических чувств Monell и стартапа Osmo, который занимается исследованиями в области машинного обучения. Они разработали модель, которая способна описывать запахи химических соединений словами с такой же точностью, как и человеческие эксперты.
Как работает обоняние
У человека есть около 400 функционирующих обонятельных рецепторов. Это белки на концах обонятельных нервов, которые связываются с молекулами воздуха и передают электрический сигнал в обонятельную луковицу. Количество обонятельных рецепторов гораздо больше, чем мы используем для цветового зрения — четыре — или даже для вкуса — около 40.
«В исследованиях обоняния, однако, вопрос о том, какие физические свойства делают молекулу воздуха пахнущей так, как она пахнет для мозга, остается загадкой», — говит старший соавтор исследования Джоэл Мейнленд, член Центра химических чувств Monell.
Как модель описывает запахи
Чтобы решить эту проблему, команда Osmo под руководством Алекса Вилчко создала модель, которая научилась сопоставлять словесные описания запаха молекулы с ее молекулярной структурой. Для этого они использовали данные из базы данных GoodScents, которая содержит более 10 тысяч химических соединений с аннотациями по запахам от профессиональных парфюмеров. Модель назвали A principal odor map (POM).
Модель основана на глубоком обучении — методе машинного обучения, который имитирует работу нейронных сетей мозга. Модель принимает на вход молекулярную структуру соединения и выдает на выходе список слов, которые характеризуют его запах. Например, для соединения с названием альдегид С-14 модель выдала следующие слова: персик, абрикос, фруктовый, сладкий.
Для проверки качества модели ученые сравнивали ее описания с описаниями, которые давали человеческие эксперты. Оказалось, что модель согласуется с экспертами в 80% случаев, что является очень высоким показателем. Кроме того, модель способна генерировать описания для новых соединений, которых не было в обучающей выборке.
Какие перспективы открывает модель
Модель, созданная учеными, является важным шагом к цифровизации обоняния. Это может иметь множество применений в разных областях, таких как парфюмерия, пищевая промышленность, медицина и даже безопасность.
«Компьютеры смогли цифровать зрение и слух, но не обоняние — наше самое глубокое и древнее чувство», — говит Вилчко.
С помощью модели можно создавать новые ароматы для парфюмерии и ароматизаторов, которые бы не только уменьшали зависимость от природных растений, но и идентифицировали новые функциональные запахи для таких целей, как отпугивание комаров или маскировка неприятных запахов.
Также модель может помочь в диагностике различных заболеваний, которые влияют на обоняние или имеют характерный запах. Например, у пациентов с COVID-19 часто наблюдается потеря обоняния или искажение запахов. Модель может помочь в тестировании обоняния и восстановлении его функции.
Еще одно возможное применение модели — это обеспечение безопасности на предприятиях, где используются опасные химические вещества. Модель может определять запахи этих веществ и предупреждать о возможных утечках или авариях.
В будущем модель может быть интегрирована в различные устройства, которые бы позволяли записывать и воспроизводить запахи так же, как мы делаем это с изображениями и звуками. Это может создать новые возможности для коммуникации, развлечения и обучения.
«Модель заполняет давние пробелы в научном понимании обоняния», — говит Мейнленд.
Исследование получило поддержку от Национального института здоровья США и Google Research.
Чуть подробнее про POM
A principal odor map (POM) — это карта обоняния, созданная с помощью машинного обучения, которая позволяет предсказывать запахи от невидимых молекул. Она основана на графовой нейронной сети, которая изучает связь между молекулярной структурой и обонятельным восприятием из большой базы данных химических соединений и их описаний запахов. POM сохраняет перцептивные расстояния и иерархии между разными запахами и может генерировать точные и согласованные профили запахов для новых молекул. POM также может использоваться для других задач предсказания запахов, таких как определение функциональных запахов, поиск аналогов запахов и создание новых ароматов. POM была разработана командой исследователей из Google AI, Центра химических чувств Monell и других учреждений
POM может решать еще множество задач, связанных с обонянием и химией. Например, POM может:
- Определять запахи, которые могут вызвать аллергию или раздражение у людей или животных.
- Сравнивать запахи разных продуктов или брендов и выявлять их отличия и сходства.
- Анализировать влияние запахов на психологическое и эмоциональное состояние человека.
- Создавать новые запахи для парфюмерии, косметики, бытовой химии и других областей.
- Исследовать взаимодействие запахов с другими чувствами, такими как вкус, зрение, слух и осязание.
Какие еще методы машинного обучения используются в исследованиях запахов?
В исследованиях запахов используются различные методы машинного обучения, в зависимости от целей и данных. Например, вот некоторые из них:
- Кластеризация — это метод машинного обучения, который разбивает множество объектов на группы (кластеры) по их сходству. Этот метод может быть использован для выделения типовых или аномальных запахов, а также для поиска сходных или противоположных запахов.
- Классификация — это метод машинного обучения, который определяет принадлежность объекта к одному из заранее заданных классов. Этот метод может быть использован для определения типа или категории запаха, а также для распознавания конкретных запахов.
- Регрессия — это метод машинного обучения, который предсказывает значение некоторой величины по значениям других величин. Этот метод может быть использован для оценки интенсивности или приятности запаха, а также для предсказания химических свойств запаховых молекул.
- Генерация — это метод машинного обучения, который создает новые объекты на основе имеющихся данных. Этот метод может быть использован для создания новых запахов или описаний запахов, а также для синтеза или модификации запаховых молекул.