В последние годы в России развитию сферы искусственного интеллекта уделялось немало внимания. Сейчас сложно говорить о том, что будет в стране дальше, но нельзя упускать из виду мировые тренды, которые со временем окажут влияние и на нашу жизнь. О происходящем в науке рассказывает NLP-инженер и исследователь Иван Ильин.
Область понимания естественного языка находится на переднем крае создания сильного искусственного интеллекта. Ведь язык – это основная система передачи информации от человека к человеку. От современных языковых нейросетей ждут умения делать логические выводы как подтверждения способности к «мышлению».
Гигантские языковые модели, обученные на терабайтах текстовых данных, по-прежнему в трендах мировых компаний. Недавно Facebook (соцсеть признана в РФ экстремистской и запрещена) представила OPT-2, Google – PaLM, DeepMind – Gopher и RETRO, Nvidia – Megatron, OpenAI – обновила GPT-3 и выпустила Codex.
За счет увеличения числа параметров и обучения на огромных массивах данных нейросети стали демонстрировать возможность few-shot-обучения. Это способность буквально за пару тренировочных кейсов «по аналогии» решать математические задачи, выдавать ответы на реплики, продолжать повествование и вести диалог.
Обновленная модель GPT-3 от OpenAI теперь умеет редактировать и делать вставки в текст, а не только продолжать его. Поэтому новую версию можно использовать для рерайта, чтобы ускорить работу редакторов. Модель Codex (аналог GPT-3, обученная вместо текста на коде) может генерировать синтаксически корректный и функциональный код по описанию функций комментариями, ускоряя работу программиста. Генерация кода на основе этой модели уже успешно применяется в сервисе GitHub Copilot.
Следующий тренд – инъекция в языковые модели знаний об устройстве окружающего мира с помощью «Википедии» или графов знаний (создание своеобразной «памяти»), что позволило бы им при ответах на вопросы использовать не только контекст и данные из обучающей выборки, но и иметь прямой доступ к фактологической информации. Один из таких примеров – RETRO от DeepMind.
Гигантские языковые модели по-прежнему вотчина глобальных корпораций и их лабораторий, так как для обучения требуются огромные вычислительные ресурсы, высокопрофессиональные инженеры и исследователи в области машинного обучения.
Мультимодальные модели
В 2021 году стали популярны мультимодальные нейросети, работающие как с текстами, так и с изображениями. В 2022 году OpenAI выпустила DaLL-E-2, генерирующую фотореалистичные и фэнтезийные изображения потрясающего качества на основе короткого текстового описания. А следом за OpenAI компания Google представила свою нейросеть Imagen, которую сейчас считают главным конкурентом DaLL-E-2.
Такие модели могут быть полезны в первую очередь цифровым художникам и дизайнерам в поисках вдохновения, а также для ускорения создания уникальных изображений и иллюстраций.
Речевые технологии
Современный голосовой синтез трудно отличить от человеческого голоса, включая эмоции и интонирование. Это снимает барьер для интеграции голосовых ассистентов в нашу жизнь – в формате мобильных приложений, «умных» колонок и телевизоров, а также автомобильных мультимедиа.
В B2B-сегменте подобное приводит к полной автоматизации call-центров, а также к интеграции сервиса TTS (Text-To-Speech) в различные медиа – для создания аудиоподкастов из текстов.
Компьютерное зрение
Одно из крупнейших направлений в сфере машинного обучения – это компьютерное зрение. Оно включает в себя распознавание лиц и объектов, сегментацию сцен, генерацию изображений и трехмерных объектов. Распознавание лиц давно применяется в видеонаблюдении, а распознавание объектов в видео – для контроля процессов на производстве и в анализе видеоматериалов.
Вычислительная фотография в новых смартфонах, когда вы видите улучшение изображения после съемки, – это тоже нейросети. Повышенный интерес к метавселенным, виртуальной и дополненной реальности также отчасти обусловлен возможностью генерации 3D-персонажей и вселенных с помощью компьютерного зрения и технологий распознавания жестов, мимики и движения глаз.
Важнейшая область применения компьютерного зрения – это беспилотники. Уже сейчас автомобили Tesla, Chrysler, «Яндекса» и других производителей технически готовы к тому, чтобы заменить водителя. Остается только дождаться обновления юридической базы для их доступа на дороги общего пользования. Кое-где это уже легально: например, вы можете спокойно использовать автопилот Tesla в Калифорнии. Успехи в определении объектов и распознавании лиц ведут к развитию ретейла без продавцов. В магазинах Amazon Go, например, состав корзины с покупками определяет нейросеть, а деньги за нее списываются у покупателя автоматически, когда он выходит из магазина.
В здравоохранении продолжается практика применения компьютерного зрения для анализа рентгеновских и МРТ-снимков, а также для поиска новообразований. В индустрии красоты подобные технологии используют для оценки состояния кожи и тканей в контексте борьбы со старением.
Искусственный интеллект для ученых
Инструменты на основе машинного обучения могут помочь найти решения для широкого спектра научных задач: от генной инженерии и структурной биологии до квантовой химии и чистой математики. Например, уже сейчас модель АlphaFhold от DeepMind предсказала все известные структуры белка.
Очень интересные исследования продолжаются в области Geometric Deep Learning, где машинное обучение встречается с областями высшей математики. В частности, описание более широких классов трехмерных объектов на языке современной дифференциальной геометрии и топологии (неевклидова геометрия) позволит успешно их генерировать с помощью моделей.
Также активно развиваются графовые нейросети, позволяющие предсказывать связи между узлами или свойства узлов. Графовыми моделями описываются любые множества связанных объектов – от пользователей социальной сети до сущностей в графе знаний, содержащем информацию об объектах в рамках некоторого домена информации и связях между ними.
Квантовое машинное обучение
Одна из масштабных целей в сфере технологий, которая сейчас стоит перед исследователями и инженерами, – это машинное обучение на квантовых компьютерах. Они способны решать сложнейшие задачи намного быстрее суперкомпьютеров на видеокартах, поэтому время обучения больших нейросетей будет занимать часы вместе недель.
Единица хранения информации в квантовом компьютере – это кубит, квантовый бит. За счет принципа суперпозиции кубит может находиться одновременно в двух состояниях 0 и 1, в отличие от классических транзисторов. Это и другие квантовые свойства кубитов приводят к экспоненциальному росту числа состояний системы с ростом числа кубитов в квантовом компьютере, соответственно повышая объем хранимой в каждый момент времени информации. Но поддержание стабильной работы кубитов – непростая задача, для них нужны сверхнизкая температура и криогенная платформа.
В направление квантовых вычислений инвестируют такие гиганты, как IBM, Microsoft, Google, Intel и другие компании по всему миру. К 2023 году IBM планирует построить 1000-кубитный квантовый компьютер с системой Quantum System Two и уже сейчас дает доступ к своим разработкам исследователям, университетам и лабораториям.