По одному телеканалу идут новости, по-другому – токшоу, на третьем крутят запись концерта, на четвертом – блокбастер. Но, куда ни переключи, живых людей не увидишь: в качестве дикторов, ведущих, поп-звезд и киноактеров выступают вымышленные персонажи, сгенерированные искусственным интеллектом (ИИ). Пришло время заняться делами? Цифровые сущности и тут на каждом шагу. Разговорчивая умная колонка поможет вам уладить бытовые вопросы. Виртуальный полицейский выслушает жалобы на шумных соседей в специальном приложении. А как выглядят банковские клерки, никто уже и не помнит: все финансовые операции курирует пунктуальный чат-бот. Пора выдвигаться в город: сегодня у вас назначена встреча с деловым партнером. Прибыв в бизнес-центр на беспилотном такси, вы заходите в здание и уточняете у голограммыадминистратора, когда вас смогут принять. Трехмерное изображение девушки просит немного подождать. Наконец, вы проходите в кабинет и встречаете первого за день настоящего человека. Ваш партнер пока из плоти и крови. Надолго ли?.. Так выглядит наше не слишком отдаленное будущее. В XX веке человечество мечтало об антропоморфных роботах, но постепенно выяснилось, что смастерить их нелегко: самые простые человеческие движения даются «железным дровосекам» с трудом. В наши дни найдено решение: пусть машины остаются машинами, мы же создадим по своему образу и подобию целый класс существ, не имеющих физического воплощения, – цифровые аватары. Сегодня эта технология испытывается в самых разных сферах: движущиеся «картинки» берут на себя функции секретарей, стражей порядка, медийных персон. Активнее всего этот процесс идет в Китае, являющемся пионером в освоении искусственного интеллекта.
Но триумф человека-творца может обернуться крахом. Цифровые аватары получаются слишком реалистичными – в этом их проблема. Неразличимость человека и нечеловека – тема, осмыслением которой занимались поколения фантастов, философов, психологов. Доказано: нам необходимо знать, где пролегает граница между «своими» и «чужими», иначе на подсознательном уровне возникают страх и даже мысли о смерти. «Профиль» с помощью экспертов разбирался, сможет ли перспективная технология преодолеть этот барьер.
Прямой эфир с роботом
В мае китайское государственное агентство «Синьхуа» представило Синь Сяовэя – виртуального ведущего, способного реалистично имитировать человеческую речь, мимику, эмоции и движения. За основу ви
зуального образа была взята внешность Чжао Ваньвэя, штатного репортера издания. Это не первая разработка «Синьхуа». В 2018 году агентство запустило своего первого 3D-сотрудника Ки Хао. Вскоре совместно с ИТАР–ТАСС была разработана русскоязычная версия аватара. С тех пор решения для генерации аудиовизуальных эффектов совершили рывок вперед. «Много улучшений произошло с точки зрения того, как работают механизмы по генерации речи. Сегодня сгенерированную речь зачастую невозможно отличить от человеческой», – рассказал «Профилю» директор Центра компетенций по искусственному интеллекту Crayon Владимир Еронин. То же касается изображений: современные алгоритмы генерируют их настолько качественно, что далеко не всегда можно с первого взгляда отличить искусственную «фотографию» от настоящей. Правда, в движении можно заметить неестественность эмоций, несовпадение голоса и действий цифровых аватаров. «Пока сгенерированные статичные изображения больше похожи на реальных людей, чем динамические», – подтверждает Еронин. По мере технического усовершенствования цифровые аватары будут становиться все более востребованными бизнесом, рассказал футуролог, амбассадор Singularity University Евгений Кузнецов. «Задача компаний – персонифицировать коммуникацию с клиентами, найти индивидуальный подход к каждому. А это проще сделать, если функционал сервиса имеет антропоморфное воплощение. Текстовый чат-бот – неплохо, раздающийся из колонки голос – еще лучше, но если клиент видит, с кем ведет разговор, это воспринимается совсем иначе», – объясняет эксперт. По распространенному мнению, придание визуального воплощения популярным голосовым ассистентам – Алисе («Яндекс»), Алексе (Amazon) или Сири (Apple) – станет следующим шагом их развития. Но прежде ITкомпаниям придется преодолеть так называемую «зловещую долину».
Призраки «зловещей долины»
Этот термин был введен в 1970-х годах японским ученым Масакимо Мори. Он высказал гипотезу о том, как могут вести себя люди при виде антропоморфного робота, изобразив смены настроения с помощью графика. Поначалу человек с симпатией и даже сочувствием относится к движущейся машине – неуклюжей, явно уступающей ему самому. Но по мере того как дистанция между андроидом и человеком сокращается, позитивный настрой сменяется отвращением. «Дна» отношение к человекоподобному существу (той самой «зловещей долины» на графике) достигает в тот момент, когда нельзя с ходу определить, кем оно является, – таким же гомо сапиенсом или «потусторонним» объектом. Почти собрат по биологическому виду, но с некоторыми принципиальными отличиями – такая комбинация вызывает у наблюдателя панические чувства. Не случайно в фильмах ужасов любят эксплуатировать подобные образы – жуткого вида кукол, призраков, клоунов. Концепция «зловещей долины» разделяется не всеми учеными, но так или иначе она стала популярной. На сегодняшний день насчитываются десятки тысяч исследований по этой теме. Для доказательства гипотезы Мори часто используют следующий метод: испытуемому предлагают посмотреть на фотографию реального человека, затем на сгенерированное изображение и наконец на робота, который совсем не похож на человека. С помощью МРТ ученые отслеживают, какие зоны мозга активизируются у человека в момент просмотра изображений, какие эмоции он испытывает. Кстати, в 2009 году группа ученых из Принстонского университета (США) выяснила, что аналогичные негативные эмоции по отношению к роботам могут испытывать обезьяны. Они внимательно изучают фотографии своих сородичей, а при взгляде на робота-обезьяну быстро отводят взгляд.
В последние годы интерес к теме «зловещей долины» подогревается участниками технологических выставок. В частности, среди антропоморфных аватаров прорывом называют проект Neon, выросший из Samsung Technology и Advanced Research Labs. Он был представлен на выставке CES 2020 и якобы «перепрыгнул» «зловещую долину». «Неоны» – это цифровые сущности, которые, по заявлениям разработчиков, выглядят и ведут себя, как настоящие люди, проявляют эмоции и разумность. В компании видят «неонов» в роли учителей, фитнес-инструкторов, финансовых консультантов. Есть и ряд других проектов, авторы которых приближаются к пониманию эффекта «зловещей долины». «Установлено, что этот синдром проявляется по отношению далеко не ко всем человекообразным существам. Негативные эмоции возникают, когда во внешности робота есть что-то ненормальное», – объясняет доктор психологических наук Регина Ершова. Так, в 2007 году исследование японских ученых показало, что для большинства людей самой отталкивающей чертой роботов-гуманоидов стали «странные глаза». Глядя в якобы человеческие глаза и не находя в них жизни, люди начинали испытывать страх и желание отвести взгляд. «Бездушность» может проявляться не только во взгляде. В прошлом году, когда Netflix выпустила кинокартину Мартина Скорсезе «Ирландец», неоднозначную реакцию вызвало «омоложение» культовых актеров (например, Роберта Де Ниро) с помощью компьютерной графики. Критики обратили внимание на неживой, болезненный вид персонажей в динамике и несоответствие внешнему виду манеры движения. В то же время в кино есть и удачные примеры. Так, в фильме «Гемини» Уилл Смит «играет» 50-летнего и 23-летнего персонажей. В этом случае создателям фильма удалось «оживить» молодую версию актера с помощью маркеров и нашлемных камер, которые захватывали мимику дублера. По мнению Евгения Кузнецова, проблема «зловещей долины» будет оставаться головной болью разработчиков в ближайшие 10 лет. «Эта проблема во многом будет решаться через интегрированный человекомашинный интерфейс, когда квалифицированную работу и принятие решений на себя будут брать алгоритмы, а человек будет транслировать эту информацию. Сейчас этот подход часто используют в автоматизированных колл-центрах, где диалоговую часть разговора оставляют операторам, но ответы для них генерирует ИИ», – комментирует эксперт.
Не быть тебе одним из нас
На этом фоне возникает вопрос: нужно ли вообще делать аватары неотличимыми от людей? Стоит ли детальное сходство приложенных усилий? Показательно, что китайское агентство «Синьхуа» от реалистичного 3D-ведущего образца 2018 года пришло к более «мультяшному» облику аватара в 2020-м. То же можно сказать о виртуальной японской певице Хацунэ Мику, созданной компанией Crypton Future Media. Голограмма, визуально напоминающая персонаж аниме, успешно собирает на своих концертах тысячи фанатов по всему миру. Кстати, мода на виртуальных поп-звезд зародилась именно в Японии, но в последние годы перекочевала и в Китай. По разным оценкам, в прошлом году китайские компании, специализирующиеся на создании 3D-моделей исполнителей, смогли заработать около 100 миллионов юаней ($14 млн), а количество цифровых знаменитостей уже достигает 40. Самая популярная из них – Ло Тяньи, голограмма девочки-подростка с серыми косичками и голубыми глазами. По словам создателей, она ненастоящая и именно поэтому может быть идеальной – именно такой, какой каждый фанат хочет ее видеть. В Западном полушарии есть собственные цифровые кумиры. Здесь они обитают на страницах социальной сети Instagram. В 2016 году широко обсуждалось создание аккаунта одной из первых цифровых моделей Лил Микелы (на сегодняшний день он имеет 2,5 млн подписчиков). Разработчики создали вокруг нее миф успешной девушки, которая путешествует, фотографируется в брендовой одежде, поет и даже встречается с реальными людьми. При этом саму Лил Микелу ни с кем не спутаешь: она нарисована в стилистике персонажа компьютерной игры. «Движение от реализма – это правильно. Нам будет проще отличать искусственное изображение, что исключает возможность появления негативных эмоций у пользователя», – соглашается Владимир Еронин. Другой способ «успокоить» того, кто взаимодействует с цифровыми аватарами, – наделить их богатой эмоциональной палитрой. Установлено, что если антропоморфный объект обладает естественной человеческой мимикой, то его поведение не вызывает тревогу (британские исследования под руководством Ричарда Поттера и Мириам Косчат). Руководствуясь этой логикой, новозеландская компания Soul Machines запустила проект Baby X – гиперреалистичную симуляцию младенца с розовыми щеками и большими серьезными глазами. Основатель Soul Machines Марк Сагар в свое время работал над созданием спецэффектов для фильмов «Аватар» и «Кинг-Конг» и был дважды удостоен «Оскара». Он уверен, что через десять лет у каждого человека будет цифровое воплощение, поэтому самое время заняться гуманизацией искусственного интеллекта. В подтверждение этих слов Сагар сделал 3D-копию собственной дочери, которая может реагировать на запросы людей и даже играть на виртуальном фортепиано. В начале 2020 года Soul Machines представила новый проект – виртуального полицейского помощника Эллу. Она не просто запрашивает у посетителя необходимые данные, но также слушает, вникает в суть проблемы, может проконсультировать или связать с необходимой службой. Элла ведет прямой диалог, использует язык тела, мимику, жесты и даже может эмоционально высказываться. В марте новый сотрудник появился в штаб-квартире новозеландской полиции в Веллингтоне. Однако пока в этом направлении не удалось достаточно продвинуться, признает Кузнецов. «Люди не очень хорошо понимают, что такое человеческие эмоции и как их в принципе классифицировать. Как следствие, мы не знаем, на какие эмоции настраивать алгоритмы, поэтому говорить об общении с аватарами на уровне эмоционального интеллекта преждевременно. Тот, кто первым сможет достичь результата, сорвет банк», – считает собеседник. По мнению Кузнецова, в ближайшие пару лет стоит ожидать появления максимально приближенных к реальности голосовых интерфейсов, так как эта технология менее требовательна. Визуальных же копий человека придется ждать еще годами.
Чему научишь, то и пожнешь
Ребенок не просто так стал одним из проектов Soul Machines. Разработчики заложили в Baby X метафору того, что искусственный интеллект по своей сути похож на детей. Он также беззащитен и нуждается в постоянной опеке (подборе «правильных» обучающих данных), пока не станет взрослым и самостоятельным.
Так, в случае с медиа, чтобы ИИ не генерировал оскорбительного и тем более противозаконного контента, нужно внимательно рецензировать информацию, которая послужит базисом для проекта. В противном случае из алгоритма вырастает настоящий монстр. Подобная история произошла с ИИ-ботом по имени Тей, которого Microsoft в 2016 году отправила в вольное плавание по просторам Twitter. Пробыв всего сутки в окружении местной аудитории, алгоритм начал публиковать оскорбительные посты и всячески выражать нелюбовь к разного рода конфессиям и группам людей. В аналогичные ситуации время от времени попадают и цифровые ассистенты, например, голосовой помощник Олег от банка «Тинькофф» и разработанная «Яндексом» Алиса. Первый по прошествии нескольких дней с запуска начал угрожать своим собеседникам, а вторая в течение нескольких месяцев выдавала странные заявления или начинала спорить с пользователями. Сегодня разработчики стараются обучать свои продукты на больших массивах данных и не всегда имеют возможность проверить все, что «поглощает» искусственный интеллект на старте. Поэтому вопрос, что выдаст ИИ в ответ на какой-либо запрос, остается открытым. «Это своего рода черный ящик, – комментирует Владимир Еронин. – Сложив определенные обучающие выборки, можно получить совершенно неожиданный результат». Эксперт отмечает, что даже при качественной проверке стартовых данных остается вероятность задеть чьи-то чувства. Проблема в том, что в речи виртуальных помощников все равно могут попадаться формулировки и сочетания слов, которые, по идее, не должны никого оскорбить, но в контексте звучат неприятно. Ведь нейронные сети не в состоянии постичь этикет человеческого общения. При этом современное ПО, которое анализирует реплики ИИ на предмет корректности высказываний, выдает заключения по принципу вероятностей. То есть оно может постановить, что цифровой аватар подготовил спич, который с вероятностью 10% кого-то оскорбит. Даже если этот процент низок, полностью исключить риск почти невозможно. На этом фоне все чаще обсуждается необходимость регулирования деятельности «умных» алгоритмов – этического со стороны разработчиков и нормативно-правового со стороны государства.
Кто ответит за ИИ?
Россия находится в самом начале нормативного регулирования сферы искусственного интеллекта. Одним из первых шагов стало принятие прошлой осенью Национальной стратегии развития искусственного интел
лекта на период до 2030 года. Также в апреле была представлена Концепция правового регулирования искусственного интеллекта. А в Москве ввели экспериментальный режим для внедрения ИИ. «Он будет длиться пять лет, по результатам планируется усовершенствовать законодательное регулирование технологии, учитывая потребности рынка и интересы граждан», – отмечает старший юрист практики интеллектуальной собственности CMS Russia Ирина Шурмина. На практике ответственность за действия искусственного интеллекта в зависимости от обстоятельств может нести как разработчик технологии, так и обладатель лицензии. «В Евросоюзе придерживаются мнения, что обычно отвечает лицо, которое осуществляет настройку технологии, контролирует риск и получает преимущества от ее использования. При этом в высокорисковых сферах – в медицине и безопасности, на транспорте – планируется ввести повышенную ответственность», – говорит Шурмина. Важным прецедентом в международной практике регулирования ИИ стало ДТП, произошедшее в 2018 году в США с участием Uber, в результате которого беспилотный автомобиль насмерть сбил пешехода. В 2019-м прокуратура округа сняла с Uber ответственность за аварию, но решила провести дополнительное расследование в отношении водителя-испытателя, который в момент аварии находился в автомобиле и теоретически мог ее предотвратить. Когда же на долю алгоритмов выпадает генерация контента – новостей, заметок и аналитических сводок, – важна защита от фейковых новостей. Сегодня многие разработчики заняты созданием технологии, которая позволит отличать такие новости от настоящих, идентифицировать и удалять недостоверную информацию. Анализом текста в подобных решениях занимается все тот же ИИ, однако, в отличие от фильтрации оскорбительных сообщений, существует весьма эффективная механика борьбы. К примеру, алгоритмы обучаются использовать для подготовки статей только первоисточники, отправляя некачественные ресурсы в «черный лист». С искусственно сгенерированными изображениями и видео дела обстоят сложнее. В Китае, например, законодательно запрещено публиковать подобные материалы без подписи, что содержание искусственно создано алгоритмами. В России же использование сгенерированных изображений и видео пока не регулируется. Подводя итог, можно сказать, что мы стоим на пороге больших перемен. Цифровые аватары готовятся шагнуть в разные отрасли экономики, став своеобразной «реинкарнацией» так и не получивших массовое распространение роботов-гуманоидов. Со временем 3D-существа станут обыденностью, но перед этим людям предстоит дать ответ на множество неоднозначных вопросов. ■