ТОП 10 лучших статей российской прессы за
Авг. 19, 2020

Манипуляция восприятием — вот чего стоит бояться

Рейтинг: 0

Автор: Марина Ахмедова. Эксперт

«Мне не очень жалко людей, которые считают, что все в интернете правда». Интервью с Артуром Хачуяном, генеральным директором Tazeros Global Systems, программистом, специалистом по обработке больших данных

Все приложения — фейсбук, гугл — говорят: мы, мол, используем алгоритмы только для того, чтобы подобрать для вас релевантный контент. Это ложь. Алгоритмы ушли дальше, и они уже давно не предлагают релевантный контент. Они манипулируют вашим восприятием, они ведут вас в определенную сторону

Фотография Светланы Постоенко

Артур Хачуян в IT-среде признан как один из лучших в России специалистов, создавших инструменты для работы с большими данными. Его рекомендуют как отличного программиста, задающего тренды, и к тому же как человека, который достаточно свободно рассказывает о том, как сам зарабатывает на больших данных пользователей соцсетей. Мы поговорили с ним о секретах слежки за пользователями соцсетей, о торговле их данными, о том, кто и как зарабатывает на наших лайках и репостах. И о том, как при заключении договора с клиентом, происходит еще одна сделка — с совестью.

— Вы не могли бы объяснить по-простому, что такое «большие данные»?

— Это просто набор алгоритмов и подходов к анализу сверхбольших массивов данных. Например, раньше мы имели данные о десяти жителях, и они могли храниться в картотеке на карточках, а теперь у нас есть данные о миллионе, и для того, чтобы их обрабатывать, нам нужны новые подходы. Что такое, например, библиотечная картотека? Способ хранения и систематизации данных. Раньше у нас там лежало сто записей, но сейчас в одном инстаграме каждый день происходит миллиард транзакций. И все это счастье нужно где-то хранить, обеспечивать скорость хранения, скорость записи, доступ в реальном времени к этим данным.

— А что еще хранят эти данные, кроме моих лайков в инстаграме?

— Основной источник данных, находящихся сейчас в обороте, — это данные людей. Мы цифровая валюта. За последние десятилетия люди начали создавать огромное количество данных, поэтому и такой бум больших данных сейчас.

— Но все-таки что это за данные?

— Если мы говорим о системе геоаналитики, то там основным источником информации является перемещение пользователя, то есть человек, его координаты и время перемещения. Мы знаем, где он находился в каждый момент времени. Это может быть база данных мобильного оператора или московского общественного транспорта, в котором стоят джипиэсники и каждую секунду отправляют информацию о том, где находится конкретный автобус. Есть база данных соцсетей, в которой хранится информация о потребляемом человеком контенте, грубо говоря, о его интересах. Например, я наклеил на автобус набор рекламы и хочу знать, сколько человек на нее посмотрит. Для этого я собираю данные из трех баз: первая — мобильного оператора, который хранит данные о ваших перемещениях, вторая — о том, где едет транспорт в конкретный момент времени, третья — ваши интересы. Все эти данные я сваливаю в одну базу. Дальше я строю такие геополигончики и понимаю, какие люди были рядом с каким автобусом в какой момент времени. На основании этих трех источников я могу построить аналитическое решение для операторов наружной рекламы.

— А я подхожу к автобусу, вижу на нем рекламу того, о чем размышляла, купить или не купить, и думаю: «О, это знак свыше!»?

— Верно. Но все гораздо сложнее. Никакие данные в одну корзину не сливают. Это важно. Каждый из игроков этого рынка должен хранить свою информацию у себя, это его ценность. Поэтому были придуманы десятки алгоритмов, чтобы в обезличенном виде всю эту информацию объединять.

— Но всегда нужен человек, который возьмет оттуда, оттуда и оттуда и все это проанализирует?

— Верно. Нужен специалист по анализу больших данных.

— И это вы?

— Да.

— И вы целыми днями копаетесь в больших данных, где много мусора?

— Но я не все делаю сам. Все-таки у меня есть сотрудники. Но если вкратце, то все примерно так и есть, как вы описали. Есть большая база данных, в которую люди складывают все, что найдут, тут неважно, полезное или неполезное. Вообще все. Там куча мусора. И есть ребята, которые занимаются обогащением этих данных, они берут их из этого мусора, просеивают и складывают в базу данных структурированной информации. Этот процесс очень похож на добычу золота. Например, здесь у нас хранится миллион текстовых публикаций о голосовании по поправкам к Конституции. Нам необходимо понять, кто голосовал «за», кто «против». Человек в процессе обогащения этих публикаций может применить различные алгоритмы, например обработки языка. Он может этот миллион сообщений разбить на упоминание каких-нибудь определенных слов. Кто-то писал: «Я голосовал “за”», а кто-то — «Я голосовал “против”». На входе в мусорную базу у нас лежит миллион текстовых публикаций, а на выходе в чистой базе аналитики два числа — «за» и «против». Есть еще третий уровень — аналитика, которая может из чистой базы извлечь знания и отдать клиенту. Те алгоритмы, которые используют сейчас, реально существовали и двадцать лет назад. Просто тогда никто не знал, как извлечь из них коммерческую выгоду. А сейчас данных стало много, и выгоду уже можно извлекать.

— А вы сами, увидев рекламу на автобусе, можете под ее влиянием что-то купить?

— Ну конечно нет! Я работаю со всеми крупнейшими провайдерами Wi-Fi в торговых центрах. Даже сейчас, если вы подключитесь к Wi-Fi того бизнес-центра, в котором мы находимся, информация об этом будет использована. Так же и в метро. Для вас генерится определенный индивидуальный идентификатор, к нему, как дополнительные слои, начинает добавляться информация: ваши расходы, сайты, которые вы посещали.

— А как вы к этому относитесь?

— Да никак. Это двадцать первый век. Я знаю, как работает система изнутри, и я знаю, что там нет моего имени, все это обезличенные идентификаторы. И все-таки здесь бесплатный Wi-Fi. Он же не просто так бесплатный. За него чаще всего даже не владельцы кофеен платят. Если это крупная точка продажи, к ней приходит провайдер и говорит: «Я вам дам бесплатно интернет. Но я буду собирать информацию». Мы валюта.

— То есть в двадцать первом веке надо пересмотреть такое понятие, как индивидуальная свобода? Оно устарело?

— Нет, менять свои убеждения неправильно. Нужно просто во всем разобраться. Есть три уровня абстракции, которая может посягнуть на нашу свободу. Это злые корпорации, кровавое государство и хакеры — американские, украинские, русские, в зависимости от политического контекста. Хакеры действительно могут представлять угрозу, они могут взломать ваш компьютер и украсть секретную информацию или деньги с вашего счета. Но это редкие случаи, подпадающие под действие Уголовного кодекса Российской Федерации. А у корпораций очень хитрый подход. Они же не воруют данные, они просто предоставляют сервис, а мы платим за этот сервис своими данными. Тот же Insragram не просто так потратил десятки миллиардов на создание базы данных, которая хранит фотографии всей вашей еды. За это они показывают нам рекламу. И я считаю, что ругать корпорации за то, что они зарабатывают на наших данных, не совсем правильно, тем более что мы сами им эти данные отдали. В любом случае человек может отказаться от пользования фейсбуком, но это неудобно. Из всех этих абстракций остается только государство, которое может обрабатывать наши данные как ему вздумается, и ни в какой ситуации ему за это ничего не будет. Но и государство следит только за определенной категорией граждан. Честно говоря, за ними бы и так следили снаружи, без использования цифровых технологий. А если мы с вами сейчас не хотим, чтобы за нами следил Wi-Fi этого бизнес-центра, мы просто выключаем Wi-Fi на своем телефоне и пользуемся мобильным интернетом.

Читать в оригинале

Подпишись прямо сейчас

Комментарии (0)

Коментарии могут оставлять только зарегистрированные пользователи.

Другие номера Смотреть всё
Архив ТОП 10
Лучшие статьи за другие дни