Камеры, электронная коммерция и машинное обучение

Бенедикт Эванс, партнер венчурного фонда Andreesen Horowitz, в своём личном блоге задаётся неожиданными вопросами: как развитие "компьютерного зрения" повлияет на розничную торговлю, и изменится ли вследствие этого индустрия моды?

Популярность мобильных устройств означает, что впервые в истории практически у каждого человека на планете есть фотокамера. Люди снимают на телефон намного больше, чем когда-либо снимали на пленку. (см. статью «Сколько кадров?»). Это глобальное изменение, на уровне того, чего добились, скажем, радиоприемники, сделав музыку повсеместной.

С другой стороны, матрица формирования изображения в телефоне — это не просто камера, которая делает снимки. Она участвует в создании новых мобильных пользовательских интерфейсов и сервисов (см. статью «Изображения, Snapchat и мобильные технологии»). Она отражает общий качественный сдвиг в возможностях компьютерной техники (см. статью «От принципа «mobile first» до принципа «mobile native»).

В то же время фото-матрицы являются частью потока дешевых исходных деталей, выходящего из логистических цепочек производителей смартфонов. Они используются во всех других типах подключенных устройств — от систем Amazon Echo и Google Home до дверных замков August и смарт-очков Snapchat Spectacles (и, конечно, в IoT-устройствах, взломанных бот-сетями). В сочетании с облачными сервисами и, в последнее время все чаще, с технологиями машинного обучения эти компоненты превращаются из просто фотокамер и микрофонов в новые конечные устройства или точки распространения услуг — неупакованные части приложений (см. статью «Эхо, интерфейсы и трения»). Этот процесс только начинается — на сегодняшний день, какие-то варианты машинного обучения уже могут встраиваться в очень маленькие и дешевые устройства. Вы можете обучить нейросеть в облаке находить на фотографиях людей, пропустив через нее огромное количество изображений — и при этом запускать этот поиск с помощью простенького ЦПОС и простенькой камеры в пластмассовом корпусе по цене 10-20 долларов за штуку. Такие устройства позволят вам использовать машинное обучение в любом месте — но и машины смогут наблюдать или подслушивать за вами повсюду.

Итак, смартфоны и логистические цепочки производителей смартфонов способствуют быстрому развитию инноваций в пользовательском опыте и устройствах, а машинное обучение направляет весь этот процесс.

Однако, как мне кажется, стоит еще серьезнее задуматься о том, к чему такое «компьютерное зрение» может привести сейчас. Если компьютер сможет распознавать изображения и видео почти так же легко, как текст, к чему это приведет? Раньше вы могли найти в тексте слово «собака», но не могли искать по этому слову картинки. Сейчас вы можете искать и то, и то — и это дает вам кое-какое представление о том, что ждет нас в ближайшем будущем.

Каждый сделанный нами снимок может быть найден или проанализирован для извлечения каких-либо ценных данных, в глобальном масштабе. Любой архив выпусков глянцевого журнала сегодня представляет собой упорядоченный набор данных. То же относится и к видеотрансляциям. Имея такой стимул (и вышеупомянутую логистическую цепочку смартфонов), люди будут перехватывать все больше и больше изображений и видео.

Итак, несколько вопросов на будущее.

Каждый отдельный автомобиль сможет записывать HD-видео с обзором в 360 градусов во время своего движения — это необходимость. Кто будет владельцем этих данных, где их можно будет использовать, помимо вождения, и как это будет сочетаться с нашими представлениями о приватности?
Владелец розничного магазина или администратор торгового центра может установить повсюду дешевые потребительские беспроводные HD-камеры и наконец-то получить возможность отслеживать действия каждого своего посетителя (куда он пошел, на какие товары смотрел и т.д.), а затем совместить эти данные с данными о продажах. Насколько это изменит розничную торговлю (ту, что выживет в процессе)?
Что произойдет с индустрией моды, если всего шесть статичных фотокамер за 100 долларов могут рассказать, кто и во что одевался в течение этого года, выбираясь на прогулку в модный район Лондона Шордич, а уличные фотографии и фотографии в соцсетях позволяют отслеживать тренды от их рождения до выхода на массовый рынок и снова находить новые передовые идеи?
Как изменятся рекомендации на сайтах интернет-магазинов, если система сможет лучше понять ваш вкус, просто изучив ваши фотографии в Instagram и Facebook, не обращаясь к тегам и истории покупок — потому что эту историю можно будет легко отследить по селфи?

Онлайн-продавцы очень хорошо организуют логистику розничной торговли, но существенно отстают в плане помощи покупателю в обнаружении нужного товара и рекомендациях. Еще хуже у них с тем, чтобы показывать им товар, который может им понравиться (см. статью («Facebook электронной коммерции»). Иногда я сравниваю Amazon с универмагом Sears Roebuck столетней давности. В нем можно купить все, что вы могли бы купить в большом городе. Но вот сам опыт покупок будет далек от уровня мегаполиса. (Думаю, именно поэтому застопорились продажи электронных книг — что вы там покупаете?)

А теперь представьте, что вы купили на eBay все выпуски журнала Elle Decoration за последние десять лет, загрузили их в подходящие нейросети, а затем отправили в систему фотографию своей гостиной с вопросом, какие лампы сюда подойдут? Все фотографии журнала с подписями и материал вокруг них — это данные для обучения. При этом если вы не будете показывать пользователю реальную фотографию из этого архива, а только основанную на нем рекомендацию, вам, скорее всего, не придется платить издателю оригинальной статьи ни копейки. (Машинное обучение будет непаханным полем для юристов, специализирующихся в области интеллектуальной собственности.) Пока таких возможностей у нас нет, но мы уже хорошо представляем, как их можно внедрить. У нас уже есть план определения некоторых предпочтений автоматическим образом, в большом масштабе.

Самое главное заключается в том, что впечатляющие презентации технологий «компьютерного видения», которые умеют распознавать собак, деревья или пешеходов, — это всего лишь первые и самые очевидные пути применения фундаментально новой возможности чтения изображений. И компьютеры будут их читать не так, как люди, — они будут обрабатывать миллиарды изображений и находить в них закономерности. Помимо всего прочего, это серьезно скажется на многих предприятиях розничной торговли, включая те ее сферы, на которые Amazon не оказывает никакого влияния, а также на бюджет в 500 миллиардов долларов, который ежегодно тратится на рекламу.

Хотя, на самом деле, мы не знаем всех возможных последствий. Я описал всего несколько самых примитивных способов коммерческого применения этих технологий, но есть и множество других. Наука уже сумела опровергнуть авторство некоторых признанных шедевров живописи — и опознать неизвестные ранее работы старых мастеров. Сможем ли и мы найти (или наоборот, разоблачить) какую-нибудь картину Рембрандта? Сможем ли мы расшифровать документы Каирской генизы всего за десять, а не за сто лет? Когда мы сможем превратить изображения в данные, мы обнаружим множество наборов изображений, о которых мы раньше и не думали как о данных, — а также множество проблем, которые совсем не будут связаны с проблемами распознавания изображений.

Тренды