Letsenhance

Откуда растут ноги

Super Resolution

  • Video Super Resolution (0,4 миллиона статей) — собственно восстановление с использованием предыдущих (а иногда и последующих) кадров,
  • Image Super Resolution (2,2 миллиона статей) — «умное» увеличение разрешения с использованием только одного кадра. Так как в случае одной картинки взять информацию о том, что было в этом месте на самом деле неоткуда, алгоритмы тем или иным способом достраивают (или, условно говоря, «додумывают») картинку — что там могло бы быть. Основной критерий при этом — результат должен смотреться максимально естественно, либо быть как можно ближе к оригиналу. И понятно, что для восстановления того, что было «на самом деле», подобные методы не годятся, хотя увеличить картинку для того, чтобы она получше выглядела, например, при печати (когда у вас есть уникальное фото, но нет версии в большем разрешении) подобными методами очень даже можно.

Video Super Resolution15 минутFast Video Super Resolution
муаромна основе этой нашей работы
бикубической интерполяцией
Lanczos4

Poem Portraits

Этот сервис – результат сотрудничества Google Arts и Culture Lab. Он создает из фотографий портреты со стихотворениями.

Чтобы получить уникальный портрет, нужно сначала ввести любое слово, которое должно присутствовать в стихе. А потом разрешить доступ к камере. Через несколько секунд получите готовый «стихотворный» портрет.

Как бы загрузить изображение, чтобы не фоткаться? – не получится

Есть два нюанса:

  • указывать слово нужно на английском, нейросеть пока не умеет распознавать другие языки;
  • загрузить чье-то фото не получится, нейросеть работает только с камерой вашего устройства.

Возможно, нейросеть будет развиваться дальше и сможет обрабатывать не только фото, сделанные здесь и сейчас. А пока ее можно использовать, чтобы генерировать контент для личного аккаунта: например, удивлять подписчиков в Instagram.

Функция потерь восприятия

Определение функции потерь важно для эффективной работы генеративной сети. Обычно функция моделируется на основе среднеквадратичной ошибки, но в этой работе используется её улучшенный вариант

Мы оцениваем решение с учётом значимых характеристик восприятия — взвешенной суммы потерь содержания и состязательных потерь.

Потери содержания определяются на основе слоёв активации ReLU предварительно обученной VGG сети и определяются как евклидово расстояние между признаками восстановленного и опорного изображений.

Потери восприятия заставляют сеть отдавать предпочтение естественным изображениям, пытаясь обмануть дискриминатор. Они определяются на основе вероятности того, что восстановленное изображение является исходным HR-изображением.

Как обработать фото нейросетью

Теперь перейдём к собственно улучшению фотографий с помощью нейронных сетей. Как ни странно, в App Store полно приложений, которые предлагают такую возможность, но я почитал отзывы и остановился на Remini. Это приложение, которое распространяется бесплатно, но при этом позволяет обработать только 5 фотографий в день. Если у вас есть потребность в обработке большего количества снимков, придётся купить подписку.

  • Скачайте Remini из App Store себе на iPhone;
  • Запустите приложение и разрешите доступ к камере и фото;

Нейросети могут серьёзно улучшить качество старых фото

  • На главном экране нажмите Enhance и выберите фото для обработки;
  • Дождитесь, пока нейронные сети обработают снимок и сравните результат.

Если лица людей на фотографии будут более-менее различимы, Remini предложит сделать из них отдельные портретные фото. Правда, их качество будет напрямую зависеть от качества исходной фотографии и отсутствия повреждений.

Это портретные фото, которые делает Remini. Сравните качество фотографий наверху с фотографиями внизу

Например, если на фотокарточке имеются царапины, нейросети могут принять их за дефекты изображённых на ней людей. Результат будет соответствующим. Но, если проблем нет, качество портретного снимка получится отличным.

Что там под капотом

Внутри работают два нейросетевых алгоритма. 

Первый — ImageNet из OpenAI. Он генерирует картинки 256 на 256 пикселей. Его задача — получить картинку максимального качества. Для этого он раз за разом улучшает детализацию и делает картинку чётче и подробнее.

Второй алгоритм — CLIP: он соединяет текст с картинками. Изначально CLIP создавался для того, чтобы, наоборот, распознать, что изображено на фото. Но в этом алгоритме он работает в обе стороны — говорит, что нужно сделать, а потом раз за разом проверяет, что получается.

Вместе они работают так:

  1. CLIP говорит второму алгоритму, к какой картинке она должна стремиться.
  2. ImageNet старательно делает первый набросок и показывает его.
  3. CLIP оценивает, насколько это совпадает с запросом, и говорит, в каком направлении нужно двигаться дальше.
  4. ImageNet делает второй набросок и показывает его снова.
  5. Так продолжается до тех пор, пока CLIP не скажет «всё, хорош» или когда точность приближения, по мнению нейросети, не будет ниже той, что нужна для остановки.

Откуда нейросеть всё это знает

Чтобы алгоритм мог сопоставлять слова с картинками, нейросеть специально обучали на огромном множестве изображений с описаниями. Там было всё: и фото людей, и котят, здания, игры, машины, книги, чашки, свитеры, чугунные ванны и фарфоровые статуэтки.

Если бы не было такого набора с данными, нейронка сама бы не поняла, что кошка — это кошка, и выдавала бы просто квадрат из несвязных пикселей.

Получается, что эти два алгоритма в связке просто пытаются подражать тем изображениям, на которых они были обучены. Они не обладают собственным образным мышлением и не придумывают ничего с нуля — лишь берут огромную базу существующих впечатлений и комбинируют их по инструкции. 

Похожим образом работает «Балабоба» Яндекса — это нейросетевой алгоритм, обученный на огромном корпусе текстов из интернета. Когда мы даём задание «Балабобе», алгоритм дёргает нужные фразы из корпуса и выдаёт результат. 

Текст:

Михаил Полянин

Редактор:

Максим Ильяхов

Художник:

Даня Берковский

Корректор:

Ирина Михеева

Вёрстка:

Кирилл Климентьев

Соцсети:

Олег Вешкурцев

Логотипы

Logojoy — сайт, генерирующий логотипы. Разработчики системы считают, что сегодня создать качественный логотип можно быстро и без дизайн-студий. Полезное действие Logojoy — дать владельцам бизнеса больше свободы в брендинге.

Создатели сервиса внедрили машинное обучение и нейронные сети в графический дизайн и упростили создание логотипа. Сайт генерирует логотип и фирменный стиль на основе понравившихся пользователю иконок, стилистических и цветовых решений. Указываете сферу деятельности и название компании, выбираете пять логотипов, столько же цветовых схем и иконок — и через минуту система генерирует варианты логотипов. Их много — мы так и не смогли пролистать ленту до конца.

Варианты логотипов, которые предложила нам система. Не ДжонФедор, но начинающей компании пригодится

Посмотреть логотипы можно бесплатно, но за скачивание в хорошем качестве придется заплатить 20 $. Полный пакет с логотипом в растре и векторе, водяной знак, авторские права и фирменный стиль стоят 65 $. Те, кто не уверен в предложенных вариантах, могут сделать скриншот понравившихся и показать дизайнеру, который на их основе сделает логотип.

Для российских пользователей 65 $ за логотип — не совсем бюджетный вариант. Отечественный аналог Logojoy — «Турболого» — делает то же самое, но дешевле. Логотип в низком разрешении стоит 690 рублей, одиннадцать файлов с логотипом, включая версию для печати, — 990 рублей, а за бизнес-пакет с дополнительным набором для соцсетей, фирменной документацией, водяным знаком и фавиконкой придется заплатить 2290 рублей. «Турболого» работает на той же системе машинного обучения и нейронных сетей, что и Logojoy.

Лучшие логотипы за апрель 2018 по версии разработчиков «Турболого»

Популярные логотипы, истории знаменитых брендингов, лайфхаки для дизайнеров, разработчиков и владельцев бизнеса компания «Турболого» публикует в блоге.

Convolutional Network

Этот сервис создан учеными из Ноттингемского университета. В качестве основы они использовали сверхточную нейросеть, использующуюся для распознавания объектов. Сервис умеет делать 3D-модели лица на примере одного фото.

Чтобы начать обработку фото, достаточно сфотографироваться или загрузить нужное изображение и подтвердить, что вы не робот. Чтобы результат был нормальным, создатели нейросети рекомендуют выбирать фото крупным планом без лишних деталей.

Обработка занимает 3-4 секунды, а сам результат можно «потрогать» мышкой или скачать в формате .obj.

Так выглядит 3D-маска лица актера Аарона Джексона – вполне реалистично и узнаваемо

Фото

Let’s Enhance — сервис, улучшающий фотографии с низким разрешением. Его основатель Александр Савсуненко давно занимается машинным обучением, и после неудачного проекта по производству ДНК-тестов Titanovo решился на новый стартап. Идею для сервиса Александру подсказал отец — он продает камины, сауны и аксессуары для них, и товар возит из разных стран, в том числе из Китая. О качестве фотографий китайских товаров известно по AliExpress: большинство снимков — низкого разрешения, размещать их на сайте стыдно.

Тогда Александр Савсуненко совместно с разработчиком Владиславом Пранскевичусом создали Let’s Enhance. Сервис убирает jpeg-артефакты с фотографий, увеличивает разрешение в 4 раза, восстанавливает детали и увеличивает четкость снимков.

Перед обработкой система предлагает выбрать способ — улучшить разрешение фотографии или рисунка, логотипа или комикса, добавить текстуру, поправить цвет

Работает система на основе трех нейронных сетей, которые учатся улучшать фотографии. Технология Super-resolution обучается на базе из сотен тысяч фотографий низкого и высокого качества. Нейросеть обрабатывает два снимка, восстанавливает детали и сохраняет четкие линии, опираясь на знание типовых объектов и текстур. Вторая нейросеть — Boring — увеличивает четкость изображения. Третья — Magic — дорисовывает детали, которых нет на фотографии, чтобы сделать снимок более реалистичным.

Так работает нейросеть Boring, которая лучше всего восстанавливает текст, логотипы и комиксы. «Boring is not so boring» — говорит Александр Савсуненко

Сначала сервис был бесплатным, и пользователям разрешали обрабатывать любое количество фотографий. Сейчас сайт работает по подписке — без нее можно обработать только пять изображений. Для покупки доступны пакеты на 20, 50, 120 фотографий или подписка на месяц или год. Обработка двадцати изображений стоит 5 $, месячная подписка с возможностью обработать до тысячи фото — 7 $, годовая — 52 $.

Еще одна нейросеть для улучшения фотографий — программа от NVIDIA. Исследователи компании анонсировали технологию как алгоритм, который «может исправить зернистые фотографии одним взглядом».

Обучается NVIDIA схоже с Let’s Enhance — сравнивает фотографии с шумом и без. Нейросеть умеет удалять артефакты, шум, зерно. Создатели NVIDIA считают, что технологию уже можно использовать для улучшения изображений МРТ, а в будущем  — применять для визуализации в медицине.

Исследователи NVIDIA в ролике об ИИ демонстрируют работу технологии

Эксперименты

Исследователи использовали лазерную оптическую установку и три различных метода  реконструкции изображения: классический алгоритм Гершберга–Сакстона, нейросеть со сквозным обучением и физически обоснованную нейросеть Процесс восстановления оценивался для различных уровней зашумлённости изображения. 

Схема установки. VND: светофильтр (variable neutral density filter), P1-P2: поляризаторы, L1: линза 10x, L2: линза 100 мм, L3: линза 230 мм, L4: линза 100 мм, F1: камера обскура 5 мкм, F2: механическая диафрагма IRIS, SLM: пространственный модулятор света (Spatial Light Modulator), EM-CCD: матрица с управляемым вторично-электронным умножителем.

Световой луч в установке генерируется гелий-неоновым лазером с рабочей длиной волны 632.8 нм, расположенной в красной части видимого спектра.

Гелий-неоновый лазер

Для каждой категории изображений (ImageNet и IC) и уровня шума обучалась отдельная глубокая нейросеть. Примеры разделены на обучающую, тестовую и проверочную выборки, содержащие 9500, 450 и 50 фотографий соответственно. Исследователи использовали сеть с архитектурой «энкодер-декодер» из своей предыдущей работы, добавив в неё один дополнительный слой.

В таблице ниже указаны уровни шума для каждого эксперимента (они относятся к исходному падающему лучу без модуляции на SLM):

Условия освещения одинаковы как у изображений микросхем, так и у набора ImageNet. Количество фотонов считается для каждого пикселя и усредняется по участку фотографии, на который попадает лазерный луч (без модуляции на SLM). Сигнал/шум (SNR) также усредняется по всему полю зрения, а предел SNR — это квадратный корень из числа фотонов.

Где попробовать

Для работы с алгоритмом достаточно интернета и гугловского ноутбука в облаке. Мы уже писали про jupyter-ноутбуки, но на всякий случай вот суть:

  1. Ноутбук — это среда выполнения для кода, которая позволяет сразу видеть результат работы всех частей кода. В нашем случае это среда для Python, но бывают и ноутбуки для других языков.
  2. Можно эту среду запустить на своём компьютере, а можно использовать облачные ноутбуки. Если запускать у себя, то ноутбук сможет использовать все системные ресурсы и работать быстрее. Если в облаке — ресурсы облачного компьютера. 
  3. Пример такого облачного ноутбука — «Гугл Колаб». Им можно делиться с кем угодно, и тот, у кого есть ссылка на ноутбук, может тоже запустить тот же самый алгоритм. 

Вот . На всякий случай мы сделали свою копию, если вдруг исходный ноутбук будет недоступен.

Fontjoy

Тот самый момент, когда нейросети добрались и до типографики. Как всё начиналось? Создатель Джек Киао обучил нейронную сеть классифицировать шрифты. Потом Джек составил карту шрифтов с помощью нейронки. В результате появился Fontjoy, который подбирает сочетания шрифтов при помощи этого обучаемого алгоритма.

Как это работает?

Нужно нажать кнопку «Generate». Далее выбирается степень контраста между шрифтами: от максимальной схожести до максимального различия. Дополнительно можно зафиксировать любой нужный шрифт и подбирать пару к нему. Пока хорошо сочетается не так много вариантов как хотелось бы, но точно лучше случайного выбора. Думаю, через годик будет совсем круто, если Джек не забросит проект.

Как раскрасить чёрно-белые фото на iOS

Ну, и финалочка – это колоризация, или раскрашивание чёрно-белых фотографий. В Remini есть возможность придать старым снимкам цвет. Забегая вперёд, скажу, что получается очень круто, особенно со старинными снимками.

  • Для окрашивания фотографии нажмите Colorize;
  • Выберите фотографию для окрашивания;

На мой взгляд, получается довольно естественно

  • Дождитесь завершения процесса (он может занять несколько минут);
  • Сохраните фотографию, если она вам понравилась.

Как и во всех процедурах выше, результат окрашивания будет напрямую зависеть от качества исходного снимка. На фотографиях из моего семейного архива из 19-го века качество окрашивания получается не без огрехов.

Колоризация старых фото будет качественнее, если оцифровать их с помощью сканера, а не камеры смартфона

Посмотрите на руку мужчины на первом фото девочки — на втором: выглядят они довольно крипово. Но, с другой стороны, очень радует, что нейросети не пытаются сделать из старинных фотографий современные и не перебарщивают с колером.

Что может «Google Камера»?

Несмотря на обилие уникальных программных фишек, ключевыми можно назвать несколько режимов:

  • HDR+ — это апгрейд механизма обработки HDR (High-Dynamic Range). При его активации камера делает несколько недоэкспонированных снимков. Затем алгоритмы объединяют их в одну фотографию и обрабатывают промежуточный вариант для подавления шумов, усиления резкости и насыщенности. В результате — фотография с широким динамическим диапазоном, реалистичной насыщенностью и прорисовкой.
  • Night Sight — продвинутый вариант HDR+, позволяющий делать приемлемые снимки в условиях недостаточного освещения. Когда пользователь нажимает на кнопку спуска затвора, приложение делает до 15 кадров, склеивает их в один снимок, определяет точные цвета с учётом того, что результат не должен выглядеть так, будто он сделан при дневном освещении. Камера также оценивает наличие движения и настраивает время экспозиции для каждого промежуточного кадра.
  • Photo Sphere (3D-панорама) — режим, в котором можно создать полноценный 360-градусный снимок окружающего пространства. Приложение предложит сделать несколько снимков вокруг пользователя, а затем склеит их, попытавшись устранить искажения и сдвиги. На выходе получится единое сферическое изображение, которое можно просматривать в VR-режиме.
  • Super Res Zoom позволяет осуществлять цифровое приближение с качеством, приближенным к оптическому зуму. Здесь снова помогает механизм со съёмкой нескольких кадров и их склейкой. Алгоритм использует естественный тремор рук пользователя, чтобы немного перемещать объектив в пространстве: снимки с разных позиций (с разницей в несколько пикселей друг от друга) позволяют получать точные данные о цветах в кадре.
  • Portrait Mode (Портрет) — режим, в котором без специальных сенсоров камера отделяет передний фон от заднего, размывая последний. Так создаётся эффект боке. При помощи машинного обучения и создания карты глубины через двухпиксельную автофокусировку «Google Камера» сегментирует снимок на передний и задний план, а затем относительно этих данных накладывает полупрозрачный фон на пиксели в зависимости от их удаления от точки съёмки.

Вот несколько примеров снимков на «Google Камеру» в сравнении с Oxygen Camera, установленных на смартфон OnePlus 7.

GCam_7.3.018_Urnyx05-v1.3Oxygen CameraGCam_7.3.018_Urnyx05-v1.3Oxygen CameraGCam_7.3.018_Urnyx05-v1.3Oxygen CameraGCam_7.3.018_Urnyx05-v1.3Oxygen Camera

Как видно из примеров, GCam снимает заметно лучше, чем оригинальная камера смартфона, хотя OnePlus тоже применяет фирменные алгоритмы для обработки фотографий.

Smart Sketch

Еще один сервис, демонстрирующий работу нейросети GauGAN от Nvidia. Модель нейросети назвали в честь художника Поля Гогена. Сам сервис превращает схематичные зарисовки в сносные пейзажи, используя результаты обработки более 1 млн фото, полученных от Flickr.

Чтобы получить пейзаж, схематично нарисуйте его. В демонстрационной версии Nvidia для этого есть все необходимое – можно выбрать кисти для травы, холма, камней, деревьев и других элементов. Если вы знакомы с английским хотя бы на базовом уровне, проблем не возникнет.

Так выглядит результат работы нейросети: детский рисунок превратился во вполне приемлемый пейзаж

От фотографий — к видео

Все исходные видеофайлы содержат избыточную информацию и занимают большой объем. Поэтому давно были разработаны алгоритмы сжатия, которые разбивают их на ключевые кадры (по сути — серии фотографий) и дельта-фреймы (частичные кадры, содержащие только изменения по отношению к ключевым кадрам). Чем чаще мы создаем ключевые кадры, тем более точным сохраняется описание каждой сцены, но тем сильнее растет избыточность и размер файла.

Похожий принцип используется и в TPN для добавления изначально отсутствующих данных о цвете. После раскрашивания человеком одного ключевого кадра вручную он анализируется нейросетью. Затем она транслирует выявленные закономерности цветовой заливки на дельта-фреймы.

Обычно новый ключевой кадр создается после каждых 30-60 промежуточных. Соответственно, нейросеть экономит ручной труд в 30 раз и более. Если на обрабатываемом участке видео не было смены планов, то следующий ключевой кадр будет мало отличаться от исходного и AI также попытается раскрасить его автоматически по аналогии.

Как видите, самой сложной задачей остается сохранение единого стиля. Человек понимает, что у рубашки одинаковые рукава, и знает, какого цвета была лента на форменной шляпе. ИИ «мыслит» на уровне пиксельных групп и не владеет информацией о свойствах объектов. Он просто переносит данные о цвете с частей продемонстрированного примера на все похожие изображения.

Архитектура сети

Цель SISR — реконструировать изображение с высоким разрешением (SR) из входного изображения с низким разрешением (LR), которое является уменьшенной копией изначального снимка (HR). Изображения HR доступны только во время обучения, а LR создаются применением к ним фильтра Гаусса с последующей операцией понижения дискретизации (downsampling) и описываются с помощью действительного тензора.

Задача состоит в том, чтобы обучить генеративную функцию, которая для входного LR-изображения оценивает соответствующий HR аналог. Для этого мы обучаем GAN как cвёрточную нейронную сеть (convolutional neural network, CNN) прямого распространения с оптимизацией специфичной для SISR функции потерь восприятия.

Функция потерь восприятия генерируется как взвешенная комбинация нескольких компонентов, которые моделируют различные желаемые характеристики восстановленного SR-изображения.

Далее мы определяем дискриминаторную сеть (Discriminator Network, дискриминатор) и последовательно оптимизируем её вместе с генеративной сетью (генератором) для решения состязательной проблемы min-max. Общая идея заключается в том, чтобы обучить генеративную модель «обманывать» дискриминатор, который обучен отличать SR изображения от реальных. С помощью такого подхода генератор может научиться создавать решения, очень похожие на реальные изображения, и, следовательно, трудно классифицируемые дискриминатором.

В основе генеративной сети находятся B остаточных блоков с идентичной компоновкой. В каждом блоке находятся два свёрточных слоя с небольшими ядрами 3×3 и 64 картами признаков, за которыми расположены слои пакетной нормализации. В качестве функции активации используется PReLU (Parametric Rectified Linear Unit). Входное изображение увеличивается попиксельно с помощью двух свёрточных слоев.

Чтобы отличить реальные HR-снимки от сгенерированных образцов SR, необходимо обучить дискриминаторную сеть, используя функцию активации LeakyReLU и избегая формирования подвыборочных слоёв во всей нейросети. Дискриминаторная сеть содержит 8 свёрточных слоёв с возрастающим числом ядер фильтра 3×3 (с 64 до 512, каждый раз увеличиваясь в 2 раза, как в VGG сети). Пошаговые свёртки используются для уменьшения разрешения изображения каждый раз, когда число признаков удваивается. Полученные 512 карт признаков сопровождаются двумя плотными слоями и конечной сигмоидной функцией активации, чтобы получить вероятность классификации объекта.

Архитектуры обеих сетей показаны на рисунке.

This Person Does Not Exist

Сотрудник Uber Филипп Ван создал сервис, генерирующий человеческие лица. Он работает на основе генеративной нейросети StyleGAN от Nvidia.

Фото человеческих лиц генерируются автоматически на основе миллионов обработанных изображений. Система анализирует их и создает собирательный образ. Каждый раз, когда обновляете страницу, появляется новое лицо. Вы можете подумать, что где-то видели этого человека, но его на самом деле нет. Этот сервис – раздолье для тех, кому нужны фейковые фото для отзывов, или тех, кто боится нарушить авторские права при использовании фотографий людей.

Возможно, вы увидите что-то знакомое в этой девушке. Но можете не переживать – использовав это фото, вы ничего не нарушите

В большинстве случаев нейросеть выдает действительно качественные фото. Но случаются и ошибки – например, размытие одной области или добавление постороннего объекта на фото, приводящее к искажению.

Пример сгенерированного фото с ошибкой

Возможности Intel® AI

Добавляйте функции искусственного интеллекта в ваши приложения с помощью Windows Vision Skills*. Предлагайте приложения искусственного интеллекта с аппаратным ускорением, используя заранее обученные модели с возможностями предварительной или последующей обработки и анализа результатов. Добейтесь ускорения вычислительных процессов с использованием новейших центральных, графических и визуальных процессоров, а также сетевых ускорителей GNA (Gaussian Network Accelerators).

Этот высокопроизводительный и надежный прикладной программный интерфейс для обработки логических выводов машинного обучения на устройствах под управлением Windows позволяет разработчикам использовать обученные модели в приложениях Windows, написанных на языках C#, C++ или JavaScript*. Машинное обучение для Windows — это решение экосистемы для искусственного интеллекта на ПК. Аппаратная оптимизация Intel делает такие приложения энергоэффективными и высокопроизводительными.

Данный инструментарий предназначен для разработчиков, нуждающихся в возможностях аппаратной оптимизации и поддержке различных операционных систем. Ускорьте разработку высокопроизводительных приложений компьютерного зрения и логических выводов глубинного обучения. Используйте возможности глубинного обучения с аппаратными ускорителями и функциями упрощенного развертывания на различных платформах Intel (центральные и графические процессоры с Intel Processor Graphics, а также виртуальные процессоры). В данный дистрибутив входит инструментарий Intel Deep Learning Deployment Toolkit с оптимизатором моделей и механизмом создания логических выводов.

Инфраструктура Core ML* от компании Apple* поможет вам ускорить возможности доменного машинного обучения, такие как анализ изображений, обнаружение объектов и обработка естественных языков. Инфраструктура машинного обучения Core ML позволяет вам использовать преимущества процессоров Intel и архитектуру Intel Processor Graphics Architecture для создания и запуска рабочих нагрузок машинного обучения на устройствах. В результате, ваши данные остаются на устройствах, что исключает зависимость от сетевых подключений и сетевые угрозы.

Процессоры Intel

Ускоряйте работу приложений глубинного обучения с помощью этого эффективного вычислительного решения. Получите доступ к аппаратным ресурсам с помощью WinML и комплекта Intel Deep Learning Deployment Toolkit (доступен вместе Intel Distribution of OpenVINO Toolkit) для вывода на рынок продукции с возможностями искусственного интеллекта.

Графические технологии Intel

Доступные вместе со многими компьютерами на базе решений Intel, графические технологии Intel обеспечивают доступ к мощным возможностям для ускорения обработки ваших самых сложных выходных данных. Эти технология обеспечивает работу WinML и Intel Distribution of OpenVINO Toolkit для эффективного ускорения графических процессоров.

Ускорение логических выводов глубинного обучения

Визуальный процессор Intel Movidius

Это устройство открывает новые интеллектуальные возможности и повышает эффективность в расчете на ватт потребляемой мощности, а также поддерживает обработку данных компонентов камеры, компьютерного зрения и углубленного изучения. Оно идеально подходит для использования в автономных сервисных роботах, дронах, умных IP-камерах, системах цифровой безопасности и видеонаблюдения, в умных домах, носимых устройствах и для многого другого.

Как оцифровать фото на iOS

Оцифровка старых (да и не очень старых, впрочем, тоже) фотографий – это простой и быстрый процесс. Google максимально автоматизировала работу своего приложения, а потому всё, что от вас, по сути, потребуется, — это сфотографировать на смартфон фотокарточку с нескольких ракурсов.

  • Скачайте Фотосканер из App Store себе на iPhone;
  • Запустите Фотосканер и разрешите доступ к камере;

Лучше всего оцифровывать фото без вспышки

  • Разместите фотографию так, чтобы на неё не попадали прямые солнечные лучи, но при этом в помещении было достаточно светло;
  • Сфотографируйте снимок с общего ракурса, а потом с каждой из четырёх сторон, совмещая кружочки на экране друг с другом.

Важный момент: если в помещении, где вы ведёте съёмку, достаточно светло, вспышку лучше отключить. Без неё цвета на оцифрованном фото получатся более естественными. После того как алгоритмы приложения совместят снимки друг с другом, вы сможете увидеть результат во встроенной галерее. Здесь оцифрованный снимок можно немного подредактировать, например, перевернув его или обрезав. Других параметров настройки не предусмотрено, что, впрочем, и понятно – это приложение для оцифровки, а не фотошоп.

Let’s Enhance

Сервис работает на основе нейронных сетей, которые учатся восстанавливать детали, опираясь на данные о часто встречающихся текстурах и объектах. Он позволяет увеличить разрешение изображения в 4 раза без потери качества.

Недавно разработчики добавили возможность увеличения разрешения до 16 раз. Но это не единственная функция сервиса. Он может добавлять текстуры, улучшать цвета, делать иллюстрации более четкими и красивыми. Просто загрузите файл и выберите, что нужно с ним сделать.

Разрешение фото увеличилось, но качество осталось прежним

Этот сервис можно использовать, чтобы запускать кампании в рекламных сетях, имеющих жесткие ограничения. Например, если сеть не позволяет загружать креативы размером менее 1000 px по ширине, можно использовать сервис для увеличения разрешения.

Нейросети для удаления фона

Начнем с простых задач. Далеко не у всех есть фотошоп, и тем более — желание его осваивать. В 2021-м есть выход — это обработка фото нейросетью. Причем не только фото! Но обо всем по порядку.

Сервис Remove Background быстро стал популярным среди SMM-щиков и дизайнеров. Нейросеть убирает фон практически на любой фотографии в считанные секунды. Не нужно обводить объект инструментом “лассо”, как в фотошопе, или платить деньги. Remove.bg быстрый и бесплатный.

Посмотрите, как нейросеть удаляет фон:

На удалении фона изображений разработчики не остановились. Спустя несколько месяцев создатели Remove.bg выпускают еще один незаменимый продукт — Unscreen.bg. Эта нейросеть научилась удалять фон с любого видео

Результат фантастический, при этом неважно, использовался хромакей или нет

Посмотрите, как нейросеть убирает фон:

На удалении фона изображений разработчики не остановились. Спустя несколько месяцев создатели Remove.bg выпускают еще один незаменимый продукт — Unscreen.bg. Эта нейросеть научилась удалять фон с любого видео

Результат фантастический, при этом неважно, использовался хромакей или нет

Если о сервисах выше вы могли где-то слышать, то эта нейросеть для фотографий точно вам не встречалась. ObstructionRemoval — уникальный ИИ, который научили удалять преграды на изображениях. Например, решетку в зоопарке, стекло с бликами, грязь и прочее. Фото с помощью нейросети становятся чище. Вот как все работает:

Результаты

Примеры реконструкции тестовых фотографий из ImageNet и IC с двумя экстремальными уровнями фотонов показаны на рисунке:

Здесь (a-b) — истинные изображения из датасетов IC и ImageNet, (c-f) — необработанные изображения, (g-j) — восстановление c-f с помощью алгоритма Гершберга-Сакстона, (k-n) — реконструкция с помощью сквозного обучения DNN, (o-r) — аппроксимация изображения, (s-v) — реконструкция с помощью физически обоснованной DNN.

DNN очень эффективно справляется с подавлением зернистости, а обучение с физической обоснованностью помогает лучше восстанавливать изображения даже с одним фотоном на пиксель. 

Результаты показывают, что глубокие нейронные сети можно использовать не только для обычного улучшения освещённости, но и для реконструкции прозрачных объектов, таких как биологические ткани и клетки. Например, при рентгене можно использовать меньшую дозу облучения и применить реконструкцию к полученному снимку — это поможет снизить риск онкологических заболеваний у пациентов. А в биологических исследованиях похожим образом можно уменьшить ущерб, причиняемый изучаемым образцам клеток.

⌘⌘⌘

С оригинальной статьёй можно ознакомиться на сайте arxiv.org.

Серверы с GPU для обучения нейросетей

Нейросети для создания фото людей и аватарок

Следующие сервисы способны сгенерировать лицо человека или аватарку для соцсетей. Результат выглядит естественно и отличить работу нейросети от настоящего фото практически невозможно.

Еще год назад сервис пребывал в зачаточном состоянии и выдавал достаточно сырые результаты. Однако разработчики не забросили свою идею — и вот, на 2020 год в архиве нейросети более миллиона сгенерированных лиц живых людей. Самое то для аватарок в соцсетях. Например, чтобы пофармить аккаунты Facebook, а?

В Generated.photos есть удобный фильтр — можно сгенерировать лицо конкретного пола и возраста, выбрать цвет глаз и волос, длину прически и даже эмоцию на лице. Нейросеть работает безупречно.

Более простой по функционалу, но от этого не менее прекрасный сервис по созданию лиц несуществующих людей. Чтобы нейросеть сгенерировала онлайн фото, достаточно зайти на сайт и обновлять страничку. Варианты, которые подходят под ваши цели, сохраняются в формате jpg. Изображения получаются натуральными — можно использовать в отзывах, соцсетях и пр. Посмотрите, как работает нейросеть для фотографий:

ThisPersonDoesnotExist обработала миллионы человеческих лиц и создает новые на основе собирательных образов. Начинка сервиса — генеративная нейросеть StyleGAN от Nvidia.

А вот и один из самых интересных экземпляров нашей подборки. Нейросеть для создания дипфейк-видео из обычных картинок. Фото с помощью нейросети превращаются в анимацию. Для этого используется технология First Order Motion Model. Изначально код был опубликован на гитхабе, но энтузиасты уже перенесли все в Telegram-бота. Ребята даже анимировали жуткую голову из рекламы телекомпании “ВИД”:

На обработку 1 секунды видео требуется примерно 7 секунд времени, поэтому иногда в боте образовываются очереди. Подобную махинацию можно провернуть с любой фотографией, результат вас приятно удивит.