<p><strong>Администрация сайта «Мой ГОРОД»</strong>: информационное агентство «mgorod.kz».</p>
<p><strong>Собственник</strong>: ТОО «Медиастарт 2012».</p>
<p>Свидетельство о постановке на учёт ППИ №KZ55VPI00069267 от 28.04.2023 года, выдано МИОР РК.</p>
<p>Дата и номер первичной постановки на учёт №16487-ИА от 04.05.2017.</p>
<p><strong>Директор</strong>: Карин Е.</p>
<p><strong>Главный редактор</strong>: Кайнеденова А.Б.</p>
<p class="mg-footer__address">Уральск, улица Нурпеисовой, 12/1, офис №102.</p>
<p><em>Материалы, опубликованные со знаком ®, а также под рубриками «Новости компаний», «Бизнес» и «Выборы» носят рекламный характер. Ответственность за них несёт рекламодатель.</em></p>
«Компьютерное воображение» научилось создавать картинку по ее описанию
Сверху вниз: исходное изображение, несколько примеров воссозданных картинок и результат поиска в базе по картинкеИзображение: Hiroharu Kato et al./ arXiv.org Исследователи из Токийского университета создали алгоритм для восстановления изображения по его «кусочному» описанию. Такая задача аналогична сборке картинки-пазла: известны типы «кусочков» и их точное количество, необходимо восстановить исходную картинку. По словам авторов, эта работа является важным шагом для области «компьютерного воображения», с его помощью планируется создавать изображения только на основе их текстового описания. Пре
Сверху вниз: исходное изображение, несколько примеров воссозданных картинок и результат поиска в базе по картинке Изображение: Hiroharu Kato et al./ arXiv.org
Исследователи из Токийского университета создали алгоритм для восстановления изображения по его «кусочному» описанию. Такая задача аналогична сборке картинки-пазла: известны типы «кусочков» и их точное количество, необходимо восстановить исходную картинку. По словам авторов, эта работа является важным шагом для области «компьютерного воображения», с его помощью планируется создавать изображения только на основе их текстового описания. Препринт с описанием исследования выложен на сайте arXiv.org.
Созданная авторами программа основана на представлении изображения в виде «мешка визуальных слов» (Bag-of-Visual-Words). Этот метод изначально был создан для анализа текстов, фактически, «мешок слов» представляет собой набор пар «слово» — «число его появлений в тексте». В случае картинок все аналогично, только вместо «слов» используются небольшие усредненные фрагменты изображений.
Из каждой картинки авторы создавали свой «мешок», а затем пытались восстановить из него оригинал, то есть расставить фрагменты в правильном порядке. Для этого ученые использовали два типа параметра «естественности» (naturalness): локальную и глобальную.
Принципиальная схема нового алгоритма Изображение: Hiroharu Kato et al./ arXiv.org
Расположение считалось локально «естественным», если изображения на кусочках плавно переходили друг в друга, не было явных нестыковок. Глобальная естественность оценивалась по базе данных известных изображений. Она определяла, например, что фрагменты неба должны располагаться в верхней части картинки, а лицо человека на портрете — ближе к центру.
Авторы применяли свой алгоритм для восстановления изображений разных жанров. Они оценивали степень схожести полученных «реконструкций», а также определяли, какое оптимальное соотношение должно быть между глобальной и локальной естественностью, так как зачастую эти параметры «в чистом виде» давали совершенно разные результаты.
Оказалось, что среди аналогичных программ новый алгоритм выдавал наилучшие результаты по степени схожести с оригиналом. На многих картинках легко можно угадать изображенный объект, даже не имея под рукой описания или исходного изображения.
Попытки создания изображений по текстовому запросу Изображение: Hiroharu Kato et al./ arXiv.org
В качестве эксперимента ученые также попытались создать изображения «с нуля», основываясь только на текстовом описании. По словам авторов, хоть им и удалось получить изображения, отдаленно напоминающие описание, задание оказалось слишком трудным для их алгоритма.
Проблема складывания пазла хорошо известна в математике, однако впервые ученые применили ее для воссоздания картинки по ее описанию. Помимо области компьютерного воображения авторы планируют использовать алгоритм для оптимизации программ, распознающих изображения. Для их работы нужно классифицировать картинки по набору признаков, но не всегда удается установить, какие признаки оптимально подходят для этой задачи. Реконструкция изображения по заданным признакам и сравнение результата с оригиналом позволит понять, какие признаки оказались значимы, а какие — нет.
Источник: nplus1.ru