Тестуємо ШІ-застосунки для генерації зображень

Фото - Тестуємо ШІ-застосунки для генерації зображень
Експансія штучного інтелекту стала особливо помітною у сфері генерації зображень. Нейромережі, що навчені на величезних масивах даних, тепер здатні створювати реалістичні і навіть сюрреалістичні картинки за текстовим описом.
Ми протестували декілька загальнодоступних популярних ШІ-застосунків і готові поділитися своїми враженнями.
Сервіси оцінювали за кількома параметрами:

  • якість зображень;
  • стилістична різноманітність;
  • зручність використання;
  • вартість підписки.

Всі застосунки ми тестували на одному текстовому завданні: ”Black and white dogs play with a red ball” (”Чорний та білий собаки граються з червоним м'ячем”). Для тесту було обрано два напрями — реалізм і анімація.

Leonardo.ai

Застосунок, який використовує власну технологію Alchemy та дозволяє генерувати зображення з високим рівнем деталізації та реалістичності. Є широкий вибір налаштувань і стилів. Наприклад, можна створити картинку у гіперреалізмі, 3D, на прозорому тлі.
Крім того, в Leonardo можна обробляти вже готові зображення: робити корекцію кольору, додавати різноманітні ефекти, стилізувати під різні артнапрями.

Тестовий (безкоштовний) період триває добу. До того ж користувач отримує 150 токенів (генерація однієї картинки коштує 3 токени). На кожен запит можна створити від 1 до 8 картинок (тобто ви самі можете обрати кількість пропонованих варіантів опрацьованого запиту). Залежно від кількості створених зображень вартість може коливатися від 3 до 24 токенів.
Застосунок підтримує лише одну мову, тому запит має бути введений англійською.
Недоліком можна вважати доволі перевантажений деталями інтерфейс. Початківцям доведеться витратити чимало часу, щоб розібратися у всіх можливостях програми.

З мультяшними собаками (3D Animation Style) склалося не з першої спроби. Застосунок дуже довго не розумів, що “чорний та білий” і “чорно-білий” — це різні речі. До того ж створені зображення часто містили нелогічну кількість собачих лап і м’ячів.
Щоб не витрачати зайві токени, кількість яких є обмеженою, ми зрештою зупинилися на зображеннях плямистих собак.
Leonardo.ai 3D Animation Style вдалий варіант

Leonardo.ai 3D Animation Style вдалий варіант

3D Animation Style Leonardo.ai забракований варіант

3D Animation Style Leonardo.ai забракований варіант

На генерацію зображення в стилі Animation застосунок витрачає від 4 до 6 хвилин.

З реалістичними зображеннями все було простіше і значно швидше: створення однієї картинки потребувало менше хвилини. Хоча проблеми з три- та п'ятилапими монстрами також були.
Leonardo Kino XL забракований варіант

Leonardo Kino XL забракований варіант

Leonardo Kino XL прийнятний варіант

Leonardo Kino XL прийнятний варіант

Маючи достатню кількість токенів, можна домогтися від програми і точного відтворення кольору собак, і наявності всіх лап. Але ми вирішили залишити монети на генерацію зображень за готовим описом.

Ідеї можна знайти у розділі Prompt Generation, ввести назву предмета, який ви хочете згенерувати, і ШІ видасть вам кілька варіантів готових запитів.
Наприклад, ви хочете створити зображення собаки. Введіть запит “A dog” та оберіть із запропонованого списку опис картинки: “Величний золотистий ретрівер, що гріється на сонечку у літній день, має грайливий блиск в очах і виляє хвостом” (“A majestic golden retriever, basking in the warm sunlight of a summer afternoon, with a playful glint in its eyes and a wagging tail”).
Leonardo Kino XL генерація за готовим описом

Leonardo Kino XL генерація за готовим описом

Ретрівер справді має дуже реалістичний і величний вигляд, але хвостом він точно не виляє.
У стилі 3D Animation ми вибрали з готових описів такий варіант: “Пустотливий коргі женеться за метеликом серед польових квітів, чарівності йому додають короткі лапки та пухнаста шерсть” (“A mischievous corgi, chasing after a butterfly in a field of wildflowers, its short legs and fluffy coat adding to its adorable charm”).
Leonardo 3D Animation Style за готовим описом

Leonardo 3D Animation Style за готовим описом

Коргі серед квітів має просто чарівний вигляд, але жодного метелика на зображенні ми так і не знайшли. Схоже, що детальні багатослівні запити не гарантують точного відтворення описаної сцени.
Картинки, що були створені штучним інтелектом, можуть зазнавати різних маніпуляцій: генерування відео, масштабування, покращення якості та видалення фону. Але ці розширені функції доступні лише у платних пакетах.

Вартість підписки на застосунок Leonardo.ai:

  • Apprentice Standard — $12/ month (8500 токенів на місяць);
  • Artisan Unlimited — $30/ month (25 000 токенів на місяць);
  • Maestro Unlimited — $60/ month (60 000 токенів на місяць і безлімітна генерація).

Leonardo.ai доступний як у вебверсії, так і в мобільному застосунку для iOS.
Наша оцінка: 4/5.

Playground AI

Позиціонує себе як сервіс, що поєднує передові технології та простий зручний інтерфейс. З налаштуваннями та функціями справді легко впораються навіть новачки. На платформі все зрозуміло — від завантаження зображень до вибору стилів та налаштування параметрів.

У безкоштовній версії доступні 100 генерацій зображень на добу. За одним описом ШІ пропонує 4 варіанти картинок.

Для створення реалістичного зображення ми використали декілька фільтрів і зупинилися на Cinematic і Realism Engine, оскільки вони генерували найбільш якісні картинки.

Запитань до кольору шерсті собак у нас не виникло, але пограти з м'ячем за нашим запитом вони так і не спромоглися. До того ж сам м’яч був позбавлений реалістичності — іграшка більше нагадувала якийсь інопланетний об'єкт.
Playground AI, фільтр  Cinematic

Playground AI, фільтр Cinematic

Набагато натуральніший вигляд мав м'яч на зображенні, яке було згенероване завдяки фільтру Realism Engine. Але виникла нова проблема: ШІ категорично відмовлявся давати собакам один м'яч на двох. Мабуть, в момент запуску цього фільтра машинний розум додатково вмикає опцію підвищеного почуття справедливості. Щодо кольору шерсті ШІ також мав свою специфічну думку.
Playground AI, фільтр Realism Engine

Playground AI, фільтр Realism Engine

Не можна не помітити чудовий рендеринг зображень. Програма дійсно здатна генерувати реалістичні текстури, світлові ефекти та деталі, які можуть конкурувати з фотографіями.

Генеруючи зображення в анімованому стилі, ШІ буквально закидав цуценят м'ячиками. Ми декілька разів уточнювали запит, вимагаючи скоротити кількість м'ячів до одного, але переконати штучний інтелект так і не змогли.
Playground AI фільтр Lush Illumination

Playground AI фільтр Lush Illumination

Зазначимо, що створення мультяшних собак потребувало більше часу на підбір фільтра та розширення текстового запиту, який набув такого вигляду: “Дві анімовані чорна та біла 3D собаки граються з червоним м'ячем на зеленій траві” (“Two cartoon 3D black and white dogs playing with a red ball on the green grass”). Без цих уточнень ШІ вперто малював червону траву та зелене небо. Під час створення реалістичних зображень подібних казусів не було.

Кожен фільтр пропонує свою інтерпретацію запиту: її видно, якщо навести мишку на зображення. Найпростіше вибрати None у розділі фільтрів і написати власний опис.

Найцікавіші варіанти генерації можна отримати для футуристичних зображень, у яких тло та рухи персонажів не є критичними. Такі картинки здаються симпатичними та придатними для використання.
Playground AI: генерація зображення у футуристичному стилі

Playground AI: генерація зображення у футуристичному стилі

Вартість підписки на застосунок Playground AI:
  • річна підписка Playground Pro — $12/month;
  • річна підписка Playground Turbo — $36/month;
  • можна також оформити підписку на місяць Playground Pro за $15.
Наша оцінка: 4/5.

Bing Image Creator

Безкоштовний онлайн-сервіс від Microsoft, що дозволяє створювати зображення на основі текстових описів.
Як і будь-який безкоштовний застосунок, має обмежені можливості, але ефективно справляється з генерацією реалістичних і мальованих зображень. Крім того, створену картинку можна потім збільшити, розтягнути, обрізати чи додати нескладні фільтри.

Для створення картинок користувачі отримують 15 підсилювачів (бустів), які прискорюють процес створення зображення. На одну генерацію (4 картинки за одним запитом) витрачається один підсилювач. Після того, як бусти закінчаться, можливість генерувати картинки зберігається, але процес відбувається набагато повільніше: з бустом оброблення одного запиту триває менше хвилини, а без нього — близько години.

Прискорювачі генерації можна купувати за бали, які видаються за виконання нескладних завдань від Microsoft або за пожертвування до благодійних фондів.
У застосунку Bing немає попередньо встановлених налаштувань стилів, тому в запиті користувачам доведеться самостійно прописувати стиль, бекграунд, кольори предметів тощо.
Собаки, згенеровані у стилі realism, можуть розчарувати. Мало того, що вони схожі, наче сіамські близнюки, так ще й мали неприродно довгі, наче в росомахи, кігті на лапах. Усі чотири запропоновані варіанти містили помітні анатомічні неточності.
Bing, realism

Bing, realism

Також знадобилося дуже багато бустів, щоб домогтися від собак хоч якоїсь взаємодії з м'ячем: штучний інтелект вважав, що для безкоштовного додатку достатньо, щоб м'яч просто був у кадрі.
Над анімованим стилем потрібно було попрацювати ще більше. Найефективніше — вказати бажаний стиль безпосередньо в початковому запиті. У нашому випадку це Disney style.
Bing, Disney style

Bing, Disney style

З мальованими зображеннями застосунок легко впорався. З 12 варіантів оброблених запитів у різних стилях на жодному не було непотрібних артефактів — зайвих лап чи хвостів.

Для тих, хто не розуміє, як формулювати запит для ШІ, є кнопка “Здивуй мене”. Натиснувши її, можна побачити зразок опису та картинку, створену на його основі.

Один із головних загальних висновків: перш ніж починати працювати з будь-яким ШІ-застосунком, необхідно навчитися “розмовляти” з ним зрозумілою йому мовою. Іноді буває недостатньо аналізу невдалих спроб і наполегливості (хоча це також необхідно). Універсального рецепта створення запиту немає. Враховуйте контекст, стиль і специфіку обраного сервісу — і вам швидше вдасться знайти спільну мову з ШІ.