После выхода новой версии генеративной модели Сбера Kandinsky 2.1 пользователи всего за 48 часов сгенерировали свыше 1,3 миллиона изображений.
Среди наиболее популярных запросов лидируют «кот», «любовь» и «космос».
Напомним, что Сбер представил новую версию генеративной модели 4 апреля. Kandinsky 2.1 может сгенерировать изображения по их текстовому описанию на естественном языке за несколько секунд. Пользователь может создавать картины более чем в десяти стилях, включая «Киберпанк», «Аниме», «Малевич» и другие. Kandinsky 2.1 знает 101 язык и может дорисовывать части изображения, смешивать несколько рисунков, создавать картину в режиме бесконечного полотна.
Протестировать нейросеть можно в Telegram-боте, на промостранице модели, на fusionbrain.ai и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Также оценить возможности Kandinsky 2.1 можно в мобильном приложении Салют и на умных устройствах Sber при помощи команды «Запусти художника».
Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
Модель Kandinsky 2.1 обучена почти на 1,2 миллиарда пар «текст — изображение», а также на отдельно собранном датасете из двух миллионов пар высококачественных изображений. Он содержит картинки с описаниями текстов и лиц людей в областях традиционно сложных для нейросетей.
Высокое качество генерации обеспечивается за счёт прогрессивной архитектуры нейросети: у Kandinsky 2.1 новая, обученная специалистами Sber AI совместно с командой SberDevices модель автоэнкодера, используемая в основном для декодирования векторных представлений изображений. Это позволяет создавать изображения в высоком разрешении. Kandinsky 2.1 включает 3,3 миллиарда параметров вместо двух миллиардов в предыдущей версии.