Откройте для себя Сверхбыстрого Генератора AI Изображений, Который Полностью Изменит Всё!

Одной из существенных проблем в области искусственного интеллекта является высокое энергопотребление и требования к вычислительным ресурсам, особенно при выполнении задач вроде создания медиаконтента. На мобильных телефонах обычно только устройства премиум-класса с мощным аппаратным обеспечением способны нативно обрабатывать такие функции. И даже если эти задачи масштабируются до облачных ресурсов, они могут оказаться довольно дорогими.

📊 Время действовать!
ФинБолт подскажет, когда покупать, а когда продавать!

Присоединиться в Telegram

NVIDIA могла бы незаметно решить этот вопрос путем сотрудничества с исследователями в Массачусетском технологическом институте и Университете Цинхуа, что привело к разработке HART (Hybrid AutoRegressive Transformer) – инновационного инструмента генерации изображений AI. По сути, HART объединяет два популярных метода создания изображений AI для предоставления быстрого инструмента со значительно сниженными вычислительными требованиями.

Для примера его невероятной скорости я попросил создать изображение попугая, играющего на бас-гитаре. Изображение было сгенерировано менее чем за секунду. Прогресс-бар двигался настолько быстро, что я едва успевал следить за ним. Когда я использовал модель Image 3 от Google для Gemini, это заняло примерно 9-10 секунд при подключении к интернету со скоростью 200 Мбит/с.

огромный прорыв

Первоначально изображения, генерируемые ИИ, привлекли значительное внимание благодаря использованию диффузионных методов. Этот метод отвечает за такие инструменты, как генератор изображений OpenAI Dal-E, Google ImageN и Stable Diffusion. Такой подход позволяет создавать высоко детализированные изображения, однако он является сложным многоступенчатым процессом, что делает его трудоемким и вычислительно затратным.

Всё более предпочтительной стратегией является использование авторегрессивных моделей, как это происходит с чатботами для создания изображений через предсказание пикселей. Этот подход быстрее, но несет в себе больший риск ошибок при генерации изображения с помощью ИИ.

Команда из MIT объединила две техники в один инструмент под названием HART. Этот инструмент использует авторегрессионную модель для предсказания сжатых данных изображений в дискретном формате, а меньшая диффузионная модель занимается остальным, чтобы компенсировать потерю качества. Таким образом, это значительно сокращает количество необходимых шагов — с более чем двадцати до восьми.

Согласно создателям HART, он способен создавать изображения сравнимого или даже превосходящего качества современных диффузионных моделей, при этом работая примерно в девять раз быстрее. Это преимущество по скорости достигается за счет уникального сочетания авторегрессионной модели с диапазоном параметров около 700 миллионов и компактной диффузионной модели, способной управлять порядка 37 миллионами параметров.

Преодоление кризиса вычислительных затрат

Примечательно, что данному комбинированному инструменту удалось создать изображения сопоставимые с премиальными моделями, обладая при этом впечатляющим объёмом в 2 миллиарда параметров. Стоит отметить, что он добился этого всего за одну девятую времени, затраченного другими системами, и использовал лишь 31% вычислительных ресурсов, необходимых для схожего создания изображений.

По словам команды, использование низкопроизводительного метода позволяет HART работать независимо на устройствах вроде телефонов и компьютеров. Это преимущество перед широко используемыми продуктами для потребителей, такими как ChatGPT и Gemini, которым необходимо подключение к интернету для генерации изображений, поскольку обработка происходит на облачных серверах, так как этот подход не требует такой связи.

На демонстрационном видео они показали работу программного обеспечения непосредственно на ноутбуке MSI, оснащенном процессором Intel Core и графической картой Nvidia GeForce RTX. Такая конфигурация характерна для многих игровых ноутбуков, и вам не придется тратить большие деньги, чтобы приобрести ее.

1 соотношение сторон, конкретно при разрешении 1024 x 1024 пикселей. Детализация на этих изображениях замечательна, так же как и разнообразие стилей и точность изображенных сюжетов. Во время испытаний было замечено, что этот гибридный инструмент искусственного интеллекта был в три-шесть раз быстрее и обеспечивал производительность, превышающую семь раз.

Заглядывая вперед, действительно интересно подумать о комбинации визуальных возможностей HART с моделями языка. Такая интеграция могла бы привести к взаимодействию с унифицированной моделью ‘vision-language’, позволяя нам задавать вопросы о процессе сборки мебели, например запрашивать демонстрацию этапов процесса, как предложили исследователи из MIT.

Я заметил, что они исследуют эту концепцию с намерениями использовать метод HART как для аудио, так и для видеопроизводства. Если вам интересно, можете попробовать это на онлайн-платформе Массачусетского технологического института.

некоторые шероховатости

В ходе обсуждения качества важно отметить, что исследование HART в настоящее время продолжается и многое еще предстоит разработать. Относительно технических аспектов команда указала на несколько проблем, включая затраты на фазы вывода (inference) и обучения.

Трудности могут быть либо решены, либо проигнорированы, поскольку они относительно незначительны по сравнению с общей картиной. Кроме того, учитывая значительные преимущества HART в отношении вычислительной эффективности, скорости и сокращения задержки, эти мелкие проблемы могут не вызывать значительных проблем производительности.

Во время моих быстрых тестов с HART я был поражен скоростью генерации изображений. Фактически, этот бесплатный онлайн инструмент редко тратил более двух секунд на создание изображения. Удивительно то, что даже когда мои запросы превышали три абзаца (примерно 200 слов), HART успешно создавал изображения, точно соответствующие описанию.

Помимо обеспечения четкого представления, изображения были очень детализированы. К сожалению, HART, как и другие инструменты генерации изображений с помощью ИИ, имеет общие недостатки: часто возникают сложности при распознавании цифр, изображении простых действий, таких как еда, поддержании единообразия персонажей и передаче точных перспектив.

В повседневных терминах я заметил несколько существенных ошибок в области фотореализма при применении к изображениям людей. Иногда он неправильно интерпретировал базовые объекты, например принимая кольцо за ожерелье. Однако такие недочеты были относительно редкими и учитывая текущее состояние технологии можно считать ожидаемыми ошибками. К сожалению, многие инструменты искусственного интеллекта, несмотря на то что они существуют уже некоторое время, пока не могут корректно изображать эти предметы.

В целом, я искренне взволнован значительными перспективами, которые открывает HART. Будет любопытно узнать, разработают ли MIT и Nvidia продукт на его основе или интегрируют метод гибридного AI для генерации изображений в уже существующий продукт. Независимо от их подхода, это указывает на весьма многообещающее будущее.

Смотрите также

2025-03-23 00:58