У Apple появился новый открытый редактор изображений с искусственным интеллектом.

neto

Яблоко немного отстает в области генеративного искусственного интеллекта, за исключением некоторых небольших функций, добавленных в iOS 17. Тем не менее, 2024 год обещает стать годом большого прорыва для Apple в области искусственного интеллекта. Все глаза сейчас обращены на iOS 18, который должен быть наполнен функциями искусственного интеллекта, включая улучшенную версию Сири.

Перед этим релизом исследователи компании Apple, сотрудничая с Университетом Калифорнии в Санта-Барбаре, представили открытую модель искусственного интеллекта, которая понимает естественные языковые инструкции. Короче говоря, вы говорите ИИ сделать что-то для изменения фотографии, и он это сделает.

Что такое MGIE AI — редактор изображений Apple?

Эта новая модель искусственного интеллекта, названная «MGIE» (MLLM-Направляемое редактирование изображений), принимает стандартные команды от пользователя для достижения трех различных целей редактирования: «модификация в стиле Photoshop, глобальная оптимизация фотографий и локальное редактирование».

Модификация в стиле Photoshop включает такие действия, как обрезка, поворот и изменение фона; глобальная оптимизация фотографий включает в себя настройку эффектов для всего изображения, включая яркость, контраст или резкость изображения; в то время как локальное редактирование влияет на конкретные области изображения, такие как его форма, размер и цвет.

МГИЭ основан на мультимодельной большой языковой модели (MLLM), которая является разновидностью LLM, способной интерпретировать визуальные и звуковые данные, а также текст. В данном случае MLLM используется для принятия команд пользователя и их интерпретации как правильного направления редактирования. В исследовательской статье MGIE объясняется, что это традиционно сложная задача, так как команды пользователя могут быть слишком неопределенными для системы, чтобы правильно понять их без дополнительного контекста. (Что программа подразумевает под «сделать пиццу более здоровой»?) Но исследователи говорят, что MLLM, подобные тому, что используется в MGIE, эффективны в этом случае.

Исходя из исследовательской работы, MGIE способен на множество различных видов визуальных изменений. Вы можете попросить его добавить молнию на изображение водной поверхности и отразить эту молнию на воде; удалить объект на заднем плане изображения, например, человека, неумышленно попавшего в кадр; превратить одни вещи в другие, например, тарелку с пончиками в пиццу; улучшить фокус на размытом объекте; удалить текст с прекрасного фото, среди множества других возможностей.

Вы можете понять, как будет работать технология, просмотрев полный исследовательский документ, включающий примеры работы редактора; он доступен здесь.

Это не первое применение искусственного интеллекта в фото редактировании, конечно. У Photoshop уже есть множество инструментов редактирования, созданных на основе пользовательских запросов. Но MGIE, возможно, является самым реализованным видением AI редактора изображений на основе команд.

Как попробовать самостоятельно использовать редактор изображений MGIE от Apple

Как модель является открытым исходным кодом, любой может скачать и интегрировать ее с собственными инструментами. Однако, если вы, как и я, не знаете, с чего начать, вы можете попробовать эту демонстрацию, размещенную одним из исследователей проекта. Вы можете загрузить изображение, которое хотите отредактировать, ввести команду и обработать его.

В настоящее время, однако, у демо-версии есть довольно большая очередь запросов. Я в данный момент находусь на 237 месте, и предполагаю, что это число может продолжать расти, поскольку все больше людей хотят опробовать модель.

Неясно, будет ли и как Apple интегрировать MGIE в свои собственные платформы. Но если бы был год, когда компания могла бы это сделать, то это был бы 2024 год.