Краткое резюме
Amazon представила новую линейку мультимодальных моделей искусственного интеллекта под названием Nova. В нее входят четыре модели для генерации текста: Micro, Lite, Pro и Premier, а также модели для генерации изображений (Nova Canvas) и видео (Nova Reel). Все модели доступны на платформе AWS Bedrock.
- Модели Nova оптимизированы для работы с 15 языками и предлагают различные возможности по скорости, точности и стоимости.
- Nova Canvas позволяет генерировать и редактировать изображения с помощью подсказок, а Nova Reel создает видеоролики продолжительностью до 6 секунд.
- Amazon планирует выпустить модель для преобразования речи в речь в первом квартале 2025 года, а также "любую в любую" модель в середине 2025 года.
Новые модели Nova
Amazon Web Services (AWS) представила новую линейку мультимодальных моделей искусственного интеллекта под названием Nova на своей конференции re:Invent. В нее входят четыре модели для генерации текста: Micro, Lite, Pro и Premier, а также модели для генерации изображений (Nova Canvas) и видео (Nova Reel).
Модели для генерации текста оптимизированы для работы с 15 языками и предлагают различные возможности по скорости, точности и стоимости. Micro - самая быстрая модель, но она может обрабатывать только текст. Lite может обрабатывать изображения, видео и текст, Pro предлагает сбалансированное сочетание точности, скорости и стоимости, а Premier - самая мощная модель, предназначенная для сложных задач.
Nova Canvas позволяет генерировать и редактировать изображения с помощью подсказок, а Nova Reel создает видеоролики продолжительностью до 6 секунд. Обе модели предлагают различные варианты настройки, например, изменение цветовой схемы и компоновки для изображений, а также управление движением камеры для видео.
Amazon планирует выпустить модель для преобразования речи в речь в первом квартале 2025 года, а также "любую в любую" модель в середине 2025 года. Первая модель будет способна интерпретировать вербальные и невербальные сигналы, такие как тон и ритм, и создавать естественные, "человеческие" голоса. Вторая модель теоретически сможет использоваться в различных приложениях, от переводчиков до редакторов контента и виртуальных помощников.