Amazon announces Nova, a new family of multimodal AI models | TechCrunch

Amazon announces Nova, a new family of multimodal AI models | TechCrunch

Краткое резюме

Amazon представила новую линейку мультимодальных моделей искусственного интеллекта под названием Nova. В нее входят четыре модели для генерации текста: Micro, Lite, Pro и Premier, а также модели для генерации изображений (Nova Canvas) и видео (Nova Reel). Все модели доступны на платформе AWS Bedrock.

  • Модели Nova оптимизированы для работы с 15 языками и предлагают различные возможности по скорости, точности и стоимости.
  • Nova Canvas позволяет генерировать и редактировать изображения с помощью подсказок, а Nova Reel создает видеоролики продолжительностью до 6 секунд.
  • Amazon планирует выпустить модель для преобразования речи в речь в первом квартале 2025 года, а также "любую в любую" модель в середине 2025 года.

Новые модели Nova

Amazon Web Services (AWS) представила новую линейку мультимодальных моделей искусственного интеллекта под названием Nova на своей конференции re:Invent. В нее входят четыре модели для генерации текста: Micro, Lite, Pro и Premier, а также модели для генерации изображений (Nova Canvas) и видео (Nova Reel).

Модели для генерации текста оптимизированы для работы с 15 языками и предлагают различные возможности по скорости, точности и стоимости. Micro - самая быстрая модель, но она может обрабатывать только текст. Lite может обрабатывать изображения, видео и текст, Pro предлагает сбалансированное сочетание точности, скорости и стоимости, а Premier - самая мощная модель, предназначенная для сложных задач.

Nova Canvas позволяет генерировать и редактировать изображения с помощью подсказок, а Nova Reel создает видеоролики продолжительностью до 6 секунд. Обе модели предлагают различные варианты настройки, например, изменение цветовой схемы и компоновки для изображений, а также управление движением камеры для видео.

Amazon планирует выпустить модель для преобразования речи в речь в первом квартале 2025 года, а также "любую в любую" модель в середине 2025 года. Первая модель будет способна интерпретировать вербальные и невербальные сигналы, такие как тон и ритм, и создавать естественные, "человеческие" голоса. Вторая модель теоретически сможет использоваться в различных приложениях, от переводчиков до редакторов контента и виртуальных помощников.

Share

Summarize Anything ! Download Summ App

Download on the Apple Store
© 2024 Summ