Skip M3 Ultra & RTX 5090 for LLMs | NEW 96GB KING

www.youtube.com

Краткое содержание

В этом видео автор сравнивает новую видеокарту RTX Pro 6000 с другими картами, включая RTX 5090 и M3 Ultra Mac Studio, для задач, связанных с искусственным интеллектом. Основные выводы:

RTX Pro 6000 с 96 ГБ VRAM позволяет запускать большие языковые модели, которые не помещаются на картах с меньшим объемом памяти.
В тестах с небольшими моделями RTX 5090 часто оказывается быстрее, чем RTX Pro 6000, несмотря на большее количество CUDA-ядер у последней.
RTX Pro 6000 демонстрирует высокую производительность при работе с большими моделями и длинными запросами, что делает ее подходящей для задач, требующих обработки больших объемов данных.
Автор отмечает, что, несмотря на высокую цену, RTX Pro 6000 предлагает хорошее соотношение производительности на доллар по сравнению с Mac Studio.

Введение и обзор RTX Pro 6000

Автор представляет новую видеокарту RTX Pro 6000, подчеркивая трудности с ее приобретением и ее вес. Он планирует сравнить ее производительность в задачах ИИ с другими картами, такими как RTX 3050, 5060 Ti и 5090. Основная цель - оценить количество токенов в секунду, которое можно получить с помощью RTX Pro 6000, и определить, оправдана ли ее высокая цена. Автор отмечает, что все карты были приобретены им самостоятельно, без спонсорства от Nvidia.

Сравнение объемов VRAM и запуск 70B моделей

Автор сравнивает объемы VRAM различных видеокарт, отмечая, что для достижения объема VRAM, как у одной RTX Pro 6000 (96 ГБ), потребуется три RTX 5090 (32 ГБ каждая). Он демонстрирует, что RTX 5090 успешно справляется с моделями размером 12-32 миллиарда параметров, но при запуске 70-миллиардной модели производительность значительно падает (1.8 токена в секунду).

Настройка и загрузка модели на RTX Pro 6000

Автор устанавливает RTX Pro 6000 в систему под управлением Linux. Он загружает модель размером 39 ГБ (43 ГБ в VRAM) и отмечает, что карта способна потреблять до 600 Вт мощности для максимальной производительности. Также упоминается возможность ограничения мощности до 300 Вт для снижения шума, но с потерей производительности.

Тестирование производительности с короткими запросами

Автор начинает тестирование с короткого запроса (один токен), чтобы оценить максимальную скорость обработки. RTX Pro 6000 показывает результат в 31.89 токенов в секунду. Он отмечает, что RTX Pro 6000 имеет больше CUDA-ядер (24,064) по сравнению с RTX 5090 (21,760), что должно обеспечивать более высокую производительность даже на небольших моделях.

Тестирование с Gemma 3 и большими моделями

Автор загружает модель Gemma 3 и получает скорость 215 токенов в секунду, что значительно выше, чем у RTX 5090 и M3 Ultra. Он переходит к тестированию больших моделей (70 миллиардов параметров) с разными уровнями квантизации (Q4 и Q8), отмечая, что модели Q8 занимают около 70 ГБ.

Влияние выгрузки слоев на производительность

Автор демонстрирует влияние количества слоев, выгружаемых на GPU, на производительность. При выгрузке только 66 из 80 слоев скорость составляет всего 3 токена в секунду. При выгрузке всех 80 слоев скорость увеличивается до 20 токенов в секунду.

Тестирование с длинными запросами и FP16 моделями

Автор тестирует RTX Pro 6000 с длинным запросом (205 токенов), имитирующим задачу архитектора программного обеспечения. Скорость обработки составляет около 18 токенов в секунду. Затем он переходит к тестированию FP16 модели (61 ГБ), получая 23 токена в секунду. При повторном запуске длинного запроса скорость остается примерно такой же (22 токена в секунду).

Сравнение с Apple M4 Max

Автор сравнивает производительность RTX Pro 6000 с Apple M4 Max на моделях FP16 и F32. M4 Max показывает значительно более низкие результаты (7.63 и 18 токенов в секунду соответственно) по сравнению с RTX Pro 6000 (22 и 51 токен в секунду).

Эксперимент с экстремально длинным запросом

Автор генерирует запрос длиной 35,000 токенов с помощью GPT-3 и пытается обработать его в LM Studio. Изначально LM Studio выдает ошибку, но после увеличения контекстной длины до 40,000 и загрузки модели Quen 2.5 coder 32 billion instruct Q8 (65 ГБ), запрос успешно обрабатывается. Время до первого токена составляет 29.9 секунды, а скорость генерации - 17 токенов в секунду.

Сравнение производительности различных видеокарт

Автор сравнивает производительность RTX Pro 6000 с другими видеокартами на различных моделях. RTX Pro 6000 оказывается единственной картой, способной запускать некоторые из самых больших моделей. Однако, на небольших моделях RTX 5090 часто показывает более высокую скорость. Например, на Gemma 3 4 billion RTX 5090 выдает 365 токенов в секунду, а RTX Pro 6000 - 352.

Анализ результатов и выводы

Автор анализирует полученные результаты, основываясь на максимальной скорости RTX Pro 6000 (215 токенов в секунду) по сравнению с M3 Ultra (100 токенов в секунду). Он приходит к выводу, что, несмотря на высокую цену, RTX Pro 6000 предлагает лучшее соотношение производительности на доллар по сравнению с Mac Studio. Он также отмечает, что RTX Pro 6000 может запускать игры, что является дополнительным преимуществом.

3/25/2026 www.youtube.com

Skip M3 Ultra & RTX 5090 for LLMs | NEW 96GB KING

Краткое содержание

Summarize Anything ! Download Summ App