VIP: Video Inpainting Pipeline for Real World Human Removal

Краткое содержание

В статье представлена новая структура VIP (Video Inpainting Pipeline) для удаления людей из видео высокого разрешения в реальных условиях. VIP использует модель преобразования текста в видео, дополненную модулем движения, и вариационный автоэнкодер для прогрессивного шумоподавления в латентном пространстве. Также реализована эффективная сегментация людей и их вещей для точного создания масок.

  • VIP превосходит существующие методы по временной согласованности и визуальному качеству.
  • Предлагается метод интеграции опорного кадра и метод Dual-Fusion Latent Segment Refinement для улучшения качества и согласованности обработки длинных видео.
  • Проведены обширные эксперименты и пользовательские исследования, подтверждающие эффективность VIP.

[Введение]

Введение описывает задачу видео-инпейтинга, заключающуюся в восстановлении недостающего или нежелательного контента в видеопоследовательностях с сохранением пространственно-временной когерентности. Существующие методы испытывают трудности с достижением высокого качества, временной согласованности и обработкой сложных взаимодействий объектов в видео высокого разрешения. Представлена структура VIP, предназначенная для удаления людей из видео без использования текстовых подсказок. VIP использует модуль движения для достижения высокого качества и разрешения, а также вариационный автоэнкодер для кодирования видео в латентное пространство, где происходит прогрессивное шумоподавление. Модуль сегментации точно определяет и сегментирует людей, их вещи и тени, предоставляя точные маски для инпейтинга. VIP превосходит существующие методы, обеспечивая превосходную временную согласованность и визуальное качество в различных сценариях.

[Обзор Существующих Работ]

В разделе рассматриваются существующие работы в области сегментации и инпейтинга видео. Сегментация видео включает разделение видеопоследовательности на сегменты или объекты с учетом временной согласованности. Инпейтинг видео направлен на восстановление недостающего контента с сохранением пространственной и временной когерентности. Традиционные методы инпейтинга часто основаны на патч-подходах, которые вычислительно затратны и не обладают достаточным семантическим пониманием. С развитием глубокого обучения, методы на основе 3D-сверток и механизмов внимания обеспечивают более эффективные решения. Также упоминаются методы, использующие оптический поток для сохранения пространственно-временной согласованности.

[Методология]

В этом разделе описывается методология VIP для инпейтинга видео без подсказок. Задача разделена на два основных компонента: создание высококачественных масок и шумоподавление в областях масок для получения высококачественного видео. VIP основан на модели T2V и дополнен модулем движения. Для создания масок используется алгоритм отслеживания объектов с модулем сегментации. Сегментация используется только для ключевых кадров, а остальные маски генерируются путем распространения масок ключевых кадров с помощью алгоритма отслеживания объектов.

[Обнаружение и Сегментация Людей]

В статье расширено понятие "обнаружение и сегментация людей", включив в него обнаружение и сегментацию людей, их вещей и теней как единого целого. В качестве модуля обнаружения используется архитектура YOLOv9, известная своей эффективностью и высокой точностью. Для обнаружения теней интегрирован алгоритм обнаружения теней. Предлагается стратегия сопоставления людей и теней на основе двух предположений: размеры масок теней не должны быть слишком большими или маленькими, и маски теней должны быть связаны или перекрываться с нижней частью соответствующей фигуры человека. Для сегментации используется Segment Anything Model с подсказкой в виде ограничивающего прямоугольника. Для повышения эффективности модели используются методы дистилляции знаний и модуль деформируемого внимания. В качестве модуля отслеживания используется алгоритм Cutie, позволяющий интегрировать модуль сегментации в конвейер отслеживания.

[Общая Структура Видео Диффузионного Инпейтинга]

Описывается общая структура видео диффузионного инпейтинга, состоящая из этапов обучения и инференса.

[Этап Обучения]

На этапе обучения используются три входных компонента: зашумленный видеоклип, маска видеоклипа и видеоклип с маской. Вариационный автоэнкодер используется для кодирования видео в латентное пространство, где выполняется прогрессивное шумоподавление. Модель адаптирует пространственные слои из предыдущих работ и включает модули движения для захвата динамической информации и обеспечения временной согласованности. Для инпейтинга без подсказок вся архитектура U-Net дообучается с использованием только общей текстовой подсказки "инпейтинг". В качестве архитектуры модуля движения используется модуль, предложенный CoCoCo, но упрощенный путем удаления компонента перекрестного внимания. Модифицированный модуль состоит из двух блоков временного внимания и одного демпфированного глобального внимания. Модель Video Inpainting U-Net обучается в два этапа. На первом этапе используется только L1-loss на латентных кодах. На втором этапе используется post-VAE pixel reconstruction loss.

[Этап Инференса]

На этапе инференса используются два основных метода для повышения производительности инпейтинга видео высокого разрешения: завершение на основе оптического потока и интеграция опорного изображения. Завершение на основе оптического потока используется для заполнения фоновой информации в определенных сценах. После получения масок с помощью конвейера KD-SAM для сегментации и отслеживания, используется модуль распространения пикселей ProPainter для уменьшения нагрузки на инпейтинг видео и поддержания лучшей временной когерентности. Для областей, которые не могут быть заполнены с помощью оптического потока, используется модель инпейтинга изображений LAMA в качестве предварительного метода инпейтинга. Для решения проблемы больших недостающих областей в видео используется подход с опорным изображением. Выбирается опорный кадр и его соответствующая маска, а затем применяется SDXL inpainting к этому кадру. Инпейтированный опорный кадр вставляется в видео и маску перед кодированием VAE и удаляется перед декодированием.

[Dual-Fusion Latent Segment Refinement]

Описывается метод Dual-Fusion Latent Segment Refinement для генерации длинных видео. Вычислительные ограничения моделей диффузии видео создают значительные проблемы при обработке таких расширенных последовательностей кадров. В отличие от обычных моделей Text-to-Video или Video-to-Video, которые ограничены генерацией коротких последовательностей, задачи инпейтинга видео в реальном мире часто включают обработку более длительных периодов, обычно 3-4 секунды при 24 кадрах в секунду, что составляет примерно 72 кадра. Предлагается метод Dual-Fusion Latent Segment Refinement, который использует покадровую структуру шума для повышения временной когерентности и вычислительной эффективности. Метод начинается с инициализации шума F кадров с плавным прогрессом шума, где шум каждого кадра получается из его соседних кадров. Этот процесс дублируется со небольшим смещением для дальнейшего усиления временной стабильности. Вводится метод обработки на основе сегментов, который позволяет параллельно вычислять подмножества кадров, что значительно сокращает количество необходимых проходов диффузии.

[Эксперименты]

В этом разделе описываются наборы данных и детали обучения, используемые для обучения конвейера инпейтинга видео.

[Наборы Данных]

Для набора данных, собранного для реальных сценариев, собираются видео, связанные с "4K city walk", включая прогулки по городским улицам, прогулки по сельской местности и сцены в торговых центрах, общей продолжительностью 2,4 миллиона секунд. Затем они обрезаются на 0,24 миллиона клипов, каждый длиной 10 секунд, и изменяются до разрешения 1080p. Кроме того, используются наборы данных WebVid-10M и ACAV-100M, отфильтрованные для видео высокого разрешения. Также используется набор данных изображений LAION-5B для совместного обучения изображений и видео. Для набора оценки высокого разрешения используется набор данных YouTube-VOS-test, включающий 547 видео. Кроме того, собираются 100 живых фотографий, таких как селфи-видео, каждое примерно 3 секунды длиной и содержащее от 72 до 110 кадров. Все они дискретизируются до 20 кадров на видео в обучающие выборки.

[Детали Реализации]

В качестве базовой модели преобразования текста в изображение для инициализации модели диффузии видео используется Stable Diffusion 1.5-inpainting. Длина денойзированной последовательности T устанавливается равной 24, и в качестве входных данных маски применяются случайно сгенерированные маски и существующие маски сегментации. Для оптимизации всей модели используются DDIM sampler, v-prediction strategy и AdamW optimizer. Для всех обучающих выборок изображений и видео выполняется 80% случайной обрезки и 20% изменения размера до целевого размера. Во время инференса количество шагов денойзинга устанавливается равным 8 и не применяется classifier-free guidance. Модель обучается на 6×8 Nvidia A100 в течение примерно 1 миллиона шагов. Общее количество параметров для модели составляет 1,35B. Время инференса для 24 кадров составляет около 18 секунд на графическом процессоре A100.

[Оценка и Сравнение]

Традиционные метрики качества изображения, такие как PSNR и SSIM, не подходят для оценки задач удаления объектов из-за отсутствия эталонных изображений в областях масок. Более того, эти метрики на уровне пикселей могут штрафовать перцептивно правдоподобные результаты, которые отклоняются от исходного контента. Для решения этих ограничений используется структура оценки с двумя направлениями, которая оценивает как временную когерентность, так и качество на уровне кадров. Для временной оценки используются метрики VBench, включая Subject Consistency, Background Consistency и Temporal Flickering. Для оценки на уровне кадров используется Co-Instruct для выполнения анализа win-rate между методами.

[Количественная Оценка]

Метод VIP сравнивается с 6 современными методами: FuseFormer, ISVI, FGT, E2FGVI, Propainter, а также моделью инпейтинга на основе диффузии CoCoCo, которая устанавливает входную подсказку как "no human" для области инпейтинга. Метод VIP демонстрирует сильную временную согласованность с самым высоким баллом TF 92,99 и конкурентоспособным баллом BC 92,77. Для оценки на уровне кадров метод достигает лучшего балла CI 0,50, что указывает на превосходное перцептивное качество в областях инпейтинга. Метод показывает лучшую производительность в метриках плавности движения и мерах временной стабильности.

[Качественная Оценка]

На рисунке показаны визуальные сравнения между методом и предыдущими подходами в различных сложных сценариях. По сравнению с существующими методами, VIP демонстрирует превосходную производительность в сохранении как пространственных деталей, так и временной согласованности. В то время как предыдущие методы могут генерировать видимые артефакты или временное мерцание в сложных сценах, подход VIP дает более естественные и когерентные результаты, особенно в сложных случаях, связанных с динамическим движением, сложными текстурами и переполненными сценами.

[Пользовательское Исследование]

Для подтверждения количественных и качественных результатов было проведено всестороннее пользовательское исследование, оценивающее перцептивное качество результатов инпейтинга. Случайным образом было отобрано 25 тестовых случаев из набора данных VOS-test и 25 из набора данных социальных сетей для оценки. Исследование сравнивало метод с современными подходами, включая FGT, E2FGVI и ProPainter. Пользователям было предложено выбрать предпочтительный результат между двумя версиями инпейтинга. Метод достиг уровня предпочтения 70%–78%, что демонстрирует превосходство подхода VIP inpainting и подтверждает эффективность предложенной метрики оценки.

[Анализ Исключения]

[Компоненты Конвейера Инференса]

Два ключевых модуля конвейера инференса: завершение на основе оптического потока и интеграция опорного изображения. Оба модуля вносят положительный вклад в общую производительность. Базовая модель без какого-либо модуля достигает PSNR 30,72 и SSIM 0,9511. Добавление только интеграции опорного изображения немного снижает производительность, вероятно, из-за проблемы поддержания временной согласованности при использовании руководства одним кадром. Напротив, использование только завершения на основе оптического потока показывает заметные улучшения, что указывает на его эффективность в сохранении временной когерентности. Комбинация обоих модулей обеспечивает наилучшую общую производительность при сохранении конкурентоспособной ошибки деформации.

[Опорный Кадр]

На рисунке демонстрируется эффективность руководства опорным кадром в подходе. В то время как модель использует только 1,3B параметров и не оптимизирована специально для инпейтинга изображений, достигается улучшенная производительность в сложных случаях с большими окклюзиями за счет использования возможностей SDXL-inpainting. Без опорных кадров результаты инпейтинга могут быть либо непоследовательными, либо семантически разумными, но визуально неоптимальными. Благодаря включению руководства опорным кадром, метод инпейтинга видео успешно распространяет хорошо реконструированные области по временному измерению.

[Анализ Dual-Fusion Latent Segment Refinement]

Для задач инпейтинга видео большой продолжительности модели видео на основе диффузии сталкиваются с критической проблемой поддержания временной согласованности. В отличие от задач генерации видео, инпейтинг видео выигрывает от сильного предварительного знания окружающего контекста, что позволяет более эффективно генерировать с меньшим количеством шагов диффузии по сравнению с чистой инициализацией гауссовского шума. Однако эта эффективность создает новую проблему: хотя сгенерированный контент может быть визуально правдоподобным, даже небольшие временные несоответствия могут быть перцептивно неприятными для наблюдателей. Предлагается метод Dual-Fusion Latent Segment Refinement, который отдает приоритет временной когерентности за счет максимизации временной протяженности сегментов при обеспечении ограничений гармонии. Подход использует ту же модель инпейтинга видео, но вводит новую стратегию слияния, которая отдает приоритет временной когерентности за счет максимизации временной протяженности сегментов при обеспечении ограничений гармонии.

[Заключение]

В статье представлена структура VIP, новый конвейер инпейтинга видео без подсказок для удаления людей из видео высокого разрешения в реальных условиях, представляющий несколько ключевых нововведений: метод интеграции опорного кадра, который повышает качество инпейтинга, и метод Dual-Fusion Latent Segment Refinement, который обеспечивает временно согласованный инпейтинг для более длинных видеопоследовательностей. Благодаря обширным экспериментам, подход достигает превосходной производительности во временной согласованности и визуальном качестве в различных сценариях, не полагаясь на текстовые подсказки, что представляет собой значительный прогресс в приложениях инпейтинга видео на уровне продукта в реальном мире.

11/29/2025 arxiv.org
Share

Summarize Anything ! Download Summ App

Download on the Apple Store
Get it on Google Play
© 2024 Summ