реально круто работает, голос прям настоящего Геральта! спасибо!
только вот вопрос возник: почему у меня в итоговом файле звук прерывается? заикается Геральт. в оригинальном файле такого нет. может, в настройках что-то надо подкрутить?
Я имел в виду, что в киберпанке полно AI модов на изменение голоса гг, думал попробовать самому сделать такое изменение пользуясь твоими файлами озвучки, не получилось, видимо, модель мало просто натянуть на имеющиеся реплики, надо ее специально обучать под них, пользуясь данной нейросетью. У меня не получилось. В связи с чем и поинтересовался, не будет ли это трудным для тебя)
Я совершенно не знаю как делают моды под киберпанк, у меня нет опыта в этом деле. Что именно у вас не получилось, можете мне написать и прислать примеры на "https://huggingface.co/Rootreck" - я там часто бываю и там удобно заниматься такими обсуждениями.
На "Hugging Face" в моём профиле надо зайти в любую категорию "Models" или "Datasets", например "Models" и "so-vits-svc-4.0-ru-The_Witcher_3_Wild_Hunt", там в верху будет жёлтый значок "community", а там уже надо нажать на "New discussion" и задать вопрос, таким образом создастся чат в котом можно удобно вести обсуждения.
Молодец, я тоже сейчас тренирую голоса для мода DAO. Прихожу вечером и включаю комп на ночь. Конечно не хватает сейчас нормальной нейросети, которая бы нормально читала текст. Даже у платных сервисов результат не очень.
Для so vits как раз немного нужно, около 700 эпох вполне достаточно (loss и качество перестают меняться). Для оригинального vits процесс и правда очень долгий, и нужно много обучающих данных (3+ часов, только для Геральта и Этой получилась хорошая модель).
Я стараюсь тренировать в пределах 600-1000 эпох в зависимости от количества исходных данных, чем больше исходных данных тем меньше тренирую эпох. Сейчас у меня в процессе тренировки голос "Йеннифэр", на данный момент натренировано "254 эпохи". Datasets состоит из 1185 аудио файлов, это по длительности 1 час 15 минут и 39 секунд. Это всё что мне удалось достать из игры. Сейчас тренировка идёт примерно 2 с небольшим дня.
Сейчас я пользуюсь вот этим инструментом для извлечения аудиофайлов диалогов - https://github.com/JTGizmo/Extracting-Voice-Over-Audio-from-Witcher-3
Я хочу ещё извлечь голос "Трисс" и при поиске диалогов находится 893 строчки с аудиофайлами, но при извлечении извлекается только 240 строчек. К сожалению, я не знаю что делать.
Если тебе нужна модель Трисс и Йен, я могу скинуть. Просто не вижу хорошего повода выкладывать их в открытый доступ. Для распаковки лучше использовать radish speech/strings encoder. Для so vits достаточно и 15 минут для отличного результата. Многое зависит от качества референса. А тренировка занимает несколько циклов по паре часов бесплатного доступа в Google colab.
Не могли бы вы записать видео: Как извлечь текст и аудио с помощью radish speech/strings encoder, я совершенно не знаком с этим инструментом - но, уже не раз на него натыкался.
Так-же желательно как запустить этот инструмент и как его настроить.
В качестве основного инструмента, я использую "w3utils - proper". Но этот инструмент не всё извлекает (У меня он не работает с DLC), а из основной игры извлекает около 70%. От этого инструмента я использую только таблицы с названиями строк, чтобы понимать где какая и откуда они взяты. w3utils - proper, скачать можно тут - https://github.com/JTGizmo/Extracting-Voice-Over-Audio-from-Witcher-3
В качестве более точного извлечения у меня используеться: lua.exe и скрипты для извлечения. (Этот иннструмент извлекает всё, но не так удобно и быстро как предыдущий) Тут по ссылке есть урок по созданию мода, а в низу есть краткое руководство по извлечению текстур (процесс с озвучкой точно такой-же, только используеться другой скрипт)
Ссылка на урок по созданию мода - https://www.playground.ru/witcher_3_wild_hunt/guide/the_witcher_3_wild_hunt_drugoe_modkit-1206307
Для текстур используеться скрипт "unpack_textures.lua" Для озвучки используеться скрипт "inspect_w3speech.lua"
Спасибо, надеюсь позже это можно будет адаптировать для более качественного синтеза. В любом случае ваша подборка думаю пригодится. Голос Региса (Дениса Беспалого) хотелось бы ещё в подборку.
34 comments
Исправил.
только вот вопрос возник: почему у меня в итоговом файле звук прерывается? заикается Геральт. в оригинальном файле такого нет. может, в настройках что-то надо подкрутить?
На RVC 2 можно как-то модели запустить? Сравнил обе программы, она лучше работает по качеству.
Для оригинального vits процесс и правда очень долгий, и нужно много обучающих данных (3+ часов, только для Геральта и Этой получилась хорошая модель).
Сейчас я пользуюсь вот этим инструментом для извлечения аудиофайлов диалогов - https://github.com/JTGizmo/Extracting-Voice-Over-Audio-from-Witcher-3
Я хочу ещё извлечь голос "Трисс" и при поиске диалогов находится 893 строчки с аудиофайлами, но при извлечении извлекается только 240 строчек. К сожалению, я не знаю что делать.
Для распаковки лучше использовать radish speech/strings encoder. Для so vits достаточно и 15 минут для отличного результата. Многое зависит от качества референса.
А тренировка занимает несколько циклов по паре часов бесплатного доступа в Google colab.
Так-же желательно как запустить этот инструмент и как его настроить.
w3utils - proper, скачать можно тут - https://github.com/JTGizmo/Extracting-Voice-Over-Audio-from-Witcher-3
В качестве более точного извлечения у меня используеться: lua.exe и скрипты для извлечения. (Этот иннструмент извлекает всё, но не так удобно и быстро как предыдущий)
Тут по ссылке есть урок по созданию мода, а в низу есть краткое руководство по извлечению текстур (процесс с озвучкой точно такой-же, только используеться другой скрипт)
Ссылка на урок по созданию мода - https://www.playground.ru/witcher_3_wild_hunt/guide/the_witcher_3_wild_hunt_drugoe_modkit-1206307
Для текстур используеться скрипт "unpack_textures.lua"
Для озвучки используеться скрипт "inspect_w3speech.lua"