Наприклад, хочу, щоб фільм дублювався шістьма голосами: комбінація {жін-чол} та {діти, молодь-середній вік, похилі}, голоси професійних акторів.
1. Витягання аудіо з відео (FFmpeg/MKVToolNix)
2. Розпізнавання мови та створення субтитрів мовою оригіналу, якщо їх немає (Whisper)
3. Діаризація голосів (виявлення унікальних спікерів) (Pyannote)
4. Класифікація голосів за гендерно-віковими та іншими групами (Pyannote + відповідні моделі). ШІ-модель аналізує кожного розпізнаного унікального спікера та відносить його до відповідної групи, наприклад, чоловік похилого віку.
5. Усунення голосів з оригінального аудіо (Demucs/UVR)
6. Переклад розпізнаної мови (Ollama)
7. Клонування та синтезований переклад (XTTS). Качаємо зразки голосів професійних акторів (витягнути аудіо з ютюб роліків), відносимо його до відповідної групи. Наприклад, зразок голоса Сера Ентоні Гопкінса з фільму "Отець" буде використано для перекладу голосів оригіналу, віднсених до групи "чоловіки похилого віку".
8. Створити субтитри мовою перекладу (pysrt)
9. Накладення аудіо з перекладом на аудіо з усунутими голосами (FFmpeg/Audacity)
10. Додати дорогу з перекладом та субтитри до відео (FFmpeg/MKVToolNix)
Повна автоматизація із параметрами:
- ім'я файлу з фільмом
- мова перекладу/ів
- субтитри
бат-файл із пітон-скриптом.
Якби знав програмування краще підручника Турбо Паскаль в 11 класі та С Подбєлського на першому курсі, то завайбкодив би в чатгпт він аппку із базовим інтерфейсом. Віконечко, там:
- вибрати, перетягнути файл фільму для дубляжу
- вибрати мову/и перекладу
- потрібні субтитри чи ні
- класифікація голосів, можливо навіть роялті-фрі база голосів акторів. В розширених опціях: створення своєї класифікації для дубляжу із завантаженням зразків, наприклад, вказати ролік на ютюбі з Редкліффом, щоб переклало голосом Гаррі Поттера.
+2