Microsoft показала MAI-Voice-2, свою новую модель для озвучки текста. В тестах её выбирали чаще прошлой версии в 72% случаев.
Главное не в том, что голос стал «приятнее». Он теперь умеет звучать смущённо, шёпотом, возбуждённо и держать один голос часами.
Голос больше не звучит как робот из банкомата

MAI-Voice-2 — это text-to-speech (преобразование текста в речь). Вы пишете фразу, а модель читает её живым голосом.
Microsoft говорит, что это самая выразительная голосовая модель компании. Её делают для ассистентов, поддержки, аудиокниг, курсов и сервисов доступности.
Разница простая. Старый синтезатор просто «читал». Новый пытается играть интонацией, как человек.
Что реально изменилось: эмоции, языки и один голос на весь час
У модели появилось несколько важных возможностей. Они звучат технически, но смысл очень бытовой.
- 15 языков вместо английского-only (только английского).
- Эмоции по тегам: sad (грустно), whispered (шёпотом), excited (возбуждённо).
- 5–60 секунд аудио, чтобы создать похожий голос.
- Стабильный голос для длинных форматов: аудиокниг, лекций, подкастов.
- Code-switching (переключение языков в одной фразе) для пар вроде Hindi-English и Spanish-English.
Например, голос может начать фразу на хинди, вставить английское слово и не развалиться. Так люди часто говорят в реальной жизни.
Для брендов это важно. Голос поддержки, приложения или ассистента может звучать одинаково в разных странах.
Голос можно собрать из короткого фрагмента
Разработчикам не нужно обучать отдельную модель под каждый голос. Достаточно дать короткий reference audio (образец голоса) на 5–60 секунд.
Дальше MAI-Voice-2 создаёт речь, которая похожа на этого человека. Microsoft называет это zero-shot voice prompting (создание голоса без отдельного обучения).
Звучит мощно, но опасно. Поэтому Microsoft отдельно подчёркивает consent guardrails (защитные правила согласия).
В продакшене (рабочем продукте для пользователей) можно использовать только разрешённые и лицензированные голоса. По заявлению Microsoft, нелегальное клонирование голоса там недоступно.
Где это появится первым
MAI-Voice-2 уже доступна в Azure Foundry (платформа Microsoft для AI-разработки). Её также встраивают в VSCode (редактор кода) и Dynamics 365 Contact Center (система для клиентской поддержки).
Это значит, что модель не останется красивой демкой. Её сразу тянут в продукты, где голос влияет на деньги и опыт пользователей.
- Поддержка клиентов: голосовой бот звучит как часть бренда.
- Аудиокниги: один голос не «плывёт» через 3 главы.
- Образование: курсы можно озвучивать разными персонажами.
- Игры: NPC (неигровые персонажи) получают живую речь.
- Доступность: интерфейсы становятся удобнее для людей с нарушениями зрения или речи.
Зачем Microsoft это делает
Голос — следующий интерфейс после текста и кнопок. Люди не хотят изучать меню, если можно просто сказать задачу.
Но плохой голос быстро раздражает. Особенно в поддержке, обучении и длинных аудио.
Microsoft явно собирает набор мультимодальных моделей. Multimodal (мультимодальный) значит, что система работает с текстом, голосом, изображениями и другими форматами сразу.
В демо DuoAI можно поговорить с двумя AI-агентами и генерировать изображения через MAI-Image-2.5. Там же показывают MAI-Transcribe-1.5 для transcribe (перевода речи в текст).
То есть цель не просто «озвучить текст». Цель — сделать голосовых агентов, которые слушают, отвечают и создают контент.
Как это применить прямо сейчас
Если у вас бизнес, сценарии довольно понятные. Особенно если вы часто общаетесь с клиентами или делаете контент.
- Маркетинг: быстро озвучивать ролики, презентации и промо.
- Поддержка: сделать голосового помощника с фирменной интонацией.
- Обучение: превращать инструкции в короткие аудиоуроки.
- Медиа: выпускать подкасты и аудиоверсии статей без студии.
- Продукты: добавить голос в приложение, сайт или устройство.
Для разработчиков важен доступ через Foundry API (интерфейс для подключения модели в коде). Документация уже опубликована у Microsoft.
Официальный анонс можно посмотреть на сайте Microsoft AI.
Главный сдвиг — голос становится частью продукта
Раньше синтетическая речь была компромиссом. Её терпели, потому что было дешевле, чем записывать диктора.
Теперь логика меняется. Голос может стать фирменным интерфейсом, как логотип, цвет или тон сообщений.
Следующая конкуренция будет не только за самый умный AI. Будет борьба за AI, с которым приятно разговаривать каждый день.