AiKraft
Корзина 00 руб.
    Отдел продаж
    • +7 (499) 677-55-69
    • +7 (812) 507-58-35

    Ежедневно, с 09.00 до 20.00

    • WhatsApp
    • Telegram
      • +7 (499) 677-55-69
      • +7 (812) 507-58-35
      • Заказать топливо
        Заказать обратный звонок
        Нажимая на кнопку «Отправить», Вы даете согласие на обработку персональных данных.
    AiKraft
    Корзина 00 руб.
    Поиск
    • Оплата
    • Реквизиты
    • Блог
    • Контакты
    WhatsApp Telegram
    AiKraft
    автоматизация бизнес-процессов
    и внедрение AI-решений для компаний
    project@aikraft.ru Пн - Вс: 09.00 - 20.00
    +7 (499) 677-55-69 +7 (812) 507-58-35
    Корзина 00 руб.
    Корзина
    Ваша корзина пуста!
    • Чат-боты и AI-ассистенты
    • Роботизация процессов (RPA)
    • Телефония и коммуникации
    • Обработка заявок и клиентские сервисы
    • Отраслевые решения
    • Каталог workflow и готовых решений
    • Маркетинг и аналитика
    • Интеграции и платформы
    • Документы, финансы и ЭДО
    • Автоматизация бизнес-процессов
    • CRM и автоматизация продаж
    • 1С и учётные системы
      WhatsApp Telegram
      • +7 (499) 677-55-69
      • +7 (812) 507-58-35
      • Заказать топливо
        Заказать обратный звонок
        Нажимая на кнопку «Отправить», Вы даете согласие на обработку персональных данных.
      Авторизация
      Забыли пароль?
      Регистрация

      MAI-Voice-2 от Microsoft: новый AI-голос на 15 языках | aikraft.ru

      • Главная
      • Новости
      • Microsoft запустила MAI-Voice-2: AI-голос говорит на 15 языках и копирует эмоции
      MAI-Voice-2 от Microsoft: новый AI-голос на 15 языках | aikraft.ru

      Microsoft показала MAI-Voice-2, свою новую модель для озвучки текста. В тестах её выбирали чаще прошлой версии в 72% случаев.

      Главное не в том, что голос стал «приятнее». Он теперь умеет звучать смущённо, шёпотом, возбуждённо и держать один голос часами.

      Голос больше не звучит как робот из банкомата

      страница Microsoft AI с анонсом MAI-Voice-2 и примерами аудио на разных языках
      Скриншот: microsoft.ai

      MAI-Voice-2 — это text-to-speech (преобразование текста в речь). Вы пишете фразу, а модель читает её живым голосом.

      Microsoft говорит, что это самая выразительная голосовая модель компании. Её делают для ассистентов, поддержки, аудиокниг, курсов и сервисов доступности.

      Разница простая. Старый синтезатор просто «читал». Новый пытается играть интонацией, как человек.

      Что реально изменилось: эмоции, языки и один голос на весь час

      У модели появилось несколько важных возможностей. Они звучат технически, но смысл очень бытовой.

      • 15 языков вместо английского-only (только английского).
      • Эмоции по тегам: sad (грустно), whispered (шёпотом), excited (возбуждённо).
      • 5–60 секунд аудио, чтобы создать похожий голос.
      • Стабильный голос для длинных форматов: аудиокниг, лекций, подкастов.
      • Code-switching (переключение языков в одной фразе) для пар вроде Hindi-English и Spanish-English.

      Например, голос может начать фразу на хинди, вставить английское слово и не развалиться. Так люди часто говорят в реальной жизни.

      Для брендов это важно. Голос поддержки, приложения или ассистента может звучать одинаково в разных странах.

      Голос можно собрать из короткого фрагмента

      Разработчикам не нужно обучать отдельную модель под каждый голос. Достаточно дать короткий reference audio (образец голоса) на 5–60 секунд.

      Дальше MAI-Voice-2 создаёт речь, которая похожа на этого человека. Microsoft называет это zero-shot voice prompting (создание голоса без отдельного обучения).

      Звучит мощно, но опасно. Поэтому Microsoft отдельно подчёркивает consent guardrails (защитные правила согласия).

      В продакшене (рабочем продукте для пользователей) можно использовать только разрешённые и лицензированные голоса. По заявлению Microsoft, нелегальное клонирование голоса там недоступно.

      Где это появится первым

      MAI-Voice-2 уже доступна в Azure Foundry (платформа Microsoft для AI-разработки). Её также встраивают в VSCode (редактор кода) и Dynamics 365 Contact Center (система для клиентской поддержки).

      Это значит, что модель не останется красивой демкой. Её сразу тянут в продукты, где голос влияет на деньги и опыт пользователей.

      • Поддержка клиентов: голосовой бот звучит как часть бренда.
      • Аудиокниги: один голос не «плывёт» через 3 главы.
      • Образование: курсы можно озвучивать разными персонажами.
      • Игры: NPC (неигровые персонажи) получают живую речь.
      • Доступность: интерфейсы становятся удобнее для людей с нарушениями зрения или речи.

      Зачем Microsoft это делает

      Голос — следующий интерфейс после текста и кнопок. Люди не хотят изучать меню, если можно просто сказать задачу.

      Но плохой голос быстро раздражает. Особенно в поддержке, обучении и длинных аудио.

      Microsoft явно собирает набор мультимодальных моделей. Multimodal (мультимодальный) значит, что система работает с текстом, голосом, изображениями и другими форматами сразу.

      В демо DuoAI можно поговорить с двумя AI-агентами и генерировать изображения через MAI-Image-2.5. Там же показывают MAI-Transcribe-1.5 для transcribe (перевода речи в текст).

      То есть цель не просто «озвучить текст». Цель — сделать голосовых агентов, которые слушают, отвечают и создают контент.

      Как это применить прямо сейчас

      Если у вас бизнес, сценарии довольно понятные. Особенно если вы часто общаетесь с клиентами или делаете контент.

      • Маркетинг: быстро озвучивать ролики, презентации и промо.
      • Поддержка: сделать голосового помощника с фирменной интонацией.
      • Обучение: превращать инструкции в короткие аудиоуроки.
      • Медиа: выпускать подкасты и аудиоверсии статей без студии.
      • Продукты: добавить голос в приложение, сайт или устройство.

      Для разработчиков важен доступ через Foundry API (интерфейс для подключения модели в коде). Документация уже опубликована у Microsoft.

      Официальный анонс можно посмотреть на сайте Microsoft AI.

      Главный сдвиг — голос становится частью продукта

      Раньше синтетическая речь была компромиссом. Её терпели, потому что было дешевле, чем записывать диктора.

      Теперь логика меняется. Голос может стать фирменным интерфейсом, как логотип, цвет или тон сообщений.

      Следующая конкуренция будет не только за самый умный AI. Будет борьба за AI, с которым приятно разговаривать каждый день.

      Поделиться
      Поделиться
      Выберите обязательные опции
      Быстрый заказ
      Нажимая на кнопку «Отправить заказ», Вы даете согласие на обработку персональных данных.

      Мы используем файлы cookie и другие средства сохранения предпочтений и анализа действий посетителей сайта. Подробнее в Согласие на обработку персональных данных. Нажмите «Принять», если даете согласие на это.

      Принять

      Пользуясь сайтом вы принимаете условия политики в отношении обработки персональных данных, договор публичной оферты и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте

      AiKraft © 2026

      Компания
      • О нас
      • Реквизиты
      • Контакты
      • Производители
      Каталог
      • Производители
      Получение и оплата
      • Блог
      • Новости
      • Оплата
      Услуги
      Отдел продаж
      • +7 (499) 677-55-69
      • +7 (812) 507-58-35

      Ежедневно, с 09.00 до 20.00

      Мы в сети
      • WhatsApp
      • Telegram

      Пользуясь сайтом вы принимаете условия политики в отношении обработки персональных данных, договор публичной оферты и пользовательского соглашения каждый раз, когда оставляете свои данные в любой форме обратной связи на сайте, AiKraft © 2026