Top

AimeSpeech áp dụng các công nghệ mô hình hóa ưu việt mới nhất trong công cụ tổng hợp giọng nói

Ngày đăng: 30/6/2022

Aimesoft đã ra mắt một phiên bản mới của công cụ chuyển văn bản thành giọng nói trong nền tảng xử lý giọng nói AimeSpeech. Phiên bản mới được phát triển đã áp dụng các kỹ thuật tạo mô hình ưu việt mới nhất, vì vậy nó có thể tạo ra giọng nói tự nhiên với sự nhấn mạnh ở cấp độ từ tốt hơn. Khi đọc các câu dài, công cụ mới tạo ra ngữ điệu tốt hơn và xử lý các khoảng dừng tự động một cách thích hợp.

Chuyển văn bản thành giọng nói (TTS), còn được gọi là tổng hợp giọng nói, là quá trình tổng hợp tự nhiên giọng nói của con người từ đầu vào văn bản. Công cụ AimeSpeech TTS học giọng nói của con người từ một tập dữ liệu giọng nói / câu văn bản nhất định và tạo ra giọng nói của con người với âm điệu và ngữ điệu tương tự như giọng nói của con người thật.

AimeSpeech là nền tảng về xử lý giọng nói bên trong hệ sinh thái phần mềm trí tuệ nhân tạo đa thể thức Aimenicorn. AimeSpeech bao gồm công cụ nhận dạng giọng nói (Speech to Text, STT engine, ASR), công cụ tổng hợp giọng nói (Text to Speech, TTS engine), thư viện nhận dạng người nói và các thư viện xử lý giọng nói nâng cao khác. AimeSpeech cho phép các nhà phát triển và người dùng tổng hợp giọng nói có âm thanh tự nhiên với giọng và giọng nam / nữ. Dịch vụ có thể truy cập ở dạng API hoặc SDK độc lập có thể được tích hợp dễ dàng với bất kỳ hệ thống nào, trên nhiều ứng dụng và thiết bị. Trong phiên bản mới này, mô hình prosody, đóng vai trò quan trọng trong việc tạo ra mô hình chuyển văn bản thành giọng nói chất lượng cao, được cải thiện rất nhiều. Bên cạnh các tính năng ưu việt, công cụ này cũng cung cấp khả năng chuyển đổi mượt mà các ký hiệu và grapheme giữa các ngôn ngữ. Điều này giúp công cụ có thể tổng hợp chính xác cách phát âm của các thực thể tiếng nước ngoài như tên người, địa điểm và danh từ riêng.

Công cụ AimeSpeech TTS đã được ứng dụng trong các sản phẩm Multimodal AI khác của Aimesoft như AimeTalk (Người thuyết trình ảo), AimeHotel (Nhân viên khách sạn ảo), AimeReception (Nhân viên lễ tân ảo) và AimeAIShop (Nhân viên bán hàng ảo). Ngoài ra, công cụ TTS cũng có thể được sử dụng rộng rãi trong các lĩnh vực như giáo dục, chăm sóc khách hàng, trợ lý ảo, marketing và quảng cáo,...

Đọc thêm press release tại: https://q-2-u.com/aimespeech-applies-the-latest-prosody-modeling-technologies-in-its-text-to-speech-engine/

The FIRST Company to Develop Multimodal AI with 200+ Installations Worldwide

The FIRST Company to Develop Multimodal AI with 200+ Installations Worldwide

AimeSpeech áp dụng các công nghệ mô hình hóa ưu việt mới nhất trong công cụ tổng hợp giọng nói