CÔNG CỤ TỔNG HỢP GIỌNG NÓI – TTS
Tổng hợp giọng nói (Speech Synthesis) của Saltlux AI Suite được tạo ra bằng cách tổng hợp và nhân tạo hóa giọng nói của con người, còn được gọi là biến đổi giọng nói văn bản (text – to – speech, TTS) với tính năng chuyển đổi từ văn bản sang giọng nói.Bằng cách học giọng nói của con người từ các câu nhất định, công cụ tổng hợp giọng nói của AI Suite có thể tạo ra giọng nói với giai điệu và ngữ điệu tương tự như con người. Đặc biệt, nó có thể tổng hợp giọng nói bằng giọng nói của các cá nhân hoặc lĩnh vực cụ thể được học trong thời gian thực, cùng với các giọng nói đã học trước đó. Công cụ tổng hợp giọng nói còn có thể được sử dụng cho các dịch vụ AI khác nhau bằng cách cung cấp các mô hình đã học dưới dạng các dịch vụ riêng biệt thông qua End-Point.
Các đặc điểm chính
Tổng hợp giọng nói tự nhiên và nhanh chóng
Gần đây, nhiều sản phẩm TTS được thiết kế nhằm tổng hợp giọng nói thông qua Deep Learning, bù đắp cho những nhược điểm của phương pháp hiện có. Song, rất khó để có thể đáp ứng yêu cầu cả về chất lượng và hiệu suất. Công cụ tổng hợp giọng nói của Saltlux sử dụng mô hình Tacotron để đảm bảo hiệu suất trong quá trình học và Mô hình Hybrid-Tacotron Deep Learning Model áp dụng Tacotron2 để đảm bảo chất lượng TTS tự nhiên trong quá trình học chuyển. Phương pháp học này cung cấp chất lượng giọng nói ổn định và chất lượng tổng hợp giọng nói cao. Ngoài ra, có thể đạt được tốc độ xử lý dịch vụ thương mại nhanh chóng bằng cách thực hiện đồng thời với quá trình TTS.
Tổng hợp giọng nói cá nhân hiệu quả cao
Công cụ tổng hợp giọng nói của Saltlux sử dụng phương pháp học chuyển được bổ sung thêm dữ liệu mới dựa trên mô hình được đào tạo bài bản. Quá trình học chuyển có thể tổng hợp giọng nói của người nói chỉ với dữ liệu học trong khoảng 30 phút. Nhờ giảm thiểu chi phí của các hoạt động ghi chép giọng nói quy mô lớn. nó có thể tổng hợp hiệu quả giọng nói của đối tượng với chi phí thấp và hiệu suất cao
Chuyển đổi ký hiệu Hangul cụ thể theo miền và tổng hợp giọng nói
Hầu hết các công cụ TTS của Hàn Quốc gặp khó khăn trong việc tổng hợp giọng nói cho các phát âm khác ngoài tiếng Hàn, ví dụ như các từ, số và đơn vị bằng tiếng Anh. Điều này làm hạn chế khả năng tạo ra một dịch vụ tổng hợp giọng nói chất lượng. Công cụ TTS của Saltlux cung cấp các tính năng chuyển đổi các ký hiệu không phải Hangeul và ký hiệu phiên âm từ tiếng Anh một cách hiệu quả.
Các tính năng và thông số kỹ thuật chính
Các chức năng của công cụ tổng hợp giọng nói có thể được chia thành 2 mảng lớn là quản lý học tập lớn và quản lý dịch vụ. Mảng quản lý học tập có thể tạo hoặc quản lý một mô hình TTS mới bằng cách học dữ liệu giọng nói cụ thể. Mảng quản lý dịch vụ chịu trách nhiệm triển khai, quản lý để học mô hình tổng hợp giọng nói thông qua công cụ được cấu hình như một dịch vụ có thể truy cập và sử dụng trong các ứng dụng dịch vụ khác.
<Cấu tạo hệ thống công cụ TTS>
Quản lý dữ liệu học tập
Cung cấp chức năng đăng ký và quản lý dữ liệu học cho việc học tập TTS. Dữ liệu học tập bao gồm một tệp giọng nói và một tệp sao chép, trong đó nội dung giọng nói tương ứng được viết dưới dạng văn bản. Có thể tải lên nhiều loại dữ liệu học tập với độ dài, số lượng và người nói khác nhau và áp dụng một cách có chọn lọc khi học mô hình tổng hợp giọng nói.
Quản lý từ điển
Sử dụng từ điển ngôn ngữ để tiền xử lý các câu văn được nhập vào trong quá trình tổng hợp giọng nói. Có thể đăng ký và quản lý các từ cần chuyển đổi trước hoặc các thuật ngữ có cách phát âm khác nhau tùy theo lĩnh vực cụ thể. Các loại từ điển khác nhau có thể được thiết lập và áp dụng cho từng loại dịch vụ.
Quản lý học tập
Có thể học mô hình TTS thông qua chức năng quản lý học tập. Bằng cách chọn lọc dữ liệu học tập và điều chỉnh các tham số, người dùng có thể tạo ra mô hình tổng hợp giọng nói theo ý muốn, hoặc thực hiện học chuyển bằng cách thêm vào mô hình đã học trước đó. Người dùng có thể kiểm soát tiến độ và chất lượng của mô hình, quản lý danh sách nhiều phiên bản của mô hình đã học và phân phối đến các dịch vụ cần thiết.
Quản lý dịch vụ
Tổng hợp giọng nói thường được sử dụng bằng cách gọi API trong các ứng dụng dịch vụ yêu cầu chức năng chuyển đổi giọng nói. Chức năng quản lý dịch vụ tạo và quản lý giao diện dịch vụ dựa trên RESTful chuyên cung cấp TTS. Thông qua chức năng quản lý dịch vụ, người dùng có thể kích hoạt dịch vụ cho mô hình tổng hợp giọng nói và tài nguyên hệ thống (Processes) có thể sử dụng, hoặc tạo và cung cấp End-point để gọi mô hình tương ứng từ các dịch vụ khác.
Các đặc điểm chính
Saltlux sử dụng công nghệ học chuyển để thực hiện dịch vụ TTS cá nhân hóa. Học chuyển (Transfer learning) là phương pháp học tập các mô hình mới bằng cách sử dụng các mô hình hiện có, được đào tạo bài bản với các vấn đề tương tự. Việc học chuyển giao giúp cải thiện hiệu quả học tập của mô hình mới và đạt hiệu suất cao bằng cách tinh chỉnh (fine-tuning) một cách có ý nghĩa các giá trị trọng lượng (weight) của mô hình đã được học, dù chỉ với một lượng nhỏ dữ liệu. Học chuyển giao dựa trên mô hình A được học tốt với lượng dữ liệu đủ, từ đó có thể học hiệu quả giọng nói của mô hình B dù thiếu dữ liệu.
Nếu phân phối mô hình A được học trước và mô hình B được học thêm cho thấy sự khác biệt lớn, hiệu suất TTS sẽ giảm đáng kể. Để giải quyết vấn đề biến đổi hiệu suất học tập do sự bất hòa dữ liệu gây ra, Saltlux áp dụng phương pháp học bán giám sát (Semi-Supervised Learning) mà chỉ học trước một phần của mạng TTS bằng cách sử dụng dữ liệu thời gian hàng chục giờ bao gồm giọng nói của nhiều người. Học bán giám sát là học bằng dữ liệu giọng nói mà không cần dữ liệu phiên âm, và đó là nguyên lý giống như con người học nói trước khi học chữ. Mô hình học bán giám sát và TTS kết hợp cùng học chuyển, giúp giảm đáng kể thời gian học trong khi tối đa hóa hiệu suất tổng hợp giọng nói. Hiện nay, công cụ TTS của Saltlux có thể tạo ra giọng nói chất lượng cao bằng cách học giọng nói của một người cụ thể với 30 phút dữ liệu giọng nói.