Công cụ tổng hợp giọng nói (TTS)

AI SUITE

    CÔNG CỤ TỔNG HỢP GIỌNG NÓI – TTS

    Tổng hợp giọng nói (Speech Synthesis) được tạo ra bằng việc tổng hợp giọng nói của con người một cách nhân tạo, và nó còn được gọi là biến đổi giọng nói văn bản (text – to – speech, TTS) trong việc chuyển đổi văn bản sang giọng nói.

    Bằng việc học tập giọng nói của một người, công cụ tổng hợp giọng nói AI Suite là công cụ tạo ra giọng nói của của con người một cách nhân tạo với âm điệu và ngữ điệu gần giống với giọng nói đã học được về một câu nhất định. Đặc biệt, có thể tạo mô hình tổng hợp giọng nói với giọng nói phản ánh đặc điểm của từng người dùng bằng cách học cả giọng nói của mô hình đã được học, và tệp giọng nói của tên miền cụ thể cũng như giọng nói cá nhân cụ thể. Công cụ TTS có thể được sử dụng cho các dịch vụ AI khác nhau bằng cách cung cấp mô hình được đào tạo như một dịch vụ riêng lẻ thông qua End – Point.

    Các đặc điểm chính

    Tổng hợp giọng nói tự nhiên và nhanh chóng
    Gần đây, nhiều sản phẩm TTS cố gắng tổng hợp lời nói thông qua Deep Learning để bù đắp cho những nhược điểm của phương pháp hiện có, song rất khó để có thể đáp ứng được cả chất lượng và hiệu suất. Công cụ tổng hợp giọng nói của Saltlux sử dụng phương pháp Hybrid - Tacotron Deep Learning Model ứng dụng mô hình Tacotron để đảm bảo hiệu suất trong quá trình học tập, và mô hình Tacotron 2 để đảm bảo chất lượng TTS tự nhiên trong quá trình học chuyển. Phương pháp học tập này cung cấp an toàn chất lượng TTS tốt của chất lượng âm thanh và ngữ điệu tự nhiên, bằng cách học tập dữ liệu giọng nói của nhân vật thực. Ngoài ra, có thể xử lý dịch vụ thương mại với tốc độ có thể hiện thực hóa bằng cách thực hiện đồng thời với quá trình TTS.
    Tổng hợp giọng nói cá nhân hiệu quả cao
    Công cụ tổng hợp giọng nói của Saltlux sử dụng phương pháp học chuyển giao mà học thêm dữ liệu giọng nói của người nói mới dựa trên mô hình được đào tạo tốt. Quá trình học chuyển có thể tổng hợp giọng nói của người nói chỉ với dữ liệu học khoảng 30 phút. Điều này có ưu điểm là có thể tổng hợp hiệu quả giọng nói của đối tượng với chi phí thấp nhưng hiệu suất cao nhờ việc giảm công việc sao chép giọng nói quy mô lớn tốn kém.
    Chuyển đổi ký hiệu Hangul cụ thể theo miền và tổng hợp giọng nói
    Hầu hết các công cụ TTS của Hàn Quốc gặp khó khăn trong việc tổng hợp giọng nói cho các phát âm khác với tiếng Hàn, chẳng hạn như các từ tiếng Anh, số và đơn vị. Vì chữ cái Hangeul và chữ cái khác vẫn đang được sử dụng kết hợp trong nhiều lĩnh vực dịch vụ, nên nó phải tạo khả năng phát âm các ký hiệu không phải Hangeul khác nhau nhằm cung cấp dịch vụ TTS trơn tru trong lĩnh vực này. Công cụ TTS của Saltlux cung cấp chức năng chuyển đổi trơn tru ký hiệu không phải Hangeul và chức năng chuyển đổi ký hiệu phát âm từ tiếng Anh.

    Các tính năng và thông số kỹ thuật chính

    Các chức năng của công cụ tổng hợp giọng nói có thể được chia thành quản lý học tập lớn và quản lý dịch vụ. Phần quản lý học tập tạo hoặc quản lý một mô hình TTS mới bằng cách học dữ liệu giọng nói cụ thể. Phần quản lý dịch vụ chịu trách nhiệm triển khai và quản lý để mô hình tổng hợp giọng nói được học qua công cụ có thể được cấu hình như một dịch vụ có thể truy cập và sử dụng trong các ứng dụng dịch vụ khác.

    15

    <Cấu tạo hệ thống công cụ TTS>

    Quản lý dữ liệu học tập
    Cung cấp chức năng đăng ký và quản lý dữ liệu học tập cần thiết trong học tập TTS. Dữ liệu học tập được tạo thành bởi một tệp giọng nói và một tệp sao chép trong đó nội dung của giọng nói tương ứng được viết dưới dạng văn bản. Có thể tải lên nhiều loại tập dữ liệu khác nhau với độ dài, dung lượng và người nói khác nhau của dữ liệu học tập và áp dụng chúng một cách có chọn lọc khi học mô hình tổng hợp giọng nói.
    Quản lý từ điển
    Sử dụng từ điển ngôn ngữ như là quá trình tiền xử lý cho câu văn được nhập trong quá trình tổng hợp giọng nói. Có thể quản lý đăng ký các từ cần chuyển đổi trước hoặc các từ có thể thay đổi cách phát âm tùy thuộc vào một tên miền cụ thể. Các loại từ điển khác nhau có thể được thiết lập và áp dụng cho từng dịch vụ thoại.
    Quản lý học tập
    Có thể học mô hình TTS thông qua chức năng quản lý học tập. Bằng cách tuyển chọn dữ liệu học tập và điều chỉnh các tham số cần thiết cho việc học, có thể tạo mô hình tổng hợp giọng nói của dạng mong muốn và học tập chuyển giao thêm vào mô hình đã học trước đó. Có thể kiểm tra tiến trình của mô hình đang học, kiểm tra chất lượng thông qua kiểm tra TTS, quản lý nhiều phiên bản của mô hình đã được học thành một danh sách và triển khai nó đến các dịch vụ cần thiết.
    Quản lý dịch vụ
    Trong trường hợp tổng hợp giọng nói, nó thường được sử dụng bằng cách gọi API được cung cấp bởi công cụ TTS trong các ứng dụng dịch vụ khác yêu cầu chức năng chuyển đổi giọng nói. Chức năng quản lý dịch vụ tạo và quản lý giao diện dịch vụ dựa trên RESTful chuyên cung cấp TTS. Thông qua chức năng quản lý dịch vụ, có thể kích hoạt dịch vụ cho mô hình tổng hợp giọng nói và tài nguyên hệ thống (Processes) mà có thể sử dụng, và tạo, cung cấp End - point để có thể gọi mô hình tương ứng từ các dịch vụ khác.

    Các đặc điểm chính

    Saltlux đang sử dụng phương pháp thích ứng người dùng mà sử dụng công nghệ học chuyển để thực hiện dịch vụ cá nhân hóa TTS. Học chuyển giao là phương pháp học tập các mô hình mới với các vấn đề tương tự bằng cách sử dụng các mô hình được đào tạo tốt hiện có. Học chuyển giao cải thiện hiệu quả học tập của mô hình mới và đạt được hiệu suất cao bằng cách tinh chỉnh (fine-tuning) một cách có ý nghĩa các giá trị trọng lượng (weight) của mô hình đã được học với một lượng nhỏ dữ liệu. Học chuyển giao dựa trên mô hình A được học tốt với lượng dữ liệu đủ, do đó có thể học hiệu quả giọng nói của B thiếu dữ liệu.

    Khi học chuyển giao, nếu phân phối mô hình A được học trước và mô hình B được học thêm cho thấy sự khác biệt lớn, hiệu suất TTS sẽ giảm đáng kể. Để giải quyết vấn đề biến đổi hiệu suất học tập do sự bất hòa dữ liệu gây ra, Saltlux đang áp dụng phương pháp học bán giám sát (Semi-Supervised Learning) mà chỉ học trước một phần của mạng TTS bằng cách sử dụng dữ liệu thời gian hàng chục giờ bao gồm giọng nói của nhiều người. Học bán giám sát là học bằng dữ liệu giọng nói mà không cần dữ liệu phiên âm, và đó là nguyên lí giống như con người học nói trước khi học chữ. Saltlux áp dụng mô hình học bán giám sát vào TTS cùng với học chuyển, giúp giảm đáng kể thời gian học trong khi tối đa hóa hiệu suất tổng hợp giọng nói. Hiện nay, công cụ TTS của Saltlux có thể học một giọng nói cụ thể, tạo ra giọng nói chất lượng cao với 30 phút dữ liệu giọng nói.

    Màn hình công cụ chính

    16
    17