Công cụ nhận dạng giọng nói STT

Nhận dạng giọng nói, còn được gọi là Speech-to-Text (STT), đề cập đến quá trình máy tính diễn giải một đoạn văn nói và chuyển đổi thành dữ liệu văn bản. Công cụ STT là một hệ thống cung cấp dịch vụ nhận dạng giọng nói cho nhiều loại dịch vụ khác nhau dựa trên giao diện giọng nói.
Đặc biệt, STT của Saltlux AI Suite đã được học trước một lượng lớn dữ liệu. Ngoài ra, bằng cách sử dụng phương pháp học chuyển (transfer learning), công cụ có thể cung cấp dịch vụ nhận dạng giọng nói chất lượng cao chỉ với một lượng nhỏ dữ liệu.

<Cấu tạo dịch vụ dựa trên giao diện đàm thoại>

Các đặc điểm chính

Học tập STT dựa trên mạng lưới thần kinh sâu

Công cụ STT của AI Suite hoạt động dựa trên học tập thích ứng với mô hình âm thanh tiên tiến của Deep Learning. STT dựa trên mô hình âm thanh cơ bản với công nghệ Bộ nhớ ngắn hạn dài (Long Short-Term Memory, LSTM), tiên tiến hơn so với mô hình nhận dạng giọng nói HMM (Mô hình Markov ẩn) thường được sử dụng hoặc mô hình âm thanh Mạng lưới thần kinh chuyên sâu (Fully Connected DNN) cơ bản.

<Tổng quan về học tập STT dựa trên mạng thần kinh sâu>

Học tập dữ liệu giọng nói đa ngôn ngữ dung lượng lớn

Saltlux sở hữu dữ liệu giọng nói đa người dùng với đa dạng tình huống cho từng ngôn ngữ riêng biệt. Công cụ nhận dạng giọng nói của AI Suite được xây dựng với tính năng nhận dạng giọng nói đa ngôn ngữ và các mô hình nhận dạng giọng nói cơ bản chất lượng cao được đào tạo với dữ liệu giọng nói đa ngôn ngữ. Từ đó cung cấp dịch vụ nhận dạng giọng nói chất lượng cao.

Các tính năng và thông số kỹ thuật chính

Công cụ STT có thể được chia thành dịch vụ nhận dạng giọng nói dựa trên RESTful và chức năng quản lý học tập của mô hình âm thanh cũng như mô hình ngôn ngữ. Dịch vụ nhận dạng giọng nói cung cấp kết quả nhận dạng giọng nói thông qua tiền xử lý dữ liệu giọng nói đầu vào, trích xuất tính năng, chuyển đổi văn bản thông qua một mô hình và hiệu chỉnh kết quả. Quản lý học tập thực hiện việc học trên mô hình âm thanh và mô hình ngôn ngữ bằng dữ liệu học tập của văn bản giọng nói.

<Sơ đồ cấu tạo công cụ nhận dạng giọng nói>

Dịch vụ STT

Nhận dạng giọng nói thường được sử dụng bằng cách gọi API cung cấp bởi công cụ nhận dạng giọng nói trong các ứng dụng dịch vụ yêu cầu nhận dạng giọng nói thông thường. Công cụ nhận dạng giọng nói cung cấp chức năng nhận dạng giọng nói thông qua dịch vụ End – Point API của RESTful. Người dùng có thể truy cập vào ứng dụng dịch vụ để sử dụng công cụ này ở bất kể môi trường hệ thống nào, và triển khai dịch vụ AI dựa trên STT khác nhau.

Học tập thích ứng với mô hình âm thanh

STT chuyển đổi dữ liệu giọng nói thành thông tin văn bản thông qua các mô hình đã được học trước. Mô STT chuyển đổi dữ liệu giọng nói thành văn bản bằng cách sử dụng các mô hình đã học trước: mô hình âm thanh AM (Acoustic Model) và mô hình ngôn ngữ LM (Language Model). Mô hình âm thanh AM học bằng cách lập mô hình thống kê các đặc tính âm thanh của dữ liệu giọng nói, có thể học thích ứng thêm các đặc điểm của giọng nói dựa trên mô hình cơ bản do công cụ nhận dạng giọng nói cung cấp. Thực hiện học tập thích ứng trên mô hình cơ sở (baseline model) hiện có bằng cách nhập dữ liệu sao chép và dữ liệu ghi âm được thu thập trong các lĩnh vực cụ thể (trung tâm cuộc gọi, v.v…) bằng dữ liệu học tập. Các mô hình âm thanh được học dựa trên LSTM (Long Short – Term Memory) cung cấp hiệu suất nhận dạng giọng nói tốt hơn các phương pháp HMM và DNN, đồng thời cung cấp các chức năng nhận dạng giọng nói chuyên biệt cho lĩnh vực này.

Học mô hình ngôn ngữ

Bằng cách phản ánh các đặc điểm của biểu thức ngôn ngữ sử dụng trong một lĩnh vực cụ thể (tài chính, trung tâm cuộc gọi, v.v.), công cụ có thể học mô hình ngôn ngữ để cung cấp chức năng nhận dạng giọng nói cho từng dịch vụ với chất lượng tốt hơn. Mô hình ngôn ngữ (Language Model, LM) học các quy tắc ngữ pháp như lựa chọn từ vựng trong câu và cấu trúc câu đã chuyển đổi thành văn bản. Đồng thời thu thập số lượng lớn kho ngữ liệu và học một cách hệ thống, hoặc xác định các quy tắc độc quyền bằng cách sử dụng ngôn ngữ mang tính trang trọng.

Cung cấp mô hình STT chất lượng cao

Các mô hình âm thanh và ngôn ngữ được cung cấp bởi công cụ STT bao gồm một mô hình cơ sở (baseline model) đảm bảo hiệu suất cao thông qua 1.200 giờ học dữ liệu bằng tiếng Hàn.

Các đặc trưng chính

Bảng dưới đây cho thấy kết quả đánh giá chất lượng STT dựa trên học tập thích ứng.

Corr (Correct) là số đơn vị âm tiết được nhận dạng chính xác,

Acc (Accuracy) là số câu trả lời đúng sau khi xem xét các lỗi chèn và xóa,

H (hit) là số từ được nhận diện chính xác,

D (deletion) là những trường hợp được nhận dạng là âm câm,

S (substitution) là những trường hợp được nhận dạng bằng âm tiết khác,

I (insertion) là số trường hợp mà âm câm được nhận dạng là âm tiết khác.

Trong trường hợp đường cơ sở xuất hiện trước khi học thích ứng, cả mô hình âm thanh và mô hình ngôn ngữ đều có tỷ lệ trả lời đúng dưới 70%. Nhưng sau khi học thích ứng, cả hai mô hình đều tăng tỉ lệ lên hơn 97%. Công nghệ nhận dạng giọng nói được sử dụng trong nhiều môi trường khác nhau, ví dụ như nhận dạng giọng nói, phân tích văn bản và xây dựng hệ thống callbot.

<Đánh giá chất lượng công nghệ STT dựa trên học tập thích ứng>

CÔNG CỤ NHẬN DẠNG GIỌNG NÓI STT