Công cụ nhận diện giọng nói (STT)

AI SUITE

    CÔNG CỤ NHẬN DIỆN GIỌNG NÓI STT

    Nhận dạng giọng nói đề cập đến quá trình máy tính diễn giải ngôn ngữ nói mà một người nói và chuyển đổi nội dung đó thành dữ liệu văn bản, còn được gọi là Speech-to-Text (STT). Công cụ STT là một hệ thống cung cấp dịch vụ nhận dạng giọng nói để sử dụng trong các dịch vụ khác nhau dựa trên giao diện giọng nói. Đặc biệt, STT của AI Suite đã được học trước một lượng lớn dữ liệu và bằng cách sử dụng phương pháp học chuyển (transfer learning) để nhanh chóng áp dụng cho một miền cụ thể, có thể cung cấp dịch vụ nhận dạng giọng nói chất lượng cao chỉ với một lượng nhỏ dữ liệu học.

    10

    <Cấu tạo dịch vụ dựa trên giao diện đàm thoại>

    Các đặc điểm chính

    Học tập STT dựa trên mạng lưới thần kinh sâu
    Công cụ STT của AI Suite hoạt động dựa trên học tập thích ứng mô hình âm thanh tiên tiến của Deep Learning. Cung cấp môi trường học tập thích ứng dựa trên mô hình âm thanh baseline ứng dụng công nghệ LSTM (Long Short - Term Memory) cho thấy tính năng nhận dạng giọng nói tiên tiến hơn so với mô hình âm thanh cơ bản Fully Connected DNN (Deep Neural Network) vốn có, cũng như thuật toán nhận dạng giọng nói được sử dụng thông thường HMM (Hidden Markov Model).
    11

    <Tổng quan về học tập STT dựa trên mạng thần kinh sâu>

    Học tập giọng nói DB đa ngôn ngữ dung lượng lớn
    Saltlux đang sở hữu dữ liệu giọng nói đa người dùng về các tình huống đa dạng cho từng ngôn ngữ riêng biệt. Được tích hợp trong công cụ STT của AI Suite bằng việc xây dựng STT đa ngôn ngữ đã được ghi nhận cũng như mô hình STT cơ bản chất lượng cao dựa trên dữ liệu giọng nói đa ngôn ngữ này. Thông qua đó, nó có thể cung cấp dịch vụ nhận dạng giọng nói chất lượng cao.

    Các tính năng và thông số kỹ thuật chính

    Công cụ STT có thể được chia thành dịch vụ nhận dạng giọng nói dựa trên RESTful và chức năng quản lý học tập của mô hình âm thanh cũng như mô hình ngôn ngữ. Dịch vụ nhận dạng giọng nói cung cấp kết quả nhận dạng giọng nói thông qua tiền xử lý dữ liệu giọng nói đầu vào, trích xuất tính năng, chuyển đổi văn bản thông qua một mô hình và hiệu chỉnh kết quả. Quản lý học tập thực hiện việc học trên mô hình âm thanh và mô hình ngôn ngữ bằng dữ liệu học tập của văn bản giọng nói

    12

    <Sơ đồ cấu tạo công cụ nhận dạng giọng nói>

    Dịch vụ STT
    Nhận dạng giọng nói thường được sử dụng bằng cách gọi API được cung cấp bởi công cụ nhận dạng giọng nói trong các ứng dụng dịch vụ khác yêu cầu chức năng nhận dạng giọng nói thông thường. Công cụ nhận dạng giọng nói cung cấp chức năng nhận dạng giọng nói thông qua dịch vụ End - Point API của RESTful. Có thể truy cập vào ứng dụng dịch vụ sử dụng công cụ này bất kể môi trường hệ thống, và triển khai dịch vụ AI dựa trên STT khác nhau bằng cách sử dụng các chức năng được cung cấp.
    Học tập thích ứng với mô hình âm thanh
    STT chuyển đổi dữ liệu giọng nói thành thông tin văn bản thông qua các mô hình đã được học trước. Mô hình học tập được sử dụng trong quá trình này phần lớn có thể được chia thành mô hình âm thanh (Acoustic Model, AM) và mô hình ngôn ngữ (Language Model, LM). Mô hình âm thanh được học bằng cách mô hình hóa theo thống kê các đặc điểm âm thanh trong dữ liệu giọng nói và có thể học thích ứng thêm các đặc điểm của giọng nói để được áp dụng thực tế dựa trên mô hình cơ bản do công cụ nhận dạng giọng nói cung cấp. Có thể thực hiện học tập thích ứng trên baseline model vốn có bằng cách nhập dữ liệu sao chép và dữ liệu ghi âm thu thập được trong lĩnh vực cụ thể (trung tâm cuộc gọi, v.v...) bằng dữ liệu học tập. Các mô hình âm thanh được học dựa trên LSTM (Long Short - Term Memory) cung cấp tính năng nhận dạng giọng nói cao hơn các phương pháp HMM và DNN và có thể cung cấp các chức năng nhận dạng giọng nói chuyên biệt trong lĩnh vực này.
    Học mô hình ngôn ngữ
    Bằng cách phản ánh các đặc điểm của biểu thức ngôn ngữ được sử dụng trong một lĩnh vực cụ thể (tài chính, trung tâm cuộc gọi, v.v.), có thể học tập mô hình ngôn ngữ để cung cấp chức năng STT chuyên biệt cho dịch vụ tương ứng và cung cấp chất lượng được cải thiện tốt hơn. Mô hình ngôn ngữ có thể học tập theo thống kê hoặc định nghĩa quy tắc tùy ý thông qua ngôn ngữ hình thức bằng cách thu thập số lượng lớn kho ngữ liệu, học tập các đặc điểm ngữ pháp như lựa chọn từ trong câu đã chuyển đổi thành văn bản hay cấu tạo câu.
    Cung cấp mô hình STT chất lượng cao
    Các mô hình âm thanh và ngôn ngữ được cung cấp bởi công cụ STT bao gồm một mô hình cơ sở (baseline model) đảm bảo hiệu suất cao thông qua 1.200 giờ học dữ liệu bằng tiếng Hàn.

    Các tính năng chính

    Bảng dưới đây cho thấy kết quả đánh giá chất lượng STT dựa trên học tập thích ứng. Corr (Correct) là số lượng đơn vị âm tiết được sửa, Acc (Accuracy) là tỷ lệ trả lời đúng khi xem xét các lỗi chèn và xóa, H (hit) là số chính xác được nhận diện nhanh chóng, D (deletion) là số được nhận diện bằng âm câm và S (substitution) là số được nhận diện bằng âm tiết khác, I (insertion) có nghĩa là số được nhận diện bằng âm tiết khác với âm câm. Trong trường hợp là cơ sở trước khi học tập thích ứng, cả hai mô hình âm thanh và ngôn ngữ đều có tỷ lệ trả lời đúng dưới 70%, nhưng sau khi học thích ứng, cả hai mô hình đều có tỉ lệ cải thiện đến hơn 97%. Công nghệ nhận dạng giọng nói phát triển đang được sử dụng cho Chatbot và STT của trung tâm cuộc gọi cũng như phân tích văn bản, xây dựng hệ thống Callbot v.v trong các môi trường khác nhau.

    13

    <Đánh giá chất lượng công nghệ STT dựa trên học tập thích ứng>

    Màn hình công nghệ chính

    14