Công cụ nhận diện hình ảnh

AI SUITE

    Công cụ nhận diện hình ảnh

    Công cụ nhận dạng hình ảnh là một công cụ nhận dạng các đối tượng bao gồm trong hình ảnh và dựa trên các kết quả đã được công nhận để phân loại bối cảnh trong những hình ảnh đó. Công cụ nhận dạng hình ảnh cung cấp các chức năng cơ bản được giải thích sau đây bao gồm các ứng dụng như tìm kiếm dựa trên hình ảnh, phụ đề video, công nghệ tự động lái, và trực quan hoá hỏi đáp. Saltlux hiện đang có kế hoạch tích hợp các lớp công nghệ để nâng tầm từ mức độ có thể giải thích cơ bản hình ảnh tới khả năng có thể thông hiểu bối cảnh sự việc trong bức ảnh (bảng dưới đây).

    ai26

    < Các lớp công nghệ công cụ nhận dạng hình ảnh >

    Các đặc điểm chính

    • Thông hiểu hình ảnh chi tiết và sâu sắc hơn sử dụng biểu đồ tri thức

    Công cụ nhận kết hợp sử dụng biểu đồ tri thức trong quá trình thông hiểu hình ảnh thông qua nhận dạng đối tượng trong hình ảnh. So với các sản phẩm nhận dạng hình ảnh hiện nay chỉ đơn giản là hiểu hình ảnh thông qua gắn thẻ từ ngữ hoặc câu thì sản phẩm kết hợp biểu đồ tri thức thông qua ngữ nghĩa có thể cung cấp khả năng hiểu hình ảnh chi tiết và chính xác hơn.

    • Thông hiểu hình ảnh theo tên miền tập trung

    Tùy thuộc vào thông tin tên miền mà tiêu chí để diễn giải hình ảnh có thể khác nhau. Công cụ nhận dạng hình ảnh dựa trên biểu đồ tri thức có thể được liên kết với từng biểu đồ tri thức được xây dựng cho các miền khác nhau, từ đó đưa ra kết quả phân tích hình ảnh cụ thể cho từng thông tin tên miền.

    Các tính năng chính và thông số kỹ thuật

    Công cụ nhận dạng hình ảnh có chức năng nhận diện tình huống bằng cách xử lý hình ảnh nhận được qua camera trong thời gian thực và cung cấp thông tin được nhận dạng cho ứng dụng. Trong trường hợp này, công cụ có thể gồm một mô-đun phân tích trực quan để phân tích các thông tin khác nhau trong một hình ảnh và một mô-đun hiểu trực quan để nhận dạng tình huống dựa trên thông tin phân tích.

    45

    < Sơ đồ cấu tạo công cụ nhận diện hình ảnh >

    • Phân đoạn ngữ nghĩa (Semantic Segmentation)

    Cùng sự phát triển của công nghệ nhận diện hình ảnh để phân tích ảnh và nhận dạng các loại đối tượng trong đó, công nghệ nhận diện đối tượng đã được phát triển chức năng xác định vị trí của các đối tượng đã nhận diện. Phân đoạn ngữ nghĩa là một tính năng xác định và phân tách tất cả các điểm trong ảnh thuộc về đối tượng nào đó. Tính năng này được sử dụng để tìm ranh giới (đường ranh giới) của từng sự vật (đối tượng) trong phạm vi chính xác của chúng.

    ai28

    <Ví dụ về nhận dạng đối tượng và phân chia đối tượng>

    • Phán đoán cử chỉ, điệu bộ

    Đây là tính năng nhận diện các khớp nối trong tư thế giải phẫu con người, ví dụ như đầu, cổ, vai và đầu gối, và đo lường các vị trí đó, từ đó phát hiện tư thế hoạt động của vật thể được quan sát. Đây là một kỹ thuật để phán đoán cử chỉ, điệu bộ.

    ai29

    < Ví dụ về Pose Estimation >

    • Nhận dạng cử chỉ tay (Hand Gesture Recognition)

    Nhận dạng cử chỉ là một chức năng trích xuất và phát hiện các cử chỉ có ý nghĩa từ thông tin như hình ảnh và chuyển động của đối tượng trong hình ảnh chụp bằng máy ảnh. Thông thường, nhận dạng cử chỉ tay phân tích tư thế của bàn tay để nhận phạm trù cụ thể của cử chỉ tay. Nhận dạng cử chỉ cho phép phát hiện chuyển động của bàn tay dưới dạng nhấp chuột, cuộn,v.v để diễn giải ý nghĩa mà không cần nhập trực tiếp.

    ai30

    < Ví dụ về nhận dạng cử chỉ tay >

    • Phát hiện đặc điểm khuôn mặt (Face Landmark Detection)

    Trích xuất đặc điểm khuôn mặt là một tính năng phát hiện và theo dõi các đặc điểm nhận dạng chính trên khuôn mặt (mắt, mũi, miệng, đường cằm, lông mày, v.v.). Chức năng này cho phép bạn điều bổ sung những thay đổi trên khuôn mặt cứng nhắc và không cứng nhắc qua chuyển động của đầu và biểu cảm khuôn mặt, và cung cấp khả năng hiểu ý nghĩa biểu cảm trên khuôn mặt.

    ai31

    < 얼굴 특징 추출 및 검증 예시 >

    • Phân loại nhóm tuổi/giới tính (Age-Group/Gender Classification)

    Đây là chức năng nhận diện khuôn mặt của một người từ một hình ảnh và phân loại và ước tính tuổi hoặc giới tính của người đó. Ngoài ra, những thông tin khác như biểu cảm trên khuôn mặt, trạng thái cảm xúc và chủng tộc cũng có thể được xác định.

    ai32

    < Ví dụ về phân loại nhóm tuổi/ giới tính >

    • Nhận dạng và xác minh khuôn mặt (Face Recognition and Verification)

    Đây là một chức năng nhận diện khuôn mặt và tìm ra đối tượng là ai. Nhận dạng khuôn mặt là một nghiệp vụ nhận dạng khuôn mặt trong hình ảnh, so sánh và phân biệt, xác định với thông tin khuôn mặt đã được đăng kí trước đó và kiểm chứng khuôn mặt người có các đặc điểm nhận dạng trùng khớp với hình ảnh đã được sử dụng trước đó không.

    ai33

    < Ví dụ về nhận dạng và xác minh khuôn mặt >

    Như đã trình bày trong hình ảnh Dnl, còn nhiều sai sót trong quy trình nhận diện khuôn mặt, vì vậy công cụ xác minh khuôn mặt được sử dụng để sửa lỗi trong bước hậu kì nhận diện khuôn mặt.

    • Thông hiểu hình ảnh

    Công cụ nhận dạng hình ảnh bao gồm quá trình thông hiểu hình ảnh để hiểu ý nghĩa của các đối tượng được xác định trong hình ảnh thông qua sử dụng biểu đồ tri thức. Ngoài sự kiện đã biết, công cụ có khả năng cung cấp kết quả thông hiểu hình ảnh chuyên biệt có thể được diễn giải khác nhau dựa vào thông tin tên miền.

    Đồ thị kiến ​​thức cho sự kiện

    Đây là một phương pháp trình bày thông tin thông qua bộ ba bằng cách kết hợp hiện trạng hai đối tượng đã xác định và quan hệ của chúng. Dự án Visual Genome được dẫn dắt bởi Đại học Stanford ở Hoa Kỳ cũng đang xây dựng một bộ dữ liệu bao gồm thông tin chi tiết thu được bằng cách phân tích ảnh trong KG. Mô-đun thông hiểu hình ảnh của công cụ nhận dạng hình ảnh sử dụng KG cho các sự kiện đã biết để trình bày các kết quả phân tích khác nhau thu được từ mô-đun phân tích hình ảnh.

    Sơ đồ tri thức cho kiến ​​thức miền

    Để hiểu rõ hơn về tình huống thông qua hình ảnh, cần phải xem xét không chỉ các sự kiện mà còn cần xem xét các thông tin khác nhau liên quan đến đối tượng. Cụ thể hơn, trong một ứng dụng, kiến ​​thức miền liên quan đến đối tượng là yêu cầu tất yếu cho khả năng hiểu cụ thể mỗi lĩnh vực tương ứng. Trong mô đun thông hiểu hình ảnh, tri ​​thức cụ thể trong một miền cụ thể có thể được biểu thị dưới dạng KG cho từng miền và có thể được kết hợp với KG cho thông tin đã biết trong từng dịch vụ ứng dụng.

    Chức năng chính

    Những chức năng của công cụ nhận dạng hình ảnh được giới thiệu ở trên đang liên tục được nghiên cứu và phát triển. Trạng thái hiện đại của công cụ (SOTA) tính nên nay được thể hiện như trong bảng dưới.

    46

    <Status-Of-The-Art theo từng chức năng nhận dạng hình ảnh>