The FIRST Company to Develop Multimodal AI with 200+ Installations Worldwide

The FIRST Company to Develop Multimodal AI with 200+ Installations Worldwide

Top

Aimesoft trình bày tại hội nghị PACLIC 2023 với chủ đề nghiên cứu “Automatic Transcript Generation from Presentation Slides”


                                                                                                                                                                                                                                 Ngày đăng: 12/12/2023
PACLIC 2023 (Pacific Asia Conference on Language, Information and Computation) là Hội thảo Châu Á Thái Bình Dương về ngôn ngữ, thông tin và tính toán lần thứ  37. Hội thảo PACLIC 37 là một diễn đàn cho các nhà nghiên cứu thuộc nhiều lĩnh vực khác nhau chia sẻ và thảo luận các tiến bộ trong các nghiên cứu khoa học, trong việc phát triển và ứng dụng của những chủ đề nghiên cứu liên quan đến nghiên cứu về các ngôn ngữ.

 

 img

 

 

 

Từ ngày 02-05 tháng 12 năm 2023, tại Trường Đại học bách khoa Hongkong, T.S Phạm Quang Nhật Minh - Trưởng phòng Nghiên cứu trí tuệ nhân tạo đa thể thức của Aimesoft đã đại diện cho nhóm nghiên cứu báo cáo về nghiên cứu với chủ đề “Automatic Transcript Generation from Presentation Slides” (Tự động sinh speaker note từ nội dung slide) và demo phần mềm Người thuyết trình ảo AimeTalk do công ty phát triển.
                                                                                    img

Ảnh: T.S Phạm Quang Nhật Minh tham dự Hội nghị PACLIC37

 

Người thuyết trình ảo AimeTalk là một phần mềm “người ảo” để phục vụ việc trình chiếu, thuyết trình các slides, tài liệu một cách tự động. Người thuyết trình ảo có thể được sử dụng để thay thế người thật thuyết trình trong các cuộc họp, bài giảng, hội thảo, hay trong nhiều hoạt động như giới thiệu sản phẩm, giảng dạy, đào tạo, … Phần mềm này cho phép tạo nhân vật ảo (avatar) có thể cử động được từ một ảnh khuôn mặt duy nhất. Nhân vật ảo sau đó sẽ tự động bật chế độ trình chiếu slides, tự động đọc phần chú thích trong các trang slides, tự động chuyển trang slides và trình chiếu. AimeTalk sẽ tự sinh ra giọng nói từ văn bản trong slide và cũng tự nhận biết khi nào cần chuyển slide. Phần mềm được xây dựng trên nền tảng trí tuệ nhân tạo đa thể thức của Aimesoft, kết hợp các công nghệ xử lý hình ảnh, tiếng nói, ngôn ngữ tự nhiên và tự động hoá RPA.
                                                                                   img                                                                                                                                                               Ảnh: Người dùng đang trải nghiệm phần mềm AimeTalk tại PACLIC 37
Tuy nhiên, để có thể trình chiếu slide bằng AimeTalk, người dùng cần chuẩn bị speaker note (chú thích) bằng cách nhập nội dung chú thích của từng trang slide một cách thủ công. Việc này đôi khi khá tốn thời gian và công sức với những bài thuyết trình dài lên tới vài chục trang hoặc các nội dung trùng lặp. Để tránh mất thời gian vào những thao tác thủ công như vậy và nhằm tăng tính tự động hóa cho AimeTalk, nhóm nghiên cứu của Aimesoft đã đề xuất phương pháp tự động sinh các speaker note này từ nội dung của các slide dựa trên mô hình ngôn ngữ lớn (LLM). Trong lĩnh vực xử lý ngôn ngữ tự nhiên, nghiên cứu của nhóm là nghiên cứu đầu tiên về chủ đề sinh speaker note từ nội dung slide. Nghiên cứu đã mở ra khả năng tự động hóa hoàn toàn công việc trình chiếu slide. Chỉ với các nội dung ngắn gọn hoặc các tiêu đề/ đề mục trên các trang slide, mô hình sinh ngôn ngữ sẽ tự động tổng hợp và nhận biết để sinh ra các văn bản đầy đủ theo ngữ cảnh của trang slide hiện có. Nghiên cứu và demo của nhóm đã nhận được sự quan tâm của các nhà nghiên cứu khác trong hội nghị về tính mới mẻ và hữu ích của nghiên cứu cũng như sản phẩm người thuyết trình ảo AimeTalk.
Thông tin về diễn giả: Tiến sĩ Phạm Quang Nhật Minh có hơn 15 năm kinh nghiệm nghiên cứu và phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Lĩnh vực nghiên cứu và phát triển của anh bao gồm trí tuệ nhân tạo đa thể thức Multimodal AI, mô hình ngôn ngữ lớn (Large Language Models), phân tích văn bản pháp luật, các hệ thống giao tiếp tự động và trích xuất thông tin từ hội thoại. Anh Phạm Quang Nhật Minh và cộng sự là một trong những nhóm đầu tiên xây dựng mô hình ngôn ngữ lớn GPT-2 và GPT-3 cho ngôn ngữ tiếng Nhật.

Copyright © 2024 Aimesoft. All Rights Reserved.