Trong cuộc đua chế tạo robot nhân dạng (humanoid), khả năng tương tác và biểu cảm tự nhiên luôn là "chén thánh" mà các kỹ sư theo đuổi. Một trong những rào cản lớn nhất chính là việc robot thường gặp khó khăn trong việc hiểu và tái tạo các chi tiết cơ học phức tạp trên khuôn mặt người.
Tuy nhiên, một nghiên cứu mới đây từ Viện Công nghệ Tiên tiến Thâm Quyến (SIAT) thuộc Học viện Khoa học Trung Quốc và Đại học Công nghệ Phúc Kiến đang hứa hẹn thay đổi hoàn toàn cục diện này.

Từ bỏ kết cấu 2D sang tư duy đám mây điểm 3D
Xưa nay, hầu hết các hệ thống nhận diện và điều khiển khuôn mặt robot đều dựa trên việc ánh xạ kết cấu từ hình ảnh 2D lên các mô hình 3D có sẵn. Phương pháp này tuy phổ biến nhưng lại bộc lộ nhiều nhược điểm: nó dễ sai lệch khi đối chiếu giữa ảnh phẳng và hình khối thực tế, đồng thời không nắm bắt được sự thay đổi tinh tế về hình học khi khuôn mặt chuyển động.
Để giải quyết triệt để vấn đề này, nhóm nghiên cứu do Giáo sư Tống Triển dẫn dắt đã chọn một hướng đi khác biệt: làm việc trực tiếp với dữ liệu hình học thô dưới dạng đám mây điểm (point clouds). Đám mây điểm là một tập hợp hàng triệu điểm trong không gian tọa độ ba chiều, mô tả chính xác từng lồi lõm trên khuôn mặt mà không cần đến màu sắc hay hình ảnh phủ bên ngoài.
Điểm mấu chốt của công trình là mô hình AI có tên gọi Mạng lưới chú ý đồ thị kết hợp độ cong (CF-GAT). Thay vì nhìn vào làn da hay màu mắt, CF-GAT tập trung vào "độ cong" của các đặc điểm hình học. AI này có khả năng tự xác định các điểm mốc quan trọng (landmarks) như khóe mắt, vành môi hay gò má dựa thuần túy trên dữ liệu không gian. Điều này giúp robot thoát khỏi sự phụ thuộc vào điều kiện ánh sáng hay các mẫu kỹ thuật số vốn thường thiếu tính cá nhân hóa.

Kho lưu trữ khổng lồ phục vụ trí tuệ nhân tạo
Một thuật toán thông minh luôn cần một lượng dữ liệu khổng lồ để "học". Hiểu rõ điều đó, nhóm nghiên cứu đã xây dựng một hệ thống thu thập dữ liệu 3D và 4D tùy chỉnh, thu thập khoảng 200.000 bản quét khuôn mặt người thật với độ chính xác cực cao. Đây được coi là một trong những kho dữ liệu sinh trắc học 3D có cấu trúc lớn nhất thế giới hiện nay.
Cơ sở dữ liệu này không chỉ có các khuôn mặt ở trạng thái tĩnh. Nó bao gồm cả các bộ dữ liệu 4D (3D theo thời gian) ghi lại các biểu cảm động, giúp AI hiểu được cách các nhóm cơ mặt co giãn khi một người cười, khóc hay ngạc nhiên. Nhờ kho tài nguyên phong phú này, mô hình CF-GAT đã đạt được sự ổn định vượt trội trước các tác động của nhiễu và có khả năng thích nghi với mọi hình dạng khuôn mặt khác nhau trong đời thực.

Tương lai của robot trong đời sống con người
Những tiến bộ này mang lại ý nghĩa to lớn cho thế hệ robot nhân dạng tiếp theo. Khi robot có khả năng phát hiện điểm mốc khuôn mặt trực tiếp từ hình học, chúng có thể theo dõi cử động của con người một cách chính xác hơn để phản hồi lại bằng những biểu cảm chân thực. Điều này đặc biệt quan trọng trong các lĩnh vực như chăm sóc sức khỏe, nơi sự thấu cảm qua nét mặt có thể hỗ trợ tâm lý cho bệnh nhân, hay trong ngành dịch vụ khách hàng đòi hỏi sự tương tác niềm nở.
Bên cạnh robot vật lý, công nghệ này còn mở đường cho các avatar ảo trong vũ trụ số (metaverse) trở nên sống động hơn. Người dùng sẽ thấy những nhân vật kỹ thuật số có cử động môi và nheo mắt khớp hoàn toàn với thực tế mà không còn cảm giác gượng gạo của những mô hình máy tính khô khan.
Sự kết hợp giữa dữ liệu quy mô lớn và thuật toán định hướng hình học của các nhà khoa học Trung Quốc đã đặt ra một tiêu chuẩn mới cho trí thông minh nhân tạo. Khi robot ngày càng "giống người" hơn về mặt hình học, chúng không chỉ là những cỗ máy vô hồn mà đang dần trở thành những người bạn đồng hành có khả năng giao tiếp phi ngôn ngữ đầy tinh tế.
Đức Khương
