(L)VLMs là gì – Khi AI không chỉ “đọc”, mà còn “nhìn” thế giới như con người?

I. Mô hình Ngôn ngữ Thị giác là gì?

Các mô hình ngôn ngữ thị giác (Vision Language Models – VLMs) là các hệ thống AI đa phương thức (multimodal AI systems) được xây dựng bằng cách kết hợp một mô hình ngôn ngữ lớn (Large Language Model – LLM) với một bộ mã hóa hình ảnh (vision encoder), giúp LLM có khả năng “nhìn thấy”

Với khả năng này, VLMs có thể xử lý và hiểu nội dung đa dạng dưới nhiều định dạng khác nhau video, hình ảnh và văn bản từ đó tạo ra các phản hồi bằng một cách tự nhiên.

Các ứng dụng của mô hình ngôn ngữ thị giác

Không giống như các mô hình thị giác máy tính truyền thống, VLMs không bị giới hạn bởi một tập lớp cố định hoặc một nhiệm vụ cụ thể như phân loại (classification) hay nhận diện (detection). VMLs được huấn luyện trên một tập dữ liệu khổng lồ các cặp mô tả cùng hình ảnh hoặc video (image/video-caption pairs). Điều này cho phép VLMs được đào tạo bằng ngôn ngữ tự nhiên (natural language) và thực hiện không chỉ các tác vụ thị giác truyền thống mà còn cả các nhiệm vụ tạo sinh như tóm tắt nội dung hay hỏi đáp trực quan (visual QnA).

II. Tại sao Mô hình Ngôn ngữ Thị giác lại quan trọng?

Để hiểu được tầm quan trọng của mô hình ngôn ngữ thị giác (Vision Language Models – VLMs), trước tiên cần xem xét cách các mô hình thị giác máy tính truyền thống (Computer Vision – CV) hoạt động. Các mô hình CV truyền thống dựa trên mạng nơ-ron tích chập (Convolutional Neural Networks – CNNs) thường được huấn luyện một nhiệm vụ cụ thể trên một tập hợp lớp cố định. Ví dụ:

  • Một mô hình phân loại (classification model) có thể xác định xem hình ảnh chứa một con mèo hay một con chó.
  • Một mô hình CV nhận diện và đọc ký tự quang học (OCR) có thể trích xuất văn bản từ hình ảnh nhưng không thể hiểu được bố cục hoặc dữ liệu trực quan trong tài liệu.

Các mô hình CV trước chỉ có thể thực hiện nhiệm vụ mà chúng được huấn luyện, không thể mở rộng sang các tác vụ khác hoặc nhận diện các tập hợp lớp mới mà không cần huấn luyện lại. Nếu có sự thay đổi trong yêu cầu sử dụng hoặc cần bổ sung thêm một lớp mới, nhà phát triển  phải thu thập và gán nhãn một số lượng lớn hình ảnh, sau đó huấn luyện lại mô hình – một quá trình rất tốn kém và mất nhiều thời gian. Ngoài ra, các mô hình CV truyền thống không có khả năng hiểu ngôn ngữ tự nhiên (natural language understanding).

VLMs mở ra một kỷ nguyên mới bằng cách kết hợp sức mạnh của các mô hình nền tảng (foundation models) như CLIP với các mô hình ngôn ngữ lớn (LLMs), giúp chúng có cả khả năng vừa nhìn vừa hiểu ngôn ngữ. Ngay từ đầu, VLMs đã có hiệu suất zero-shot ấn tượng trên nhiều tác vụ thị giác như hỏi đáp trực quan (visual question-answering), phân loại (classification) và nhận dạng ký tự quang học (OCR). Chúng cũng vô cùng linh hoạt, không bị giới hạn trong một tập lớp cố định mà có thể áp dụng vào hầu hết mọi trường hợp chỉ bằng cách thay đổi câu lệnh (text prompt).

Việc sử dụng VLMs tương tự như làm việc với một LLM. Người nhập câu lệnh và có thể đính kèmn với hình ảnh. Hệ thống sẽ xử lý đầu vào để tạo ra phản hồi bằng văn bản. Người dùng có thể đặt câu hỏi, yêu cầu tóm tắt, giải thích nội dung hoặc phân tích hình ảnh theo ngữ cảnh hội thoại.  Ngoài ra, VLMs có thể được tích hợp vào các tác nhân thị giác (visual agents) để thực hiện tự động thực hiện các nhiệm vụ liên quan đến thị giác.

III. Mô hình Ngôn ngữ Thị giác hoạt động như thế nào?

Hầu hết các mô hình ngôn ngữ thị giác (VLMs) tuân theo kiến trúc gồm ba phần chính:

  1. Bộ mã hóa thị giác (Vision Encoder) thường là một mô hình dựa trên CLIP với kiến trúc transformer, được huấn luyện trên hàng triệu cặp hình ảnh-văn bản. Nhờ đó, nó có thể liên kết hình ảnh với ngôn ngữ.
  2. Bộ chiếu (Projector) đóng vai trò chuyển đổi đầu ra của bộ mã hóa thị giác thành dạng mà LLM có thể hiểu, thường là các token hình ảnh (image tokens). Thành phần này có thể đơn giản là một lớp tuyến tính (linear layer) như trong LLaVA và VILA, hoặc phức tạp hơn như các lớp chú ý chéo (cross-attention layers) được sử dụng trong Llama 3.2 Vision.
  3. Mô hình ngôn ngữ lớn (Large Language Model – LLM) – bất kỳ mô hình LLM nào cũng có thể được sử dụng để xây dựng một VLM. Hiện nay có hàng trăm biến thể của VLMs, được tạo ra bằng cách kết hợp nhiều LLM khác nhau với các bộ mã hóa thị giác.
Kiến trúc ba phần phổ biến của mô hình ngôn ngữ thị giác

IV. Mô hình Ngôn ngữ Thị giác được huấn luyện như thế nào?

VLMs được huấn luyện qua nhiều giai đoạn, bao gồm tiền huấn luyện (pretraining), sau đó là tinh chỉnh có giám sát (supervised fine-tuning). Ngoài ra, có thể áp dụng phương pháp tinh chỉnh hiệu quả về tham số (Parameter Efficient Fine-Tuning – PEFT) để tạo ra một VLM chuyên biệt theo từng lĩnh vực dựa trên dữ liệu tùy chỉnh.

1. Tiền huấn luyện (Pretraining)

Mục tiêu của giai đoạn này là động bộ hóa bộ mã hóa thị giác, bộ chiếu (projector) và mô hình ngôn ngữ lớn (LLM) , giúp chúng có thể “nói chung một ngôn ngữ” khi xử lý đầu văn bản và hình ảnh. Quá trình này sử dụng một lượng lớn dữ liệu gồm các cặp văn bản-hình ảnh xếp xen kẽ. Khi ba thành phần này đã được căn chỉnh tốt, VLM sẽ tiếp tục giai đoạn tinh chỉnh có giám sát.

2. Tinh chỉnh có giám sát (Supervised Fine-Tuning)

Ở bước này, VLM được huấn luyện để hiệu cách phản hồi các yêu cầu của người dùng. Dữ liệu đầu vào là tập hợp các câu lệnh mẫu kèm hình ảnh/văn bản và phản hồi mong muốn.. Ví dụ, mô hình có thể được yêu cầu mô tả nội dung trong ảnh hoặc đếm số vật thể trong khung hình. Sau giai đoạn này, VLM sẽ học cách diễn giải hình ảnh chính xác hơn và phản hồi phù hợp với ngữ cảnh.

3. VML hoạt động như thế nào sau khi huấn luyện?

Sau khi được huấn luyện, VLM có thể sử dụng giống như LLM, cho phép người dùng nhập câu lệnh có thể kèm theo hình ảnh. Mô hình sẽ phân tích dữ liệu đầu vào và  tạo ra phản hồi dưới dạng văn bản . Thông thường, VLMs được triển khai dưới dạng API REST của OpenAI để dễ dàng tích hợp vào các ứng dụng.

Hiện nay, các kỹ thuật tiên tiến hơn đang được nghiên cứu nhằm nâng cao khả năng xử lý hình ảnh của VLMs, bao gồm:

  • Kết hợp nhiều bộ mã hóa thị giác để phân tíchhình ảnh tốt hơn.
  • Chia nhỏ hình ảnh có độ phân giải cao thành các phần nhỏ hơn để xử lý hiệu quả hơn.
  • Tăng độ dài ngữ cảnh để giúp VMLs hiểu video dài một cách chính xác.

Những tiến bộ này đang giúp VLMs vượt ra khỏi giới hạn chỉ xử lý hình ảnh đơn lẻ. Giờ đây, chúng có thể so sánh và phân tích nhiều hình ảnh cùng lúc, đọc và hiểu văn bản trong ảnh chính xác hơn, xử lý video dài và có khả năng nhận thức không gian tốt hơn.

V. Mô hình Ngôn ngữ Thị giác được đánh giá như thế nào?

Có nhiều bộ tiêu chuẩn đánh giá phổ biến như MMMU, Video-MME, MathVista, ChartQA, và DocVQA được sử dụng để đánh giá hiệu suất của các mô hình ngôn ngữ thị giác (VLMs) trên nhiều nhiệm vụ khác nhau, bao gồm:

  • Hỏi – đáp trực quan (Visual question-answering)
  • Lập luận và suy luận logic (Logic and reasoning)
  • Hiểu nội dung tài liệu (Document understanding)
  • So sánh nhiều hình ảnh (Multi-image comparisons)
  • Phân tích và hiểu video (Video understanding)
Ví dụ về các câu hỏi trắc nghiệm cho VLMs được sử dụng trong bộ đánh giá MMMU. Nguồn (MMMU)

Cách hoạt động của các tiêu chuẩn đánh giá:

Hầu hết các bộ đánh giá này bao gồm một tập hợp hình ảnh kèm theo nhiều câu hỏi liên quan, thường ở dạng trắc nghiệm. Định dạng trắc nghiệm giúp dễ dàng đánh giá và so sánh hiệu suất của các VLMs một cách nhất quán. Các câu hỏi này được thiết kế để kiểm tra khả năng nhận thức, hiểu biết và suy luận của mô hình.

Cách tính điểm hiệu suất của VLM:

Khi thực hiện bài đánh giá, VMLs sẽ nhận đầu vào gồm hình ảnh, câu hỏi và các phương án trả lời. Nhiệm vụ của mô hình là chọn đáp án đúng. Độ chính xác của VMLs được tính dựa trên tỷ lệ trả lời đúng so với tổng số câu hỏi trắc nghiệm.

Một số bộ tiêu chuẩn cũng bao gồm các câu hỏi yêu cầu mô hình thực hiện tính toán số học và đưa ra kết quả trong phạm vi sai số cho phép để được coi là đúng. Các câu hỏi và hình ảnh trong các bài kiểm tra này thường được lấy từ các nguồn học thuật như sách giáo khoa ở trình độ đại học.

VI. Ứng dụng của Mô hình Ngôn ngữ Thị giác (VLMs)

VLMs đang nhanh chóng trở thành công cụ hàng đầu trong các tác vụ liên quan đến thị giác nhờ vào khả năng linh hoạt và hiểu ngôn ngữ tự nhiên. Chỉ với các câu lệnh bằng văn bản, VMLs có thể thực hiện nhiều nhiệm vụ khác nhau như:

  • Hỏi – đáp trực quan
  • Tóm tắt nội dung hình ảnh và video
  • Nhận diện và phân tích văn bản, tài liệu viết tay

Trước đây, để xử lý các tác vụ này, cần kết hợp nhiều mô hình chuyên biệt khác nhau. Giờ đây, một VLM duy nhất có thể đảm nhiệm tất cả.

Ứng dụng trong giáo dục

VLMs đặc biệt xuất sắc trong việc tóm tắt nội dung hình ảnh. Ví dụ, trong lĩnh vực giáo dục, một VLM có thể nhận diện hình ảnh chứa bài toán viết tay, sau đó sử dụng OCR và suy luận để hiểu bài toán, đồng thời cung cấp hướng dẫn từng bước để giải bài.Không chỉ đọc hiểu nội dung, VMLs còn có thể suy luận và thực hiện các tác vụ cụ thể theo yêu cầu.

Các tác nhân AI phân tích video chuyển đổi dữ liệu hình ảnh và video thành thông tin thực tiễn

Ứng dụng trong phân tích video

Lượng dữ liệu video được tạo ra mỗi ngày rất lớn khiến việc xem xét và trích xuất thông tin trở nên bất khả thi nếu làm thủ công. VLMs có thể tích hợp vào các hệ thống AIphân tích video để nhận diện các sự kiện quan trọng khi được yêu cầu như:

  • Trong kho hàng, VMLs có thể phát hiện robot bị lõi hoặc đưa ra cảnh báo khi kệ hàng trống)
  • Trong giao thông, hệ thống giám sát thông minh có thể nhận diện và cảnh báo các nguy cơ như cây đổ, xe chết máy hoặc tai nạn.

Khả năng phân tích của VMLs không chỉ dừng lại ở nhận diện hình ảnh, mà còn có thể phân tích và tạo báo cáo tự động, giúp cải thiện hiệu suất giám sát và quản lý.  

Ứng dụng trong phân tích video dài

VMLs có thể  kết hợp với cơ sở dữ liệu đồ thị (graph databases) để hiểu nội dung video dài, giúp nhận diện các sự kiện và mối quan hệ phức tạp trong video. Nhờ đó chúng có thể  ứng dụng để:

  • Tối ưu hóa hoạt động trong nhà kho (tìm ra các nút thắt cổ chai, nâng cao hiệu suất vận hành)
  • Phân tích và tạo bình luận thể thao tự động
  • Nhờ những tiến bộ này, VLMs không chỉ hiệu nội dung hình ảnh đơn lẻ mà còn có khả năng phân tích, tổng hợp và tạo ra thông tin có giá trị trong nhiều lĩnh vực.

VII. Thách thức của Mô hình Ngôn ngữ Thị giác (VLMs)

Dù phát triển nhanh chóng, VLMs vẫn gặp phải một số hạn chế, đặc biệt trong khả năng hiểu không gian (spatial understanding) và xử lý video có ngữ cảnh dài (long-context video understanding).

1. Hạn chế về kích thước đầu vào và khả năng nhận diện chi tiết nhỏ

Hầu hết các VLMs hiện nay sử dụng các mô hình dựa trên CLIP làm bộ mã hóa thị giác (vision encoder) vốn bị giới hạn ở kích thước đầu vào 224×224 hoặc 336×336. Điều này khiến mô hình gặp khó khăn trong nhận diện các vật thể nhỏ hoặc chi tiết tinh vi.

Ví dụ, một khung hình HD 1080×1920 từ video, cần được giảm kích thước hoặc cắt xén trước khi đưa vào mô hình làm mất đi nhiều chi tiết quan trọng. Để khắc phục, các phương pháp chi nhỏ hình ảnh (titling) đang được nghiên cứu nhằm tách một hình ảnh lớn thành nhiều phần nhỏ để xử lý tốt hơn. Ngoài ra, cũng có những nghiên cứu về việc sử dụng bộ mã hóa hình ảnh có độ phân giải cao hơn

2. Hạn chế trong việc xác định vị trí chính xác của vật thể

VML gặp khó khăn trong việc cung cấp vị trí chính xác của vật thể trong ảnh. Nguyên nhân chính là bộ dữ liệu huấn luyện của CLIP chủ yếu chứa mô tả ngắn gọn về hình ảnh, như chú thích (caption), mà không cung cấp thông tin chi tiết về vị trí của các vật thể. Điều này làm giảm khả năng hiểu không gian của CLIP và VML “thừa kế” hạn chế này. Hiện nay, một số nghiên cứu đang thử nghiệm việc kết hợp nhiều bộ mã hóa hình ảnh để cải thiện khả năng này.

3. Hạn chế trong hiểu video dài

Xử lý video dài là một thách thức lớn vì VMLs cần xem xét thông tin hình ảnh trong khoảng thời gian dài để đưa ra phân tích chính xác. Tương tự như các LLMs, VMLs bị giới hạn về độ dài ngữ cảnh, đồng nghĩa với việc chỉ một số khung hình nhất định có thể được đưa vào mô hình để trả lời câu hỏi.

Các phương pháp mở rộng ngữ cảnh và huấn luyện VMLs trên dữ liệu video phong phú hơn đang được nghiên cứu, như LongVILA – một mô hình tập trung xử lý video dài.

4. Hạn chế trong các lĩnh vực chuyên biệt

VLMs thể chưa được huấn luyện đủ dữ liệu cho các trường hợp sử dụng rất đặc thù, chẳng hạn như phát hiện lỗi sản xuất trong một dây chuyền sản xuất cụ thể.

  • Có thể khắc phục bằng cách Tinh chỉnh (Fine-tuning)mô hình trên tập dữ liệu chuyên biệt để cải thiện độ chính xác.
  • Sử dụng VMLs kết hợp với học theo ngữ cảnh (In-context learning) để cung cấp các ví dụ giúp mô hình học nhanh mà không cần huấn luyện lại.
  • Ứng dụng phương pháp tinh chỉnh hiệu quả tham số PEFT (Parameter-Efficient Fine-Tuning) để cải thiện độ chính xác của của VMLs trên dữ liệu tùy chỉnh.

Nguồn: Nvidia