(L)VLMS 란?, 그러나 또한 세상을 인간으로 "찾고"?

나. 시각적 언어 모델은 무엇입니까??

시각적 언어 모델 (비전 언어 모델 - VLM) 멀티 모달 AI 시스템입니다 (멀티 모달 AI 시스템) 큰 언어 모델을 결합하여 구축되었습니다 (큰 언어 모델 - LLM) 이미지 코딩 키트로 (비전 인코더), LLM이 "볼 수있는"능력을 갖도록 도와줍니다.

이 능력으로, VLM은 다양한 비디오 형식의 다양한 콘텐츠를 처리하고 이해할 수 있습니다., 자연스럽게 피드백을 만들 수있는 사진과 텍스트.

시각적 언어 모델의 응용 프로그램

전통적인 컴퓨터 비주얼 모델과 달리, VLM은 고정 클래스 또는 분류 된 특정 작업으로 제한되지 않습니다. (분류) 또는 식별하십시오 (발각). VMLS는 동일한 이미지 또는 비디오를 설명하는 거대한 데이터 쌍에 대해 교육을 받았습니다. (이미지/비디오 캡션 쌍). 이를 통해 VLM은 자연어로 훈련 될 수 있습니다 (자연어) 전통적인 시각적 작업뿐만 아니라 내용 또는 시각적 질문 및 답변 요약과 같은 창조 작업도 수행합니다. (시각적 QNA).

II. 시각적 언어 모델이 중요한 이유는 무엇입니까??

시각적 언어 모델의 중요성을 이해합니다 (비전 언어 모델 - VLM), 먼저 전통적인 컴퓨터 시각적 모델을 고려해야합니다 (컴퓨터 비전 - CV) 일하다. 신경망을 기반으로하는 전통적인 CV 모델 (Convolutional Neural Networks - CNNS) 종종 고정 클래스 세트에서 특정 작업을 교육했습니다.. 예를 들어:

  • 분류 모델 (분류 모델) 이미지에 고양이 또는 개가 포함되어 있는지 확인할 수 있습니다..
  • CV 모델은 광학 문자를 식별하고 읽습니다 (OCR) 텍스트는 이미지에서 추출 될 수 있지만 문서에서 시각적으로 레이아웃이나 데이터를 이해할 수 없습니다..

이전 CV 모델은 훈련 된 작업 만 수행 할 수 있습니다., 다른 작업으로 확장하거나 교육없이 새로운 수업 세트를 식별 할 수 없습니다.. 사용 요구 사항에 변경이 있거나 새 클래스를 추가 해야하는 경우, nhà phát triển phải thu thập và gán nhãn một số lượng lớn hình ảnh, 그런 다음 모델을 다시 트레인 -매우 비싸고 시간 -소비 프로세스. 게다가, 전통적인 CV 모델은 자연어를 이해할 수 없습니다. (자연어 이해).

VLMS는 플랫폼 모델의 힘을 결합하여 새로운 시대를 열어줍니다. (기초 모델) 큰 언어 모델이있는 클립처럼 (LLMS), 그들이 언어를보고 이해할 수있는 능력을 갖도록 도와줍니다.. 처음부터, VLM은 시각적 질문 및 답변과 같은 많은 시각적 작업에 대해 인상적인 제로 샷 성능을 가지고 있습니다. (시각적 질문 응답), 나누다 (분류) 광학 문자를 식별합니다 (OCR). 그들은 또한 매우 유연합니다, 고정 클래스에 국한되지 않지만 명령을 변경하여 거의 모든 경우에 적용 할 수 있습니다. (텍스트 프롬프트).

VLM의 사용은 LLM 작업과 유사합니다.. 명령을 입력하고 이미지에 첨부 될 수있는 사람. 시스템은 입력을 처리하여 서면 피드백을 작성합니다. 사용자는 질문을 할 수 있습니다, 요약 요구 사항, 대화 컨텍스트에서 내용을 설명하거나 이미지를 분석하십시오. 게다가, VLM은 시각적 에이전트에 통합 될 수 있습니다 (시각적 에이전트) 시각적 관련 작업을 자동으로 수행합니다.

III. 시각적 언어 모델은 어떻게 작동합니까??

대부분의 시각적 언어 모델 (VLMS VLMS VLMS) 다음 아키텍처 다음은 세 가지 주요 부분으로 구성됩니다:

  1. 시각적 암호화 키트 (비전 인코더) 일반적으로 변압기 아키텍처가있는 클립 기반 모델, 수백만 개의 이미지 코피에 대해 교육을 받았습니다. 그 덕분에, 이미지를 언어에 연결할 수 있습니다.
  2. 매트 (영사기) Visual Encoder의 출력을 LLM이 이해할 수있는 형태로 변환하는 역할 재생, 일반적으로 이미지 토큰 (이미지 토큰). 이 성분은 단순히 선형 층일 수 있습니다 (선형 레이어) Llava와 Vila에서와 같이, 또는 대각선의 층으로 더 복잡합니다 (교차 중심 계층) 라마에 사용됩니다 3.2 Vision.
  3. 큰 언어 모델 (큰 언어 모델 - LLM) - 모든 LLM 모델을 사용하여 VLM을 구축 할 수 있습니다.. 현재 VLM에는 수백 가지 변형이 있습니다, 다양한 LLM을 Visual Encoder와 결합하여 생성됩니다.
시각적 언어 모델의 일반적인 세 부분 아키텍처

IV. 시각적 언어 모델은 어떻게 훈련됩니까??

VLM은 여러 단계를 통해 훈련됩니다, 훈련을 포함하여 (사전 조정), 그 후, 그것은 감시입니다 (감독 된 미세 조정). 게다가, 효과적인 매개 변수를 적용 할 수 있습니다 (매개 변수 효율적인 미세 조정-PEFT) để tạo ra một VLM chuyên biệt theo từng lĩnh vực dựa trên dữ liệu tùy chỉnh.

1. Tiền huấn luyện (Pretraining)

Mục tiêu của giai đoạn này là động bộ hóa bộ mã hóa thị giác, bộ chiếu (projector) và mô hình ngôn ngữ lớn (LLM) , giúp chúng có thể “nói chung một ngôn ngữ” khi xử lý đầu văn bản và hình ảnh. Quá trình này sử dụng một lượng lớn dữ liệu gồm các cặp văn bản-hình ảnh xếp xen kẽ. Khi ba thành phần này đã được căn chỉnh tốt, VLM sẽ tiếp tục giai đoạn tinh chỉnh có giám sát.

2. Tinh chỉnh có giám sát (Supervised Fine-Tuning)

Ở bước này, VLM được huấn luyện để hiệu cách phản hồi các yêu cầu của người dùng. Dữ liệu đầu vào là tập hợp các câu lệnh mẫu kèm hình ảnh/văn bản và phản hồi mong muốn.. 예를 들어, mô hình có thể được yêu cầu mô tả nội dung trong ảnh hoặc đếm số vật thể trong khung hình. Sau giai đoạn này, VLM sẽ học cách diễn giải hình ảnh chính xác hơn và phản hồi phù hợp với ngữ cảnh.

3. VML hoạt động như thế nào sau khi huấn luyện?

Sau khi được huấn luyện, VLM có thể sử dụng giống như LLM, cho phép người dùng nhập câu lệnh có thể kèm theo hình ảnh. Mô hình sẽ phân tích dữ liệu đầu vào và tạo ra phản hồi dưới dạng văn bản . Thông thường, VLMs được triển khai dưới dạng API REST của OpenAI để dễ dàng tích hợp vào các ứng dụng.

현재, các kỹ thuật tiên tiến hơn đang được nghiên cứu nhằm nâng cao khả năng xử lý hình ảnh của VLMs, 포함하다:

  • Kết hợp nhiều bộ mã hóa thị giác để phân tíchhình ảnh tốt hơn.
  • Chia nhỏ hình ảnh có độ phân giải cao thành các phần nhỏ hơn để xử lý hiệu quả hơn.
  • Tăng độ dài ngữ cảnh để giúp VMLs hiểu video dài một cách chính xác.

Những tiến bộ này đang giúp VLMs vượt ra khỏi giới hạn chỉ xử lý hình ảnh đơn lẻ. 지금, chúng có thể so sánh và phân tích nhiều hình ảnh cùng lúc, đọc và hiểu văn bản trong ảnh chính xác hơn, xử lý video dài và có khả năng nhận thức không gian tốt hơn.

V. Mô hình Ngôn ngữ Thị giác được đánh giá như thế nào?

Có nhiều bộ tiêu chuẩn đánh giá phổ biến như MMMU, Video-MME, MathVista, ChartQA, và DocVQA được sử dụng để đánh giá hiệu suất của các mô hình ngôn ngữ thị giác (VLMS VLMS VLMS) trên nhiều nhiệm vụ khác nhau, 포함하다:

  • Hỏi – đáp trực quan (Visual question-answering)
  • Lập luận và suy luận logic (Logic and reasoning)
  • Hiểu nội dung tài liệu (Document understanding)
  • So sánh nhiều hình ảnh (Multi-image comparisons)
  • Phân tích và hiểu video (Video understanding)
Ví dụ về các câu hỏi trắc nghiệm cho VLMs được sử dụng trong bộ đánh giá MMMU. Nguồn (MMMU)

Cách hoạt động của các tiêu chuẩn đánh giá:

Hầu hết các bộ đánh giá này bao gồm một tập hợp hình ảnh kèm theo nhiều câu hỏi liên quan, thường ở dạng trắc nghiệm. Định dạng trắc nghiệm giúp dễ dàng đánh giá và so sánh hiệu suất của các VLMs một cách nhất quán. Các câu hỏi này được thiết kế để kiểm tra khả năng nhận thức, hiểu biết và suy luận của mô hình.

Cách tính điểm hiệu suất của VLM:

Khi thực hiện bài đánh giá, VMLs sẽ nhận đầu vào gồm hình ảnh, câu hỏi và các phương án trả lời. Nhiệm vụ của mô hình là chọn đáp án đúng. Độ chính xác của VMLs được tính dựa trên tỷ lệ trả lời đúng so với tổng số câu hỏi trắc nghiệm.

Một số bộ tiêu chuẩn cũng bao gồm các câu hỏi yêu cầu mô hình thực hiện tính toán số học và đưa ra kết quả trong phạm vi sai số cho phép để được coi là đúng. Các câu hỏi và hình ảnh trong các bài kiểm tra này thường được lấy từ các nguồn học thuật như sách giáo khoa ở trình độ đại học.

VI. Ứng dụng của Mô hình Ngôn ngữ Thị giác (VLMS VLMS VLMS)

VLMs đang nhanh chóng trở thành công cụ hàng đầu trong các tác vụ liên quan đến thị giác nhờ vào khả năng linh hoạt và hiểu ngôn ngữ tự nhiên. Chỉ với các câu lệnh bằng văn bản, VMLs có thể thực hiện nhiều nhiệm vụ khác nhau như:

  • Hỏi – đáp trực quan
  • Tóm tắt nội dung hình ảnh và video
  • Nhận diện và phân tích văn bản, tài liệu viết tay

Trước đây, để xử lý các tác vụ này, cần kết hợp nhiều mô hình chuyên biệt khác nhau. 지금, một VLM duy nhất có thể đảm nhiệm tất cả.

Ứng dụng trong giáo dục

VLMs đặc biệt xuất sắc trong việc tóm tắt nội dung hình ảnh. 예를 들어, trong lĩnh vực giáo dục, một VLM có thể nhận diện hình ảnh chứa bài toán viết tay, sau đó sử dụng OCR và suy luận để hiểu bài toán, đồng thời cung cấp hướng dẫn từng bước để giải bài.Không chỉ đọc hiểu nội dung, VMLs còn có thể suy luận và thực hiện các tác vụ cụ thể theo yêu cầu.

Các tác nhân AI phân tích video chuyển đổi dữ liệu hình ảnh và video thành thông tin thực tiễn

Ứng dụng trong phân tích video

Lượng dữ liệu video được tạo ra mỗi ngày rất lớn khiến việc xem xét và trích xuất thông tin trở nên bất khả thi nếu làm thủ công. VLMs có thể tích hợp vào các hệ thống AIphân tích video để nhận diện các sự kiện quan trọng khi được yêu cầu như:

  • Trong kho hàng, VMLs có thể phát hiện robot bị lõi hoặc đưa ra cảnh báo khi kệ hàng trống)
  • Trong giao thông, hệ thống giám sát thông minh có thể nhận diện và cảnh báo các nguy cơ như cây đổ, xe chết máy hoặc tai nạn.

Khả năng phân tích của VMLs không chỉ dừng lại ở nhận diện hình ảnh, mà còn có thể phân tích và tạo báo cáo tự động, giúp cải thiện hiệu suất giám sát và quản lý.

Ứng dụng trong phân tích video dài

VMLs có thể kết hợp với cơ sở dữ liệu đồ thị (graph databases) để hiểu nội dung video dài, giúp nhận diện các sự kiện và mối quan hệ phức tạp trong video. Nhờ đó chúng có thể ứng dụng để:

  • Tối ưu hóa hoạt động trong nhà kho (tìm ra các nút thắt cổ chai, nâng cao hiệu suất vận hành)
  • Phân tích và tạo bình luận thể thao tự động
  • Nhờ những tiến bộ này, VLMs không chỉ hiệu nội dung hình ảnh đơn lẻ mà còn có khả năng phân tích, tổng hợp và tạo ra thông tin có giá trị trong nhiều lĩnh vực.

VII. Thách thức của Mô hình Ngôn ngữ Thị giác (VLMS VLMS VLMS)

Dù phát triển nhanh chóng, VLMs vẫn gặp phải một số hạn chế, đặc biệt trong khả năng hiểu không gian (spatial understanding) 그리고 xử lý video có ngữ cảnh dài (long-context video understanding).

1. Hạn chế về kích thước đầu vào và khả năng nhận diện chi tiết nhỏ

Hầu hết các VLMs hiện nay sử dụng các mô hình dựa trên CLIP làm bộ mã hóa thị giác (비전 인코더) vốn bị giới hạn ở kích thước đầu vào 224×224 hoặc 336×336. Điều này khiến mô hình gặp khó khăn trong nhận diện các vật thể nhỏ hoặc chi tiết tinh vi.

예를 들어, một khung hình HD 1080×1920 từ video, cần được giảm kích thước hoặc cắt xén trước khi đưa vào mô hình làm mất đi nhiều chi tiết quan trọng. Để khắc phục, các phương pháp chi nhỏ hình ảnh (titling) đang được nghiên cứu nhằm tách một hình ảnh lớn thành nhiều phần nhỏ để xử lý tốt hơn. 게다가, cũng có những nghiên cứu về việc sử dụng bộ mã hóa hình ảnh có độ phân giải cao hơn

2. Hạn chế trong việc xác định vị trí chính xác của vật thể

VML gặp khó khăn trong việc cung cấp vị trí chính xác của vật thể trong ảnh. Nguyên nhân chính là bộ dữ liệu huấn luyện của CLIP chủ yếu chứa mô tả ngắn gọn về hình ảnh, như chú thích (caption), mà không cung cấp thông tin chi tiết về vị trí của các vật thể. Điều này làm giảm khả năng hiểu không gian của CLIP và VML “thừa kế” hạn chế này. 현재, một số nghiên cứu đang thử nghiệm việc kết hợp nhiều bộ mã hóa hình ảnh để cải thiện khả năng này.

3. Hạn chế trong hiểu video dài

Xử lý video dài là một thách thức lớn vì VMLs cần xem xét thông tin hình ảnh trong khoảng thời gian dài để đưa ra phân tích chính xác. Tương tự như các LLMs, VMLs bị giới hạn về độ dài ngữ cảnh, đồng nghĩa với việc chỉ một số khung hình nhất định có thể được đưa vào mô hình để trả lời câu hỏi.

Các phương pháp mở rộng ngữ cảnh và huấn luyện VMLs trên dữ liệu video phong phú hơn đang được nghiên cứu, như LongVILA – một mô hình tập trung xử lý video dài.

4. Hạn chế trong các lĩnh vực chuyên biệt

VLMs thể chưa được huấn luyện đủ dữ liệu cho các trường hợp sử dụng rất đặc thù, chẳng hạn như phát hiện lỗi sản xuất trong một dây chuyền sản xuất cụ thể.

  • Có thể khắc phục bằng cách Tinh chỉnh (Fine-tuning)mô hình trên tập dữ liệu chuyên biệt để cải thiện độ chính xác.
  • Sử dụng VMLs kết hợp với học theo ngữ cảnh (In-context learning) để cung cấp các ví dụ giúp mô hình học nhanh mà không cần huấn luyện lại.
  • Ứng dụng phương pháp tinh chỉnh hiệu quả tham số PEFT (Parameter-Efficient Fine-Tuning) để cải thiện độ chính xác của của VMLs trên dữ liệu tùy chỉnh.

Nguồn: nvidia

💬