Bộ thông số VEO 3.1, Sora 2 được thiết kế nhằm giúp AI hoặc đội ngũ sản xuất tạo ra chuỗi video ngắn chuyên nghiệp, đồng nhất về nhân vật, giọng nói, âm thanh và phong cách hình ảnh.
Khi tuân thủ bộ công thức này, mỗi video sẽ mang một “DNA thương hiệu” thống nhất — từ cách chọn góc quay, nhịp thoại cho đến âm nhạc nền.
🔹 CÔNG THỨC CHUẨN TẠO VIDEO VEO 3.1, Sora 2
Mỗi video được cấu trúc theo 7 nhóm thông số cốt lõi, giúp kiểm soát toàn bộ yếu tố sản xuất:
1. NHÂN VẬT (Character)
Công thức:
- Thông số:
charID_[Tên nhân vật] - Mô tả: Nêu rõ giới tính, độ tuổi, nghề nghiệp, cảm xúc, phong cách ăn mặc, vùng miền.
- Tính ứng dụng: Giúp AI định hình rõ đối tượng và cảm xúc trung tâm của video.
Ví dụ:
charID_chiMai
- Nữ doanh nhân Việt Nam, 35–45 tuổi, chủ chuỗi bán lẻ.
- Khuôn mặt thể hiện mệt mỏi, lo toan; trang phục gọn gàng, hợp thời.
- Giọng nói miền Nam (Sài Gòn), gần gũi và dễ hiểu.
🧩 Tác dụng: Tạo nhân vật chân thực, gắn kết với khán giả mục tiêu.
2. BỐI CẢNH & HÀNH ĐỘNG (Setting & Action)
Công thức:
- Thông số:
settingID_[Tên nhân vật]_[bối cảnh] - Mô tả: Nêu rõ địa điểm, hành động chính, diễn biến cảm xúc.
- Tính ứng dụng: Thiết lập mạch truyện “trước – sau”, thể hiện sự thay đổi hoặc giải pháp.
Ví dụ:
settingID_chiMai_homeOffice_01
- Cảnh tại văn phòng tại nhà.
- Chị Mai nhìn chiếc micro ghi âm với vẻ ngán ngẩm, sau đó chuyển sang điện thoại và mỉm cười.
🧩 Tác dụng: Tạo hiệu ứng “vấn đề – giải pháp” rõ ràng, dễ hiểu.
3. GÓC QUAY & KỸ THUẬT QUAY (Camera Techniques)
Công thức:
- Thông số:
Camera - Mô tả: Ghi rõ loại shot (Medium, Close-up…), chuyển cảnh (Quick cut, Pan, Zoom…).
- Tính ứng dụng: Dẫn dắt sự chú ý có chủ đích.
Ví dụ:
- Bắt đầu bằng Medium shot tập trung vào phản ứng của chị Mai.
- Sau đó Quick cut sang Close-up màn hình điện thoại.
🧩 Tác dụng: Cung cấp bối cảnh và nhấn mạnh sản phẩm trong cùng một mạch quay.
4. THOẠI & GIỌNG NÓI (Voice & Script Delivery)
Công thức:
- Thông số:
Voice (Script & Delivery) - Mô tả: Viết lời thoại tự nhiên, thể hiện “pain point” và giải pháp.
- Tính ứng dụng: Giúp khán giả dễ đồng cảm và tin tưởng.
Ví dụ:
Lời thoại:
“Nhiều khi muốn nói giọng mình cho nó thiệt tình, mà không có thời gian… Trời ơi, nó có tính năng ‘Nhân Bản Giọng Nói’ hay lắm luôn!”
🧩 Giọng nói: Giọng miền Nam (Sài Gòn).
🧩 Tác dụng: Ngôn ngữ địa phương giúp tăng độ chân thực, gần gũi.
5. ÂM THANH NỀN (Background Audio)
Công thức:
- Thông số:
Background audio - Mô tả: Mô tả loại nhạc, hiệu ứng âm thanh chuyển cảnh, cảm xúc.
- Tính ứng dụng: Khuếch đại cảm xúc, tạo “feel” cho video.
Ví dụ:
- Mở đầu: âm thanh “ngán ngẩm” nhẹ.
- Khi nhân vật xuất hiện: âm thanh “ding!”
- Sau đó: nhạc nền nhẹ nhàng, hiện đại, tươi sáng.
🧩 Tác dụng: Nhấn mạnh sự thay đổi từ tiêu cực → tích cực.
6. MÔ TẢ PHỦ ĐỊNH (Negative Prompt)
Công thức:
- Thông số:
negativePrompt - Mô tả: Ghi rõ điều cần tránh (ví dụ: ánh sáng gắt, màu sai, tone cảm xúc lệch…).
- Tính ứng dụng: Kiểm soát chất lượng và sự đồng bộ trong sản xuất.
Ví dụ:
- Tránh giọng miền Bắc hoặc miền Trung.
- Không dùng hiệu ứng âm thanh “ồn ào” hoặc nhạc nền bi thương.
🧩 Tác dụng: “Dạy” AI tránh lỗi thường gặp để sản phẩm luôn đạt chuẩn.
7. THÔNG SỐ KỸ THUẬT (Technical Specs)
Công thức:
- Thông số:
durationSeconds, Quality, Voice, Don't show captions - Mô tả: Xác định độ dài, độ phân giải, ngôn ngữ, hiển thị đồ họa.
- Tính ứng dụng: Đảm bảo tính nhất quán và tối ưu nền tảng đăng tải.
Ví dụ:
- Thời lượng: 8 giây
- Chất lượng: 4K
- Giọng nói: Tiếng Việt (giọng Sài Gòn)
- Không hiển thị captions hay text overlay.
🧩 Tác dụng: Giúp video ngắn gọn, sắc nét và tập trung vào hình ảnh nhân vật.
🔹 TỔNG KẾT
| Thành phần | Vai trò chính | Tác dụng |
|---|---|---|
| Nhân vật | Định hình cảm xúc & đối tượng | Gần gũi, tin cậy |
| Bối cảnh & hành động | Xây dựng câu chuyện “trước – sau” | Dễ hiểu, sinh động |
| Kỹ thuật quay | Dẫn dắt ánh nhìn | Tập trung vào sản phẩm |
| Thoại & giọng nói | Truyền tải thông điệp | Tự nhiên, chân thực |
| Âm thanh nền | Khuếch đại cảm xúc | Truyền năng lượng tích cực |
| Mô tả phủ định | Kiểm soát lỗi | Đảm bảo tính chuyên nghiệp |
| Thông số kỹ thuật | Chuẩn hóa đầu ra | Video ngắn gọn, chất lượng cao |
🌟 KẾT LUẬN
Khi tuân thủ công thức VEO 3.1, bạn có thể:
- Tạo chuỗi video đồng nhất về hình ảnh và thông điệp.
- Duy trì chất lượng chuyên nghiệp trong mọi phiên bản.
- Giúp AI hiểu rõ ý đồ sáng tạo và tránh sai lệch trong quá trình sinh video.
Video mẫu
Công cụ tạo video: https://labs.google/fx/tools/flow
Prompt theo công thức:
Nhân vật là chị Mai, một nữ doanh nhân Việt Nam 35–45 tuổi, chủ chuỗi bán lẻ. Chị năng động, hoạt bát nhưng khuôn mặt thể hiện sự mệt mỏi, lo toan của người quản lý đa nhiệm. Trang phục gọn gàng, hợp thời. Giọng nói miền Nam (Sài Gòn), thực tế và dễ hiểu.
Bối cảnh là văn phòng tại nhà của chị Mai.Hành động bắt đầu khi chị nhìn chiếc micro ghi âm với vẻ ngán ngẩm. Sau đó, chị chuyển sự chú ý sang điện thoại, biểu cảm từ tò mò chuyển sang vui mừng khi mở điện thoại.
Bắt đầu bằng cảnh trung (Medium shot) tập trung vào phản ứng của chị Mai với micro. Sau đó, cắt cảnh nhanh (Quick cut) sang cận cảnh (Close-up) màn hình điện thoại.
Lời thoại: “Nhiều khi muốn nói giọng mình cho nó thiệt tình, mà không có thời gian… Trời ơi, nó có cái tính năng ‘Nhân Bản Giọng Nói’ hay lắm luôn!”
Bắt đầu với hiệu ứng âm thanh tinh tế thể hiện sự “ngán ngẩm”. Khi nhân vật xuất hiện, có âm thanh “aha!” hoặc “ding” nhẹ. Sau đó, nhạc nền lạc quan, nhẹ nhàng và hiện đại vang lên.
Bắt đầu với hiệu ứng âm thanh tinh tế thể hiện sự “ngán ngẩm”, rồi chuyển sang âm thanh “aha!” hoặc “ding” nhẹ, nhạc nền lạc quan và hiện đại.
Thời lượng: 8 giây Chất lượng: 4K Giọng nói: Tiếng Việt (giọng Sài Gòn) Đồ họa: Không hiển thị captions hay text overlays