Trình Tạo Prompt Từ Ảnh
100% trong trình duyệt, ảnh không tải lên. Đảo ảnh thành prompt có cấu trúc cho Midjourney v7, Flux, SDXL, ComfyUI và DALL-E 3 kèm bảng màu và prompt phủ định.
Giới Thiệu Trình Tạo Prompt Từ Ảnh
Đảo ngược một prompt AI tốt thường mất 10-30 phút thử sai: trích màu chủ đạo bằng tay, ước lượng ánh sáng và tâm trạng, tìm cú pháp tham số Midjourney đúng, viết prompt phủ định gọn rồi dán-lặp. Công cụ này làm phần máy móc dưới một giây: thả ảnh tham chiếu hoặc ảnh AI tạo, trình duyệt trích bảng màu chủ đạo bằng cụm k-means trên lưới rút gọn, đo độ sáng trung bình, nhận dạng tỷ lệ (snap về 1:1, 16:9, 9:16, 4:3, 3:2, 21:9) và ráp prompt có cấu trúc theo đúng phương ngữ engine yêu cầu (Midjourney 6/v7 --ar --v --stylize, thẻ có trọng số SDXL, câu tự nhiên Flux, JSON ComfyUI với sampler/scheduler, hoặc tiếng Anh đời thường DALL-E 3).
Thêm chip phong cách, ánh sáng, tâm trạng và máy ảnh bằng một cú nhấp và prompt viết lại tức thì. Mọi thứ chạy trong trình duyệt — ảnh không tải lên, trích bảng màu tức thì, không cần model captioning AI.
Ảnh của tôi có riêng tư và công cụ chạy ngoại tuyến không?
Cả hai đều có. Toàn bộ pipeline — đọc tệp, trích bảng màu, nhận dạng tỷ lệ, độ sáng, ráp prompt và xuất JSON — chạy 100% trong trình duyệt qua JavaScript chuẩn và Canvas API. Byte ảnh không bao giờ tới máy chủ chúng tôi, không tới CDN, không tới API AI bên thứ ba. Bạn có thể ngắt mạng sau khi tải trang và công cụ vẫn hoạt động. Cho công việc nhiếp ảnh thương mại, bảng tham chiếu NDA hoặc ảnh sản phẩm chưa phát hành, công cụ an toàn. Lưu ý trung thực quan trọng: bảng màu và độ sáng là ước lượng heuristic (cụm màu k-means và độ sáng Rec.709 có trọng số), không phải nhận dạng ngữ nghĩa — công cụ không 'hiểu' chủ thể như model vision, nên hãy tự viết hoặc chọn chip chủ thể để có kết quả tốt nhất.
Tôi có thể xuất prompt, bảng màu và cài đặt thành JSON cho pipeline không?
Có — đó là khối Gói prompt (JSON). Một cú nhấp sao chép hoặc tải về một gói có cấu trúc gồm prompt dương, prompt phủ định, kích thước gốc, tỷ lệ nhận được và đã snap, độ sáng toàn ảnh có trọng số theo tần suất, bảng màu chủ đạo đầy đủ (hex + tên màu gần nhất + % tần suất), mọi chip phong cách/ánh sáng/tâm trạng/máy ảnh đã chọn, engine đích và giá trị mặc định sampler/scheduler/bước/CFG của ComfyUI. Vì là JSON phân tích được, bạn có thể quản lý phiên bản, so sánh hai lần chạy, đưa vào node ComfyUI hoặc script tự động và tái tạo prompt y hệt sau này — khả năng tái lập mà luồng sao chép ô văn bản đánh mất. Xuất engine ComfyUI nay cũng nhúng cả prompt phủ định, nên vào trọn hai node CLIP-Text-Encode mà không cần ghép tay.
Vì sao dùng heuristic thay vì captioning CLIP/BLIP?
Captioning ảnh-thành-văn bản thực sự cần model neural 200-700 MB (BLIP-2, BLIP-3, LLaVA, MoonDream) tải qua transformers.js, cộng thiết bị có WebGPU, cộng 10-40 giây tải lần đầu và 2-5 giây mỗi ảnh. Khả thi kỹ thuật và có thể ship sau dưới dạng nâng cấp Web Worker tuỳ chọn, nhưng thực tế 80% chất lượng prompt đến từ tỷ lệ chính xác + bảng màu + thẻ phong cách/ánh sáng/tâm trạng/máy ảnh, tất cả trích trong dưới 100ms không tải model. Bảng chip cho phép bạn thêm từ thông tin cao mà model vision sẽ đoán, và bạn thường hiểu chủ thể của mình hơn CLIP.
Màu chủ đạo được trích thế nào?
Cụm k-means chuẩn với k=5. Chúng tôi rút ảnh xuống lưới rộng 64 pixel (64×36 đến 64×85 theo tỷ lệ), bỏ pixel hoàn toàn trong suốt, rồi cụm lặp các bộ ba RGB còn lại thành 5 nhóm trong 8 vòng. Trọng tâm mỗi cụm là màu chủ đạo và kích thước cụm là tần suất. Mỗi trọng tâm snap về màu đặt tên gần nhất (đỏ, cam, vàng, xanh lá, xanh ngọc, xanh dương, tím, hồng, nâu, đen, trắng, xám, be) cho prompt và hiển thị giá trị hex thô ở hàng mẫu. Toàn bộ pass là một tick rAF trên điện thoại hiện đại.
Vì sao định dạng prompt khác nhau theo engine?
Mỗi hệ thống text-to-image có cú pháp riêng ảnh hưởng chất lượng. Midjourney v6/v7 dùng cờ tham số (--ar 16:9 --v 6 --style raw --stylize 250) và coi dấu phẩy là dấu phân cách mềm. SDXL và SD 1.5 phản hồi ngoặc có trọng số (kiệt tác:1.2) và thích thẻ ngăn bằng dấu phẩy. Flux Dev/Pro được huấn luyện với caption ngôn ngữ tự nhiên và thích câu hoàn chỉnh với dấu chấm, không phải thẻ. ComfyUI là graph node — chúng tôi xuất đoạn JSON cho node CLIP-Text-Encode với sampler mặc định (dpmpp_2m), scheduler (karras), bước (28) và CFG (4.5). DALL-E 3 thích tiếng Anh hội thoại đơn giản. Chọn engine trước khi dựng và bạn bỏ qua bước dịch cú pháp.

Đo độ sáng cho biết điều gì?
Độ sáng trung bình có trọng số theo tần suất dùng công thức Rec.709 (0,2126·R + 0,7152·G + 0,0722·B) lấy trung bình trên tất cả cụm màu chủ đạo theo số pixel — nên phản ánh độ sáng toàn ảnh, không chỉ màu chủ đạo nhất (nền tối sau một chủ thể sáng không còn bị dán nhãn sai). Dưới 60 dán nhãn 'low-key / tối' (Caravaggio, phim noir, kinh dị). 60-110 'tâm trạng'. 110-160 'cân bằng' (ánh ngày thường). 160-200 'sáng' (chụp sản phẩm sạch, biển). Trên 200 'high-key / quá sáng' (editorial thời trang, đám cưới). Nếu bạn chưa chọn chip ánh sáng, công cụ tự thêm một cụm từ ánh sáng thực ánh xạ từ mức này (ví dụ 'low-key dramatic lighting', 'soft natural daylight', 'bright high-key lighting') — một gợi ý dùng được, không phải nhãn trơ — bạn có thể ghi đè bằng chip cụ thể như 'giờ vàng' để dẫn dắt mạnh hơn.
Vì sao tỷ lệ khung hình quan trọng đến vậy trong prompt?
Model diffusion ghi tỷ lệ vào huấn luyện: prompt 9:16 cho bố cục chân dung điện thoại (một chủ thể, đầu cận, nền rơi), 16:9 cho phong cảnh điện ảnh (chủ thể rộng, chi tiết môi trường, chân trời xa), 1:1 cho ảnh sản phẩm căn giữa, 21:9 cinemascope cực rộng. Gửi prompt 1:1 đến sampler 9:16 mặc định 512×512 có thể tạo khuôn mặt kéo dài hoặc chủ thể bị cắt. Công cụ tự nhận dạng tỷ lệ ảnh tham chiếu và snap về tỷ lệ chuẩn gần nhất; ghi đè nếu muốn tái bố cục.
Có dùng cho luồng upscale hoặc img2img không?
Gián tiếp. Prompt tạo ra là đầu vào văn bản cho img2img: lấy prompt này, gửi cùng ảnh đến Midjourney với --iw (trọng số ảnh) hoặc đến SDXL/Flux với cùng ảnh làm init_image ở cường độ denoise 0,4-0,7. Trích bảng màu đặc biệt hữu ích cho upscale — dán bảng vào prompt khi upscale theo tile ngăn upscaler trôi sang tông ấm chung. Cho luồng img2img ComfyUI, đoạn JSON đi thẳng vào node CLIP-Text-Encode nối với stack VAEEncodeForInpaint.
Có hỗ trợ metadata EXIF máy ảnh và ống kính không?
Chưa có trong bản này — phân tích EXIF là mục tiêu mở rộng. Khi thêm, công cụ sẽ trích tiêu cự (tự gợi chip '85mm chân dung' hoặc '24mm góc rộng'), khẩu độ (gợi 'độ sâu trường ảnh nông' cho f/1.4-f/2.8 hoặc 'lấy nét sâu' cho f/8+), ISO (gợi 'hạt phim' cho ISO 1600+), và hãng/model máy (vài prompt phản hồi 'shot on Hasselblad' hoặc 'Leica Q3' như booster). Tạm thời bạn có thể đọc EXIF trong app máy ảnh hoặc bất kỳ viewer EXIF trên site này rồi nhấp tay chip phù hợp.
Ảnh của tôi có được tải lên đâu không?
Không. Toàn bộ pipeline — đọc tệp, trích bảng màu, nhận dạng tỷ lệ, tính độ sáng, ráp prompt — chạy trong trình duyệt qua JavaScript chuẩn và Canvas API. Byte ảnh không bao giờ tới máy chủ chúng tôi, không tới CDN, không tới API AI bên thứ ba. Có thể ngắt mạng sau khi tải trang và công cụ vẫn hoạt động. Cho công việc nhiếp ảnh thương mại, bảng tham chiếu NDA, hoặc ảnh sản phẩm chưa phát hành, công cụ này an toàn. Cuộc gọi mạng duy nhất sau khi tải là analytics chuẩn (tôn trọng do-not-track).
