Trình Tạo Prompt Từ Ảnh

Thả ảnh để tạo prompt có cấu trúc cho Midjourney v6, Flux, SDXL, ComfyUI và DALL-E 3. Trích xuất màu, tỷ lệ, độ sáng; chọn phong cách bằng chip.

upload
Nhấp hoặc kéo ảnh vào đây
JPG, PNG, WebP, GIF
Kích thước
Tỷ lệ nhận được
Độ sáng

Giới Thiệu Trình Tạo Prompt Từ Ảnh

Đảo ngược một prompt AI tốt thường mất 10-30 phút thử sai: trích màu chủ đạo bằng tay, ước lượng ánh sáng và tâm trạng, tìm cú pháp tham số Midjourney đúng, viết prompt phủ định gọn rồi dán-lặp. Công cụ này làm phần máy móc dưới một giây: thả ảnh tham chiếu hoặc ảnh AI tạo, trình duyệt trích bảng màu chủ đạo bằng cụm k-means trên lưới rút gọn, đo độ sáng trung bình, nhận dạng tỷ lệ (snap về 1:1, 16:9, 9:16, 4:3, 3:2, 21:9) và ráp prompt có cấu trúc theo đúng phương ngữ engine yêu cầu (Midjourney 6/v7 --ar --v --stylize, thẻ có trọng số SDXL, câu tự nhiên Flux, JSON ComfyUI với sampler/scheduler, hoặc tiếng Anh đời thường DALL-E 3).

Thêm chip phong cách, ánh sáng, tâm trạng và máy ảnh bằng một cú nhấp và prompt viết lại tức thì. Mọi thứ chạy trong trình duyệt — ảnh không tải lên, trích bảng màu tức thì, không cần model captioning AI.

Vì sao dùng heuristic thay vì captioning CLIP/BLIP?

Captioning ảnh-thành-văn bản thực sự cần model neural 200-700 MB (BLIP-2, BLIP-3, LLaVA, MoonDream) tải qua transformers.js, cộng thiết bị có WebGPU, cộng 10-40 giây tải lần đầu và 2-5 giây mỗi ảnh. Khả thi kỹ thuật và có thể ship sau dưới dạng nâng cấp Web Worker tuỳ chọn, nhưng thực tế 80% chất lượng prompt đến từ tỷ lệ chính xác + bảng màu + thẻ phong cách/ánh sáng/tâm trạng/máy ảnh, tất cả trích trong dưới 100ms không tải model. Bảng chip cho phép bạn thêm từ thông tin cao mà model vision sẽ đoán, và bạn thường hiểu chủ thể của mình hơn CLIP.

Màu chủ đạo được trích thế nào?

Cụm k-means chuẩn với k=5. Chúng tôi rút ảnh xuống lưới rộng 64 pixel (64×36 đến 64×85 theo tỷ lệ), bỏ pixel hoàn toàn trong suốt, rồi cụm lặp các bộ ba RGB còn lại thành 5 nhóm trong 8 vòng. Trọng tâm mỗi cụm là màu chủ đạo và kích thước cụm là tần suất. Mỗi trọng tâm snap về màu đặt tên gần nhất (đỏ, cam, vàng, xanh lá, xanh ngọc, xanh dương, tím, hồng, nâu, đen, trắng, xám, be) cho prompt và hiển thị giá trị hex thô ở hàng mẫu. Toàn bộ pass là một tick rAF trên điện thoại hiện đại.

Vì sao định dạng prompt khác nhau theo engine?

Mỗi hệ thống text-to-image có cú pháp riêng ảnh hưởng chất lượng. Midjourney v6/v7 dùng cờ tham số (--ar 16:9 --v 6 --style raw --stylize 250) và coi dấu phẩy là dấu phân cách mềm. SDXL và SD 1.5 phản hồi ngoặc có trọng số (kiệt tác:1.2) và thích thẻ ngăn bằng dấu phẩy. Flux Dev/Pro được huấn luyện với caption ngôn ngữ tự nhiên và thích câu hoàn chỉnh với dấu chấm, không phải thẻ. ComfyUI là graph node — chúng tôi xuất đoạn JSON cho node CLIP-Text-Encode với sampler mặc định (dpmpp_2m), scheduler (karras), bước (28) và CFG (4.5). DALL-E 3 thích tiếng Anh hội thoại đơn giản. Chọn engine trước khi dựng và bạn bỏ qua bước dịch cú pháp.

Đo độ sáng cho biết điều gì?

Độ sáng trung bình theo công thức Rec.709 (0,2126·R + 0,7152·G + 0,0722·B) trên màu chủ đạo nhất. Dưới 60 dán nhãn 'low-key / tối' (Caravaggio, phim noir, kinh dị). 60-110 là 'tâm trạng' (nhiếp ảnh đường phố u ám, kịch). 110-160 'cân bằng' (ánh ngày thường). 160-200 'sáng' (chụp sản phẩm sạch, biển). Trên 200 là 'high-key / quá sáng' (editorial thời trang, đám cưới). Nếu bạn chưa chọn chip ánh sáng, nhãn này tự thêm vào prompt làm điểm bắt đầu — ghi đè bằng chip cụ thể như 'giờ vàng' hoặc 'tia sáng volumetric' để dẫn dắt mạnh hơn.

Trình Tạo Prompt Từ Ảnh — Thả ảnh để tạo prompt có cấu trúc cho Midjourney v6, Flux, SDXL, ComfyUI và DALL-E 3. Trích xuất màu, tỷ lệ, độ sáng; ch
Trình Tạo Prompt Từ Ảnh

Vì sao tỷ lệ khung hình quan trọng đến vậy trong prompt?

Model diffusion ghi tỷ lệ vào huấn luyện: prompt 9:16 cho bố cục chân dung điện thoại (một chủ thể, đầu cận, nền rơi), 16:9 cho phong cảnh điện ảnh (chủ thể rộng, chi tiết môi trường, chân trời xa), 1:1 cho ảnh sản phẩm căn giữa, 21:9 cinemascope cực rộng. Gửi prompt 1:1 đến sampler 9:16 mặc định 512×512 có thể tạo khuôn mặt kéo dài hoặc chủ thể bị cắt. Công cụ tự nhận dạng tỷ lệ ảnh tham chiếu và snap về tỷ lệ chuẩn gần nhất; ghi đè nếu muốn tái bố cục.

Có dùng cho luồng upscale hoặc img2img không?

Gián tiếp. Prompt tạo ra là đầu vào văn bản cho img2img: lấy prompt này, gửi cùng ảnh đến Midjourney với --iw (trọng số ảnh) hoặc đến SDXL/Flux với cùng ảnh làm init_image ở cường độ denoise 0,4-0,7. Trích bảng màu đặc biệt hữu ích cho upscale — dán bảng vào prompt khi upscale theo tile ngăn upscaler trôi sang tông ấm chung. Cho luồng img2img ComfyUI, đoạn JSON đi thẳng vào node CLIP-Text-Encode nối với stack VAEEncodeForInpaint.

Có hỗ trợ metadata EXIF máy ảnh và ống kính không?

Chưa có trong bản này — phân tích EXIF là mục tiêu mở rộng. Khi thêm, công cụ sẽ trích tiêu cự (tự gợi chip '85mm chân dung' hoặc '24mm góc rộng'), khẩu độ (gợi 'độ sâu trường ảnh nông' cho f/1.4-f/2.8 hoặc 'lấy nét sâu' cho f/8+), ISO (gợi 'hạt phim' cho ISO 1600+), và hãng/model máy (vài prompt phản hồi 'shot on Hasselblad' hoặc 'Leica Q3' như booster). Tạm thời bạn có thể đọc EXIF trong app máy ảnh hoặc bất kỳ viewer EXIF trên site này rồi nhấp tay chip phù hợp.

Ảnh của tôi có được tải lên đâu không?

Không. Toàn bộ pipeline — đọc tệp, trích bảng màu, nhận dạng tỷ lệ, tính độ sáng, ráp prompt — chạy trong trình duyệt qua JavaScript chuẩn và Canvas API. Byte ảnh không bao giờ tới máy chủ chúng tôi, không tới CDN, không tới API AI bên thứ ba. Có thể ngắt mạng sau khi tải trang và công cụ vẫn hoạt động. Cho công việc nhiếp ảnh thương mại, bảng tham chiếu NDA, hoặc ảnh sản phẩm chưa phát hành, công cụ này an toàn. Cuộc gọi mạng duy nhất sau khi tải là analytics chuẩn (tôn trọng do-not-track).