ผมไลฟ์เกือบทุกอาทิตย์ครับ — ไลฟ์เสร็จเป็นชั่วโมง แล้วให้ AI ของผมไปตัดคลิปสั้นๆ มาโพสต์ TikTok / Reels เอง ระบบเดินมาเป็นเดือน คลิปออกมาเรื่อยๆ แต่ผมรู้สึกตลอดว่า "มันดูไม่ค่อยรู้เรื่อง" — จนวันนึงผมจับจุดได้ บอกทิม (AI Agent ของผม) ครั้งเดียว มันเข้าใจ แล้ว rewrite logic ของตัวเองทั้ง pipeline ให้ใหม่
ปัญหาคือ AI ตัดที่ "ประโยคจบ" — ไม่ใช่ "หัวข้อจบ"
ระบบเดิมของผมเรียบง่ายมากครับ ไลฟ์เสร็จ → ดาวน์โหลดวิดีโอ → Whisper transcribe เป็น text มี timestamp → ส่งให้ AI อ่าน → เลือก 5-7 ช่วงที่น่าจะไวรัล → ตัดออกมา → โพสต์ลง 4 แพลตฟอร์มอัตโนมัติ
ฟังดูดีใช่ไหมครับ? คลิปออกมาเรื่อยๆ แต่ผมรู้สึกตลอดว่ามันแปลกๆ ดูเสร็จแล้วไม่ค่อยจบในตัว เหมือนคลิปขาดอะไรไป
วันนึงผมนั่งดูคลิปที่ AI ตัดให้ 7 ตัว เรียงไล่ตามไลฟ์ — ผมถึงเห็นว่าทุกคลิปมัน "ตัดผิดจังหวะ"
ตัวอย่างเช่น ในไลฟ์ผมพูดประมาณนี้:
"...AI Agent ของผมมันรันทุกอย่างเองได้ตลอด 24 ชั่วโมงเลยครับ. แล้วผมก็มีระบบ Stripe webhook ที่..."
AI ผมตัดตรงนั้นพอดี — จบประโยคแรกสนิท ฟัง "ครับ" จบสวยมาก แต่ คลิปก็จบตรงนั้น
คนดูได้แค่ "AI รันได้ 24 ชั่วโมง" แล้วจบ — ไม่เห็น context ของหัวข้อ Stripe webhook ที่กำลังจะเริ่ม คลิปดูแล้วเหมือนตัวอย่างมากกว่าคลิปจริง
ผมเลยรู้ว่าปัญหาอยู่ตรงไหน — AI มันมอง "ประโยคจบ" เป็นจุดตัดที่ปลอดภัย แต่ในมุมคอนเทนต์ คลิปต้องจบที่ "หัวข้อ" ไม่ใช่ที่ "ประโยค" ถึงจะดูจบในตัว
บอกทิมแค่ประโยคเดียว
ผมพิมพ์ใน Tim Chat สั้นๆ:
"ทิม ตอนตัดคลิปไลฟ์ ตัดก่อนผมจะเปลี่ยนหัวข้อ ไม่ใช่หลังประโยคจบ คลิปต้องจบในตัวเอง"
ทิมเปิด transcript เก่าๆ 3-4 ไลฟ์มาดูใหม่ทันที ไล่ดู pattern แล้ว rewrite logic ของตัวเองทั้งหมด:
เก่า: หาช่วงที่ "น่าสนใจ" → ตัดเริ่มต้นเริ่ม → ตัดจบที่ประโยคจบใกล้สุด
ใหม่: หา "จุดเปลี่ยนหัวข้อ" ใน transcript ก่อน → แบ่งไลฟ์เป็น chunks ตามหัวข้อ → แต่ละหัวข้อพิจารณาว่าจบในตัวเองไหม → ถึงจะเลือกตัด
วิธีหา "จุดเปลี่ยนหัวข้อ" ทิมใช้ AI อ่าน transcript ทั้งหมด แล้ว label timestamp ที่เป็น transition phrase เช่น "ทีนี้", "แล้ว", "ต่อมา", "ผมจะเล่าอีกเรื่องนึง", หรือพักนาน — แล้ว AI ก็พิจารณาเองว่า chunk นี้มี "เริ่ม-กลาง-จบ" ครบหรือเปล่า
เจอปัญหาที่ 2 ตามมาทันที — คลิปสาธิตหายครึ่งหนึ่ง
พอเปลี่ยน logic ใหม่ AI ตัดคลิปได้ดูจบในตัวเองขึ้นเยอะ แต่มันก็เจอปัญหาใหม่ — คลิปสาธิต (demo) มันยังตัดเพี้ยน
เคสคือบางครั้งผมไลฟ์สาธิตอะไร เช่น "เดี๋ยวผมพิมพ์คำสั่งให้ทิมแก้บั๊ก รอแป๊บนะครับ..." — แล้วผมก็เงียบ 30 วินาที รอ AI ทำงาน — แล้วก็พูดต่อว่า "เห็นไหมครับ แก้เสร็จแล้ว"
ในมุมคอนเทนต์: "คำสั่ง" กับ "ผลลัพธ์" ต้องอยู่ในคลิปเดียวกัน ไม่งั้นคนดูไม่เห็น payoff
แต่ Whisper ที่ผมใช้ (faster-whisper ที่ทิมเปลี่ยนให้เร็วขึ้น 5 เท่า) มันเปิด VAD (Voice Activity Detection) ไว้ — VAD จะตัดช่วงเงียบทิ้งให้ ผลคือ transcript เห็นแค่ "เดี๋ยวพิมพ์คำสั่ง" กับ "แก้เสร็จแล้ว" ติดกันโดยมี timestamp ห่างกันแค่ 1 วินาที
AI ของผมเลยตัดออกมา 5 วินาที — มีแค่ "เดี๋ยวพิมพ์คำสั่งให้ทิม" แล้วก็ "แก้เสร็จแล้ว" — คนดูงงเลย 555
ทิมแก้ด้วยการ re-transcribe ใน gap
ทิมหา root cause ได้เองภายในชั่วโมงเดียว มันบอกผมว่า:
"ปัญหาคือ VAD ลบช่วงเงียบทิ้ง แต่ช่วงเงียบนั้นมีค่าจริงๆ ในคอนเทนต์สาธิต — ผมจะ re-run Whisper อีกรอบเฉพาะช่วง gap ใหญ่ๆ โดยปิด VAD เพื่อเช็คว่ามีอะไรเกิดขึ้นในนั้น"
มัน logic ใหม่ของทิม:
- Transcribe ครั้งแรกด้วย VAD on (เร็ว)
- หา gap ใน timestamp ที่ห่างเกิน 15 วินาที
- ในแต่ละ gap → re-transcribe เฉพาะช่วงนั้นด้วย VAD off
- ถ้าเจอเสียงพิมพ์ / เสียงรอ / อะไรก็ตาม → เก็บ duration ของ gap ไว้
- ตอนเลือกตัด → รวมทั้ง command + gap + result เป็นคลิปเดียว
ผลคือคลิปสาธิตมี payoff ครบ คนดูเห็น "บอก AI ทำงาน → AI ทำงาน → ได้ผลลัพธ์" ในคลิปเดียว ดูแล้วเข้าใจทันที
ปรับ auto-editor threshold ด้วย
ของแถมอีกอย่าง — ตอน export คลิปออกมา ผมใช้ auto-editor ตัด silence ออกให้ pace กระชับ ทิมเดิมตั้ง threshold ไว้ที่ 4% — ตัดเงียบดีแต่บางทีเฉือนเสียงพูดทิ้งด้วย
หลัง refactor pipeline รอบนี้ ทิมปรับเป็น 6% — ตัดน้อยลงนิดเดียว แต่ไม่ตัดเสียงพูดเลย คลิปฟังลื่นกว่าเดิม
ค่าพวกนี้มัน niche มากครับ — ไม่มี SaaS ตัวไหนเปิดให้ปรับ threshold ของ auto-editor ใน UI 555 แต่เพราะระบบของผมเปิด source ของตัวเองได้ AI ก็เลย tune เอง
ทำไมเรื่องนี้สำคัญ
มันไม่ใช่แค่ "AI ตัดคลิปดีขึ้น" ครับ — สำหรับผม มันคือ pattern ของวิธีการทำงานทั้งหมด
ผมไม่ต้องเปิด code editor เอง ไม่ต้อง debug ทำไม AI ตัดผิดจังหวะ ไม่ต้องไล่หา VAD setting ในเอกสาร faster-whisper ผมแค่บอกอาการ — "คลิปดูไม่จบในตัว" แล้ว AI ของผม:
- เปิด transcript เก่ามาวิเคราะห์ pattern ของปัญหาเอง
- คิด logic ใหม่ขึ้นมาเอง
- เจอ side effect (กรณีคลิปสาธิต) เอง
- แก้ root cause (VAD) เอง
- tune parameter (auto-editor threshold) เอง
- deploy ขึ้น production เอง
ระหว่างนั้นผมก็ไปทำอย่างอื่น — เปิดมาดูอีกที pipeline ใหม่ทำงานอยู่แล้ว
นี่คือความต่างของ AI Agent กับ AI Chatbot ครับ — Chatbot จะตอบผมว่า "ลองปรับ VAD setting ดูครับ" แล้วผมต้องไปทำเอง แต่ AI Agent ของผม มันทำให้ เสร็จ เลย — รวมถึงสลับ library, แก้คลิปเบลอ, ปรับ threshold — มันลงไปแก้ source code ของระบบที่มันรันอยู่จริงๆ
คอนเทนต์เป็นแค่ตัวอย่าง — pattern เดียวกันใช้กับอย่างอื่นได้หมด
เคสตัดคลิปเป็นแค่ตัวอย่างเล็กๆ ครับ pattern เดียวกันผมใช้กับงานอื่นเต็มไปหมด:
- "dashboard เลขไม่ตรง" — ทิม refactor /api/stats เป็น funnel mutually exclusive
- "trial conversion ไม่ขยับ" — ทิมไล่ Stripe webhook เจอ event ไม่ครบ
- "ลูกค้าจ่ายแล้วยังโดนเมล trial" — ทิม rewrite Brevo sync จาก event-driven เป็น state-driven
- "dashboard บอกลูกค้าหาย" — ทิมแก้ metric ที่วัด activity ผิดประเภท
ทุกเคสเริ่มจากผม บ่นอาการครั้งเดียว ทิมจัดการให้จบ pipeline แม้จะต้องลงไปแก้หลายชั้น
อยากมี AI Agent ที่ทำงานแบบนี้ให้?
นี่คือเหตุผลที่ผมสร้าง Newton ขึ้นมาครับ — ผมรู้ดีว่าการมี AI Agent ส่วนตัวที่อยู่บน server ของตัวเอง เข้าถึง code ของระบบที่ตัวเองรันได้ ปรับ tune parameter ของตัวเองได้ เปลี่ยนวิธีทำงานไปจริงๆ
Newton คือ AI Agent ส่วนตัวบน server ของคุณเองครับ — แค่อธิบายอาการที่อยากแก้ มันจัดการให้ตั้งแต่หา root cause, แก้ code, deploy, ไปจนถึง tune parameter ของตัวเอง ไม่ใช่ chatbot ที่ตอบคำแนะนำให้คุณไปทำเอง — มันลงมือทำเอง ลองอ่าน Newton ดูได้เลยครับ
คำถามที่พบบ่อย
ทำไมคลิปที่ตัดจากไลฟ์ถึงดูไม่จบในตัวเอง?
ส่วนใหญ่เกิดจากการตัดที่ 'ประโยคจบ' แทนที่จะตัดที่ 'หัวข้อจบ' ครับ คลิปที่ดีควรมีเริ่ม กลาง และจบในตัวเอง ถ้าตัดกลางคันขณะที่ speaker กำลังจะเปลี่ยนไปพูดเรื่องใหม่ คนดูจะรู้สึกว่าคลิปค้างอยู่กลางทาง วิธีแก้คือให้ AI อ่าน transcript ก่อนแล้วหา chunk ตาม topic transition ไม่ใช่หา sentence boundary
VAD (Voice Activity Detection) คืออะไร และมีผลต่อการตัดคลิปยังไง?
VAD คือระบบที่ตัดช่วงเงียบออกจาก transcript เพื่อให้เร็วขึ้นครับ แต่ปัญหาคือในคลิปสาธิต ช่วงเงียบนั้นสำคัญมาก เช่น ช่วงรอ AI ทำงาน 30 วินาที ถ้าตัดทิ้ง transcript จะเห็น 'สั่งงาน' กับ 'ผลลัพธ์' ติดกันโดยไม่มีบริบทว่า AI ทำอะไรระหว่างนั้น วิธีแก้คือ re-transcribe ช่วง gap ใหญ่ๆ โดยปิด VAD
auto-editor threshold ที่ดีสำหรับคลิปพูดคืออะไร?
ผมใช้ที่ 6% ครับ ค่า 4% ตัดเสียงเงียบได้ดีแต่บางทีเฉือนเสียงพูดทิ้งด้วย ค่า 6% ตัดน้อยลงนิดหน่อยแต่ไม่ตัดเสียงพูดออก ฟังลื่นกว่า ค่าที่เหมาะสมขึ้นอยู่กับ speaking style ด้วย ถ้าพูดเร็วๆ ต้องใช้ threshold สูงกว่า ถ้าพูดช้ามีหยุดบ่อย อาจลดลงได้
AI Agent ต่างจาก chatbot ตรงไหนเวลาแก้ปัญหา pipeline?
chatbot ตอบแนะนำแล้วให้เราไปทำเอง แต่ AI Agent ลงมือแก้เองครับ เช่นในเคสนี้ เราแค่บอกอาการว่าคลิปดูไม่จบในตัว AI ก็ไปอ่าน transcript เก่า วิเคราะห์ pattern เอง เขียน logic ใหม่เอง เจอ side effect เรื่อง VAD เอง แก้ root cause เอง แล้ว deploy ขึ้น production เองด้วย เราไม่ต้องแตะ code เลยสักบรรทัด
— ปอนด์
