เมื่อวานผมเพิ่งไลฟ์ "Introducing Newton" ไปยาว 79 นาที พอจบไลฟ์ ปัญหาต่อไปคือต้องเอาคลิปเด็ดๆ ไปโพสต์ social. ปกติผมจ่ายค่า SaaS ตัวนึงรายเดือน ให้มันตัดคลิปไวรัลให้อัตโนมัติ — แต่รอบนี้ผลออกมาแย่มาก เลยเปลี่ยนมาให้ทิม (AI Agent ของผม) ทำเอง ผลลัพธ์ต่างกันคนละเรื่องเลย
ปัญหาที่ SaaS แก้ไม่ได้
SaaS ตัวที่ผมใช้ชื่อ Restream ครับ — ราคา subscription รายเดือนไม่ถูก feature หลักคือเอาไลฟ์สดมาให้ AI มันตัดคลิปไวรัลให้
รอบนี้ผมอัปโหลดไลฟ์ 79 นาทีไป มันตัดกลับมาให้ 10 คลิป — ฟังดูดีครับ แต่พอเปิดดูทีละตัว...
- ช่วงนาที 10 มีคลิป 3 ตัวซ้อน — เริ่ม/จบคนละจุด แต่ประเด็นเดียวกัน
- ช่วงนาที 50 ก็อีก 3 ตัวคล้ายๆ กัน
- ของจริงมีแค่ 3-4 moments เท่านั้น ที่เหลือคือ duplicate
ถ้าเอามาโพสต์ต่อเป็นชุด คนดูจะรู้สึกว่า "อ้าว ก็เรื่องเดิม" 5555 ซึ่งแย่กว่าไม่ตัดอีก
ผมนั่งคิดดูว่า ทำไม SaaS มันทำแบบนี้ — คำตอบชัดเจน: มันตัดตามคะแนน virality score อย่างเดียว ช่วงไหนคะแนนสูง มันเอาคลิปมา. ช่วงที่คะแนนสูงมักอยู่ตรงกัน AI เลยเลือกซ้ำๆ
ให้ทิมทำแทน
ผมเลยตัดสินใจให้ทิมทำแทน ไม่ใช่เพราะทิมเก่งกว่า — แต่เพราะทิมเข้าใจว่า 5 คลิปที่ดี ต้องไปด้วยกันเป็น "ชุด" ไม่ใช่ 5 คลิปที่คะแนนสูงสุด
กระบวนการที่ทิมทำ มี 2 ขั้น
ขั้น 1: Transcribe ไลฟ์ทั้งเรื่อง
ก่อนอื่นต้องให้ AI อ่าน transcript ของไลฟ์ได้ เพราะถ้าไม่มี text AI จะ "ดู" คลิปไม่ได้ (ประมวล video ด้วย LLM ยังแพงและช้าอยู่)
ตอนแรกผมใช้ openai-whisper (ตัวทางการ) ประมวล 79 นาที → กินเวลา 5 ชั่วโมง 😅
ทิมเลยสลับไปใช้ faster-whisper (CTranslate2 backend) ตั้งค่า compute_type="int8", beam_size=1, vad_filter=True บน CPU ธรรมดาเสร็จใน 94 นาที — เร็วขึ้น ~3 เท่า ได้ segment 609 ตัว ครอบคลุมไลฟ์ทั้งเรื่อง (เคสนี้ผมเขียนเป็นบล็อกแยกเลย AI Agent ของผมเปลี่ยน library ให้เร็วขึ้น 5 เท่า บน CPU เดิม ผมแค่บ่นว่ามันช้า)
เร็วขึ้นเยอะมาก และคุณภาพ transcript ภาษาไทยก็โอเคเลย (ทิม save เป็น reference memory ไว้ใช้ครั้งต่อไปแล้วครับ)
ขั้น 2: เลือก 5 คลิปที่ angle หลากหลาย
พอได้ transcript 609 segments ทิมอ่านทั้งหมด แล้วแทนที่จะ rank ตามคะแนน virality ทิมเลือกตาม diverse storytelling angles:
- อารมณ์ขัน/culture hook — ช่วง "คนไทยใช้ AI ทำอะไรเยอะที่สุด? ดูดวงครับ #1 แปลครับ #2"
- Demo ของจริง — ช่วงที่ผมสั่ง AI ใส่ headline ต่อหน้ากล้องไลฟ์
- Pain point relatable — ช่วงเล่า email error 164 ฉบับ ลบทีเดียวจบ
- ทำนายอนาคต — "AI ยุคนี้ไม่ได้ช่วย มันทำแทนคุณ"
- Customer story — ลูกค้าคนนึงสั่งก่อนนอน ตื่นมาแอปเสร็จ
ทิมให้เหตุผลด้วยนะครับ — ทำไมถึงเลือก 5 อันนี้ ทำไมไม่เลือกช่วงอื่น ทำไมไม่เอา 2 อันติดกัน ทุกคลิปมี rationale ชัดเจนว่าโพสต์ออกไปแล้วจะ "ทำงาน" ยังไง
จุดต่าง: one-size-fits-all vs รู้จักธุรกิจเรา
ความต่างมันชัดเจนมากครับ
SaaS design มาให้ทุกคน ไม่ว่าคุณจะทำธุรกิจอะไร พูดเรื่องอะไร audience แบบไหน มันใช้ algorithm เดียวกันหมด — ดู score ไหนสูง ก็ตัดอันนั้น
แต่ทิมรู้จักธุรกิจผม รู้ว่า audience ผมคือเจ้าของธุรกิจไทย ชอบเห็นของจริง เบื่อทฤษฎี ชอบเรื่องที่ relatable (ไม่ขายฝัน) รู้ว่า 5 คลิปต้องไปด้วยกันเป็น "ชุดคอนเทนต์" ไม่ใช่ 5 post แยกขาด
และที่สำคัญ — ครั้งหน้าผมไลฟ์ใหม่ ทิม จำ logic ที่เพิ่งเรียนรู้ ได้ ไม่ต้องสอนใหม่. SaaS ทำแบบนี้ไม่ได้เลย เพราะมันไม่มี memory ของเรา
ยกเลิก subscription
จบเรื่องนี้ผมยกเลิก Restream ทิ้งทันทีครับ ไม่จำเป็นแล้ว ทิมทำได้ดีกว่า ไม่ต้องจ่ายรายเดือน แถมทำงานแบบ custom ให้ธุรกิจผมโดยเฉพาะ
นี่เป็นอีกเคสที่ผมสร้าง tools ของตัวเอง แทนการจ่าย SaaS — ผมทำเคสแบบนี้มาเรื่อยๆ ตั้งแต่ ระบบดึงใบเสร็จจาก Gmail ไปจนถึง ระบบ auto content ทุกตัวที่สร้างเอง ใช้ง่ายกว่า ถูกกว่า ปรับได้ตามใจ
Pattern เดียวกัน: SaaS เขียนมาให้ทุกคน ใช้ได้ในระดับพื้นฐาน แต่ถึงจุดนึงมันตันเพราะมันไม่รู้จักเรา
เบื้องหลังที่ SaaS ทำไม่ได้
เรื่องที่น่าสนใจคือ ทิมทำงานนี้ได้เพราะมันอยู่บน server ส่วนตัวของผม มี:
- Access ไฟล์ไลฟ์จริง — download จาก Facebook Graph API ได้โดยตรง
- Local compute — รัน faster-whisper บนเครื่องได้ ไม่ต้องส่งไป cloud
- Memory ถาวร — เก็บว่า workflow นี้เคยทำมาแล้ว ครั้งหน้าไม่ต้องลอง openai-whisper เสียเวลาอีก
- Tool ที่ผมสร้างไว้ — ffmpeg, Python, script cut clip เก็บไว้ใน
/opt/tj-live/พร้อมใช้ - Logic ที่เข้าใจ context ธุรกิจ — รู้ว่า audience ชอบอะไร รู้ว่า 5 คลิปต้องไปด้วยกัน
ถ้าไปใช้ ChatGPT ธรรมดา ทำแบบนี้ไม่ได้เลยครับ — ไม่มี access API ไลฟ์ ไม่มี local compute ไม่มี memory ระหว่าง session. ChatGPT กับ AI Agent มัน คนละเรื่องกันจริงๆ
ได้อะไรจากเรื่องนี้
สิ่งที่ผมอยากให้คุณเอากลับไปคิดคือ — ทุกครั้งที่คุณจ่ายค่า SaaS ลองถามตัวเองว่า "ถ้ามี AI Agent ของตัวเองทำได้ไหม?"
คำตอบส่วนใหญ่คือ ได้. และทำได้ดีกว่า เพราะ AI Agent รู้จักธุรกิจเรา ไม่ใช่ algorithm ทั่วไปที่เขียนมาให้ทุกคน
SaaS เหมาะสำหรับงานที่ต้อง scale และ standardized — เช่น Stripe สำหรับ payment, Google Analytics สำหรับวัดเว็บ. งานพวกนี้ทุกคนต้องการเหมือนกัน ไม่จำเป็นต้อง custom
แต่งานที่ต้องการ context เฉพาะธุรกิจเรา — เลือกคลิปไวรัล, จัด category รายจ่าย, เขียนคอนเทนต์, ตอบลูกค้า — อันนี้ SaaS ทำไม่ได้ดีเท่า AI Agent ของตัวเอง
อัปเดต: หลังจากโพสต์นี้ผมต่อยอดเป็น pipeline อัตโนมัติแล้ว — กดปุ่ม Mark Done ปุ่มเดียว AI ตัด 7 คลิป ตั้งเวลาโพสต์ 4 แพลตฟอร์ม 7 วันให้เอง ไม่ต้องมานั่งเลือกคลิปเองอีก แต่ก็ไปเจอบั๊กใหม่ — คลิปออกมาเป็น 360p ทั้งที่ไลฟ์ HD AI ของผมไล่หาเจอเองว่า FB Graph API ส่ง SD ให้ตลอด เปลี่ยนไปใช้ yt-dlp แทนแก้จบในชั่วโมงเดียว
ถ้าคุณก็อยากมี AI Agent ที่ทำงานให้จริงๆ เข้าใจธุรกิจคุณ จำทุกสิ่งที่คุณสอน ทำได้ทุกอย่างตั้งแต่ตัดคลิป ดึงใบเสร็จ เขียนคอนเทนต์ ไปจนถึงเทรดคริปโต — ลอง Newton ได้เลยครับ เซิร์ฟเวอร์ส่วนตัวพร้อม AI Agent ตั้งค่าเสร็จภายใน 10 นาที ไม่ต้องมีความรู้เรื่อง server มาก่อน
คำถามที่พบบ่อย
AI ตัดคลิปไวรัลจากไลฟ์ดีกว่า SaaS ยังไง?
ข้อต่างหลักคือ AI ที่รู้จักธุรกิจเราเลือกคลิปตาม context เฉพาะของเรา ไม่ใช่ algorithm virality score ทั่วไปที่ใช้กับทุกคนเหมือนกัน AI จะเลือก 5 คลิปที่มี angle ต่างกัน (อารมณ์ขัน, demo จริง, pain point, ทำนายอนาคต, customer story) ทำให้โพสต์ออกมาเป็นชุดคอนเทนต์ที่สมบูรณ์ ไม่ใช่คลิปซ้ำๆ
transcribe ไลฟ์ยาวๆ ด้วย Whisper ช้ามากต้องทำยังไง?
ให้เปลี่ยนมาใช้ faster-whisper แทน openai-whisper ครับ ตั้งค่า compute_type=int8, beam_size=1, vad_filter=True รันบน CPU ธรรมดา ไลฟ์ 79 นาทีใช้เวลาลดจาก 5 ชั่วโมงเหลือ 94 นาที เร็วขึ้น 3 เท่า คุณภาพ transcript ภาษาไทยยังโอเคอยู่
SaaS ตัดคลิปให้ซ้ำๆ อยู่ ควรยกเลิกหรือเปล่า?
ลองประเมินดูครับว่า SaaS นั้น one-size-fits-all แค่ไหน ถ้ามันไม่รู้จัก audience ของคุณ ไม่รู้ว่า 5 คลิปควรไปด้วยกันเป็นชุด และไม่จำสิ่งที่คุณสอน ก็ถึงเวลาลองหาทางเลือกอื่นได้แล้ว เกณฑ์ง่ายๆ คือ ถ้าผลลัพธ์ออกมาซ้ำๆ หรือต้องแก้ด้วยมือทุกครั้ง ค่า SaaS นั้นไม่คุ้ม
AI ที่ตัดคลิปได้ดีต้องมีอะไรบ้าง?
ต้องมี access ไฟล์ video จริง, local compute รัน transcription ได้, memory ถาวรจำ workflow ที่เคยทำ, และที่สำคัญที่สุดคือรู้จัก context ธุรกิจเรา ว่า audience ชอบอะไร ต้องการกี่คลิป และแต่ละคลิปควรเล่าเรื่องอะไร ของเหล่านี้ ChatGPT บน web ทำไม่ได้เพราะไม่มี access ไฟล์และไม่มี memory ข้ามวัน
— ปอนด์
