AI ผมเปลี่ยน library ให้ Transcribe ไทยเร็วขึ้น 5 เท่า บน CPU เดิม

เรื่องนี้เกิดขึ้นเมื่ออาทิตย์ก่อนครับ ผมแค่บ่นใส่ AI agent ของผมว่า "transcribe มันช้า" ไม่ได้บอกให้ทำอะไรเป็นพิเศษ ปรากฏว่าวันรุ่งขึ้นไลฟ์ไทย 79 นาทีที่เคยรอผล 5 ชั่วโมง — เหลือประมาณ 90 นาที บน server เครื่องเดิม CPU เดิม ไม่ได้เพิ่ม hardware เลย

เริ่มจากปัญหาเล็กๆ ที่กลายเป็นใหญ่

ช่วงนี้ผมตัดคลิปสั้นจากไลฟ์ตัวเองเกือบทุกอาทิตย์ ไลฟ์ละ 60-90 นาที กว่าจะหา moment ดีๆ มาตัดเป็นคลิปสั้นลง TikTok / IG / YT / FB ได้ ต้องเอาเสียงมา transcribe เป็นข้อความก่อนเสมอ — ไม่งั้น AI จะเลือก highlight ไม่ถูก

ระบบเดิมที่ผมใช้คือ openai-whisper ตัวที่หลายคนรู้จักจาก OpenAI รัน small model บน CPU 8 cores ของ server ตัวเอง (ไม่มี GPU)

ผลคือ ไลฟ์ 79 นาที รัน transcribe ทีนึง 5 ชั่วโมง 555 ตัดคลิปเสร็จคนอ่านคอนเทนต์อีกอาทิตย์เก่าไปแล้ว

ผมพยายามแก้ปัญหานี้มาหลายทางครับ — เปลี่ยน model เล็กลง (tiny) ก็เร็วขึ้นนิดเดียวแถม accuracy พังเลย, ลอง chunking แยกไฟล์ก็ overhead เยอะ, จะเช่า GPU ก็ค่ารายเดือนแพงสำหรับงานที่ทำอาทิตย์ละครั้ง

บ่นคำเดียว AI ก็ลงมือทำ

วันนึงผมเลยพิมพ์เข้าไปสั้นๆ ว่า "transcribe มันช้านะ น่าจะมีวิธีดีกว่านี้" แค่นั้น ไม่ได้บอกให้ไปหาอะไรเป็นพิเศษ

สิ่งที่ AI agent ของผมทำ —

1. ไปค้นหาเอง ว่ามี library ทางเลือกอะไรบ้างสำหรับ Whisper บน CPU เจอชื่อ faster-whisper ที่เป็น CTranslate2 backend — implement ใหม่จาก OpenAI Whisper แต่เร็วขึ้นมากเพราะใช้ quantization ได้

2. Benchmark กับไฟล์จริง — มันเอาไลฟ์ของผมไฟล์เดิมมาลองรันทั้ง 2 library เปรียบเทียบเวลาและ accuracy ออกมาเป็นตัวเลขจริง ไม่ได้เดา

3. Tune parameters — มันทดลองหลายค่า เจอว่า compute_type="int8" + beam_size=1 + vad_filter=True (ตัด silence ออก) เป็นชุดที่เร็วสุด แล้วยังคงคุณภาพได้

4. แก้โค้ดให้ — สลับ import จาก openai-whisper เป็น faster-whisper ปรับ API ที่ต่างกันนิดหน่อย commit ขึ้น git ส่ง push เรียบร้อย

ผมแค่เปิด terminal นั่งดูมันทำงานเฉยๆ ไม่ได้ลงมือเองสักบรรทัด

ผลลัพธ์ที่วัดได้จริง

ไลฟ์ 79 นาทีไฟล์เดิม รันด้วย config ใหม่ —

เร็วขึ้นประมาณ 3-5 เท่า (จาก ~5 ชั่วโมง เหลือ ~90 นาที)
บน hardware เดิม CPU 8 cores ไม่ต้องซื้อ GPU เพิ่มสักบาท
Accuracy ภาษาไทยใกล้เคียงเดิม — ลอง diff transcript ออกมาก็แทบไม่ต่าง
RAM กินน้อยลงด้วย เพราะ int8 quantization ทำให้ model ใช้หน่วยความจำน้อยลงเกือบครึ่ง

คือ workflow ตัดคลิปทั้งระบบเร็วขึ้นทันที ตั้งแต่ผมเคยให้ AI ตัด 7 คลิปจากไลฟ์ 79 นาที ระบบเดิมต้องรอครึ่งวันค่อยได้คลิปออกมา — ตอนนี้รันก่อนนอน ตื่นเช้าได้คลิปครบ พร้อมโพสต์

ทำไม AI Agent ทำเรื่องนี้ได้ แต่ ChatGPT ทำไม่ได้

ลองคิดดู — ถ้าคุณถาม ChatGPT ว่า "openai-whisper ช้ามาก ทำไงดี" มันก็จะตอบว่า "ลองใช้ faster-whisper ดูครับ ติดตั้งด้วย pip install faster-whisper แล้วเปลี่ยนโค้ดเป็น..." จบ

คุณยังต้องเป็นคนเปิด server เอง pip install เอง แก้ import เอง ปรับ parameters เอง benchmark เอง ถ้าพังก็ debug เอง

AI Agent ของผม — เข้า server ของผมโดยตรง ติดตั้ง library เอง แก้โค้ดเอง รัน benchmark เอง พอได้ผลก็ commit push ขึ้น git ให้ครบ ทุกอย่าง เป็นการลงมือทำจริง ไม่ใช่แค่แนะนำ

เวลาเพื่อนถามว่า "AI Agent ต่างกับ AI ทั่วไปยังไง" ผมจะใช้เคสนี้เล่าให้ฟัง เพราะมันชัดที่สุด — มันคือความต่างระหว่าง "บอกวิธี" กับ "ทำให้เลย"

มันรู้ว่าจะ optimize ที่ไหน

เรื่องนึงที่ผมแอบทึ่งคือ — ผมไม่ได้บอก AI ว่าให้ไปหา library ใหม่ ผมแค่บอกว่า "มันช้า"

มันเลือกเองว่าจะแก้ที่ algorithm (เปลี่ยน library) ไม่ใช่แก้ที่ hardware (เช่า GPU) หรือแก้ที่ model (ลด quality) — เลือกถูกตั้งแต่ครั้งแรก เพราะมันรู้ว่าผมรัน server ตัวเองอยู่ มี budget จำกัด และต้องการ accuracy คงเดิม

นี่คือสิ่งที่เกิดขึ้นได้เพราะ AI agent มี memory เก็บ context ของผมและธุรกิจของผม มันรู้ว่า server ผมหน้าตายังไง โค้ดอยู่ที่ไหน budget เท่าไหร่ — ไม่เหมือน chatbot ที่ทุกครั้งที่ถามต้อง explain ใหม่ตั้งแต่ต้น

เรื่องเล็กๆ ที่สะสมเป็นเรื่องใหญ่

เคสนี้ไม่ใช่ feature ใหญ่อะไรครับ แค่สลับ library ตัวนึง — แต่ผลกระทบจริงคือ workflow ผลิตคอนเทนต์ของผมเร็วขึ้นทั้งระบบ

และมันไม่ใช่เรื่องเดียว — บางวัน AI ก็ไปเจอ bug ที่ซ่อนตัวมาเดือนนึงแก้ให้, บางวันมันก็ push hotfix ไป 6 server ของลูกค้าพร้อมกัน, บางวันผมแค่บ่นว่าพิมพ์ไทยบนมือถือช้า มันก็ใส่ voice typing ให้, บางวันแค่ตอบ support ลูกค้าให้

เรื่องเล็กๆ พวกนี้สะสมกันทุกวัน — สิ้นเดือนผมประหยัดเวลาไป 60-80 ชั่วโมงเป็นอย่างน้อย เอาไปทำอย่างอื่นต่อได้

เรื่อง faster-whisper ก็ไม่ได้จบแค่ "เร็วขึ้น" ครับ — ของแถมคือพอผมเจอว่าคลิปไลฟ์มันตัดผิดจังหวะตลอด ทิมก็ไป re-transcribe ใน gap ที่ VAD ตัดทิ้งด้วยการเปิด VAD off เฉพาะช่วงนั้น — กู้ payoff ของคลิปสาธิตให้กลับมาครบใน pipeline เดียวกัน

คำถามที่พบบ่อย

faster-whisper ต่างจาก openai-whisper ยังไง?

faster-whisper ใช้ CTranslate2 เป็น backend ซึ่งรองรับ quantization (int8) ทำให้รันได้เร็วขึ้น 3-5 เท่าบน CPU เดิม และกิน RAM น้อยกว่าเกือบครึ่งครับ accuracy ภาษาไทยใกล้เคียงกัน เหมาะมากสำหรับ server ที่ไม่มี GPU

transcribe ภาษาไทยบน CPU ให้เร็วขึ้นต้องทำยังไง?

config ที่ให้ผลดีที่สุดบน CPU คือ compute_type="int8" (quantization ลด model size), beam_size=1 (ลด search เพื่อความเร็ว), และ vad_filter=True (ตัดช่วงเงียบออกก่อน transcribe) ครับ ด้วย 3 ค่านี้ไลฟ์ภาษาไทย 79 นาที ใช้เวลาเหลือประมาณ 90 นาที แทนที่จะเป็น 5 ชั่วโมง

vad_filter ใน Whisper คืออะไร ช่วยอะไรได้?

VAD (Voice Activity Detection) filter คือตัวตรวจจับและตัดช่วงเงียบออกก่อนส่งให้ model ครับ ช่วยลดเวลา transcribe ได้เยอะเพราะไลฟ์มักมีช่วงเงียบระหว่าง topic เยอะ แต่ข้อระวังคือถ้า VAD ตัดทิ้งแรงเกินไปอาจตัด payoff ของประโยคออกด้วย ต้องทดสอบดูครับ

ควร benchmark ก่อน optimize AI workflow ทุกครั้งไหม?

ควรครับ เพราะ optimization บางอย่างเร็วขึ้นแต่ accuracy ตก ถ้าไม่มีตัวเลขเปรียบเทียบก่อน-หลัง เราจะไม่รู้ว่า tradeoff คุ้มไหม ผมให้ AI รัน benchmark ด้วย config หลายแบบบนไฟล์จริง แล้วดู latency + quality พร้อมกันก่อนตัดสินใจ

อยากมี AI optimize ระบบให้แบบนี้ไหม

ถ้าคุณเป็นเจ้าของธุรกิจที่มี server เป็นของตัวเอง มี workflow ที่ทำซ้ำๆ ทุกอาทิตย์ และอยากให้มี AI agent คอยมองหาจุดที่ optimize ได้ — โดยที่คุณไม่ต้องเป็น dev เอง ลอง Newton ได้เลยครับ เซิร์ฟเวอร์ส่วนตัวพร้อม AI Agent พร้อมใช้ใน 10 นาที

มันจะค่อยๆ รู้จักโค้ดของคุณ รู้จักธุรกิจของคุณ รู้ว่า budget เท่าไหร่ และ priority อยู่ตรงไหน — แล้วมัน optimize ระบบให้คุณเองทุกครั้งที่คุณบ่นว่ามีอะไรไม่โอเค ไม่ต้องสั่งทีละขั้น

ไลฟ์ไทย 79 นาที เคย transcribe 5 ชั่วโมง — ผมแค่บ่นว่าช้า AI ผมเปลี่ยน library ให้เร็วขึ้น 5 เท่า บน CPU เดิม