Categories
Computer Data

#15 แปลงข้อมูลจากไฟล์ให้เป็น Structured Data

The English version is available in Medium.

ข้อมูลประเภท Unstructured Data เป็นข้อมูลที่ไม่มีโครงสร้างที่แน่นอนแบบที่ปรากฏในข้อมูลประเภท Structured Data และ Semi-Structured Data โดยตัวอย่างข้อมูลประเภทนี้ได้แก่ ไฟล์ รูปภาพ วิดีโอ และเสียง

Categories
Computer Data

#14 ดึงข้อมูลจาก Database มาโชว์ใน Dashboard

ต่อมาโปรเจคก่อนหน้าที่ทำ Data Pipeline ที่ดึงข้อมูลไฟล์ Excel จากเว็บไซต์ของกระทรวงอว. (กระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัยและนวัตกรรม) คราวนี้เรามาทำอีกโปรเจคหนึ่งที่สร้าง Data Pipeline มาดึงข้อมูลจากฐานข้อมูล (Database) เพื่อนำมาทำ Dashboard

Categories
Computer Data

#13 ทำ Data Pipeline ดึง Data ต้นทุนนศ.ต่อปี

Data Pipeline คือกระบวนการลำเลียงข้อมูลจากแหล่งข้อมูล (Data Source) มายังจุดหมาย (Destination)

ข้อดีของการทำ Data Pipeline ตามกระบวนการนี้ ได้แก่ รวบรวมข้อมูลให้เป็นหนึ่งเดียว (Locality) กับไม่จำเป็นต้องต่อท่อตรงจาก Data Source ไปยัง Destination (Decoupling) และสามารถทำซ้ำได้ (Reproducible) เพื่อให้เราเก็บข้อมูลไว้สำหรับการนำข้อมูลไปประมวลผลใหม่อีกกี่รอบก็ได้ [1]

Categories
Computer

#12 – รู้จัก Apple MLX และเขียนโค้ด Linear Regression

Apple MLX เป็นไลบรารีสำหรับงานทางด้าน Machine Learning ที่พัฒนาโดยทีมงาน Apple Machine Learning Research ที่ออกแบบมาเพื่อ Apple Silicon (ชิปแบบ M2, M3) โดยเฉพาะ โดยไลบรารีนี้มีฟีเจอร์ที่เด่น ๆ ได้แก่

Categories
Computer

#11 – Linear Regression แบบเขียนมือ

Linear regression เป็นความสัมพันธ์แบบเชิงเส้นระหว่างค่าที่เราต้องการทำนาย กับตัวแปรที่เรานำมาใช้ในการคำนวณ เทคนิคนี้เป็นเทคนิคที่ใช้มานานแล้ว กับเป็นเทคนิคที่เป็นโมเดลทางคณิตศาสตร์ที่เข้าใจง่าย ร่วมกับใช้งานได้หลากหลาย ตั้งแต่การศึกษา ไปจนถึงธุรกิจต่าง ๆ

Categories
Computer

#10 – ปรับโมเดลให้แม่นขึ้นด้วย Two-Step Data Augmentation

For English, please click this link to the original article published in GitHub Gist.

Data Augmentation คือเทคนิคที่ช่วยเพิ่มปริมาณของข้อมูลในชุดข้อมูล (Dataset) จากเดิมโดยการสังเคราะห์ข้อมูลขึ้นมาใหม่

เหตุผลที่ทำแบบนี้มาจากการเทรนโมเดลสำหรับใช้งานทางด้าน Computer Vision จำเป็นต้องใช้ข้อมูลที่มีปริมาณมาก แต่ติดปัญหาอย่างหนึ่งเลยคือข้อมูลที่เรามีอยู่มีปริมาณน้อย ไม่เพียงพอต่อการนำไปใช้เทรนโมเดล ดังนั้นแล้วเราจำเป็นต้องทำ Data Augmentation เพื่อช่วยเพิ่มความแม่นยำของโมเดลที่นำมาใช้งานทางด้าน Computer Vision

Categories
Comment

#9 – เงินหยวนกับเงินดิจิทัลที่เพื่อไทยจะทำ

อันนี้เขียนเป็นแพลตฟอร์มทวิตเตอร์ (หรือ X) มาก่อน แล้วขอเอามาเก็บไว้บนเว็บสำหรับการเก็บไว้อ่านทีหลัง หรือค้นหาบนกูเกิลแล้วเข้ามาเจอพอดี

พูดถึงเรื่องเงินดิจิทัล (หรือที่ทางพรรคเพือไทยจะทำคือ จะทำดิจิทัลวอลเล็ท (Digital Wallet) อันนี้นึกถึงประเทศจีนที่ใช้งานเงินหยวนดิจิทัล (Digital Yuan) ผ่านการใช้งาน CDBC (Central Bank Digital Currency)

Categories
Comment

#8 – พูด + รีวิวหลังดู The boy and the heron

The boy and the heron (蒼鷺與少年) เป็นภาพยนตร์ของ Studio Ghibli (吉卜力工作室) ที่เป็นเจ้าเดียวกับที่ทำหนังดังอย่าง Spirited Away โดยผู้กำกับหนังเรื่องนี้คือ Hayao Miyazaki ที่ตั้งใจว่าจะรีไทร์ตัวเองมาหลายรอบแล้วก็ไม่รีไทร์ซะที แถมเจ้าตัวยังแจ้งว่าได้ไอเดียหนังใหม่อีก

Categories
Computer

#7 – วิธีคัดกรองการแจ้งเตือนในทวิต

ปกติเวลาที่เราใช้โซเชียลมิเดียของทวิตเตอร์ (หรือว่า X) สิ่งหนึ่งที่มีเหมือนทุกแอพบนโทรศํพท์มือถือ และทุกโซเชียลคือการแจ้งเตือน (Notifications) โดยลักษณะการแจ้งเตือนก็จะเป็นการแจ้งเตือนการกดปุ่มไลค์ การคอมเม้นต์ การส่งข้อความ และอื่น ๆ

เมื่อมีการแจ้งเตือนแล้ว สิ่งหนึ่งที่เป็นปัญหาที่พบบ่อยคือเวลาที่มีคนเข้ามาคอมเม้นต์เป็นจำนวนมาก แล้วแอพจะแจ้งเตือนผู้ใช้ตลอดเวลา ส่งผลให้รบกวนสมาธิของผู้รับการแจ้งเตือน ดังนั้นแล้วเราจำเป็นต้องคัดกรองการแจ้งเตือนของโซเชียลมิเดีย ในตัวอย่างนี้เราจะคัดกรองการแจ้งเตือนทวิตเตอร์ครับ

Categories
Computer

#6 – ดูทวิตโดยไม่ล็อคอิน Twitter ด้วย Nitter

Nitter คือเครื่องมือสำหรับทำเว็บเซิร์ฟเวอร์ที่อนุญาตให้ผู้ใช้สามารถเข้าไปดูทวิตใน Twitter (หรือ X) ที่เน้นเรื่องความเป็นส่วนตัว และประสิทธิภาพของการใช้งานเว็บไซต์ โดยโครงการนี้ได้รับแรงบันดาลใจจากโครงการ Invidious