Categories
Computer Data

#26 – วิธีสมัครบัญชีคอมมู Developer/Data/AI จีนอย่าง CSDN

CSDN (ที่ย่อมาจาก Chinese Software Developer Network หรือ China Software Developer Network) เป็น Community สำหรับนักพัฒนาซอฟต์แวร์ กับคนที่ทำงานทางด้าน Data และ AI ที่ใหญ่ที่สุดแห่งหนึ่งในประเทศจีน

Categories
Data

#23 – แนะนำ Cloud GPU สำหรับเทรน และทดสอบ AI

งานหนึ่งที่คนทำทางด้าน Data ต้องเจอคือการเทรนตัวโมเดล AI

ในปัจจุบันโมเดลที่ใช้งานสำหรับงานภาพ (Computer Vision) หรืองานข้อความ (Natural Language Processing) ก็เป็นโมเดล Deep Learning ที่มีขนาดโมเดลที่ใหญ่แบบโมเดลอย่าง Vision Transformer, GPT, BERT หรืออื่น ๆ

Categories
Computer Data

#22 MapReduce ที่มา การทำงาน และการเอาไปใช้

หลังจากที่เขียนเรื่องที่เกี่ยวกับ Data Structures & Algorithms ไปในบทความก่อนหน้าที่เขียนถึง Big-O Notation, Searching กับ Sorting Algorithms กับ Shortest Path อย่าง Dijkstra’s กับ Bellman-Ford’s Algorithm รวมถึง A* Search Algorithm

คราวนี้มาเข้าเรื่องที่เกี่ยวข้องกับ Data ที่เป็นพื้นฐานหนึ่งเลยคือ MapReduce

Categories
Computer Data

#19 Big-O, Search & Sort ที่ใช้ในงาน Data

The English version of this blog related to the first part: Big-O notation, is available here.

เมื่อวันก่อนเข้าไปอ่านในหน้าเว็บ Medium ที่กล่าวถึง Data Structures & Algorithms (ย่อเป็น DSA) ที่จำเป็นสำหรับทาง Data Engineer ว่าต้องรู้เทคนิคไหนบ้าง แถมตอนเรียนในคอร์สจากเว็บ DataTH (รวมถึงที่อื่น) ก็มีกล่าวถึงไว้นิดหน่อยว่าจำเป็นต้องรู้เรื่องนี้ต่อยอดจากที่เรียนในคอร์ส

เราเลยสังเกตตอนที่เขียนโค้ดแล้วพบว่าโค้ดมันก็รันได้ แต่ประสิทธิภาพมันก็ไม่ได้ดีอะไรขนาดนั้น การมีความรู้ทางด้าน DSA ก็นำไปใช้ช่วยเขียนโค้ดให้ทำงานได้มีประสิทธิภาพมากกว่าเดิม โดยในบทความนี้ก็สรุป และแชร์เรื่องนี้ครับ

Categories
Computer Data

#18 ใช้ Databricks ดึงอัตราแลกเปลี่ยนลงตาราง

ช่วงสองสามสัปดาห์ที่ผ่านมาเราได้เข้าไปดู Special Classes เรื่อง Intro to Databricks ในคอร์ส Road to Data Engineer 2.0 ของ DataTH School จากนั้นเราเลยทดลองทำโปรเจคด้วย Databricks และแชร์ลงบทความนี้

แต่ก่อนอื่น เราไม่เสียเวลาเกริ่นนาน เรามาเริ่มพูดถึง Databricks กันก่อนดีกว่าครับ

The English version is available here.

Categories
Computer Data

#16 – เขียนโค้ด DBML เพื่อวาด ER Diagram

ER Diagram (Entity Relation Diagram) คือแบบจำลองที่ใช้อธิบายโครงสร้างของ Database ที่ออกมาเป็นรูปภาพ เพื่ออธิบายโครงสร้างและความสัมพันธ์ของข้อมูล ประกอบไปด้วย 2 ส่วน ได้แก่ Entity และ Relationship.

Categories
Computer Data

#13 ทำ Data Pipeline ดึง Data ต้นทุนนศ.ต่อปี

Data Pipeline คือกระบวนการลำเลียงข้อมูลจากแหล่งข้อมูล (Data Source) มายังจุดหมาย (Destination)

ข้อดีของการทำ Data Pipeline ตามกระบวนการนี้ ได้แก่ รวบรวมข้อมูลให้เป็นหนึ่งเดียว (Locality) กับไม่จำเป็นต้องต่อท่อตรงจาก Data Source ไปยัง Destination (Decoupling) และสามารถทำซ้ำได้ (Reproducible) เพื่อให้เราเก็บข้อมูลไว้สำหรับการนำข้อมูลไปประมวลผลใหม่อีกกี่รอบก็ได้ [1]

Categories
Computer

เทคนิคการนำรูปออกจาก iCloud

ปกติเวลาใช้งานไอโฟน ไอแพด หรือแมค เราจะอัพโหลดรูปลงบนระบบ iCloud ที่เป็นบริการคลาวด์ของแอปเปิล เราก็ใช้บริการนี้มาตลอด จนกระทั่งขยายความจุเป็น 2TB ซึ่งเป็นขนาดสูงสุดที่ทางแอปเปิลอนุญาตให้เช่าเพื่อใช้บริการ (ในขณะนั้น) แต่ทีนี้พอผ่านไปซักระยะหนึ่ง เราเพิ่มพื้นที่แมคให้มีขนาด 1TB รวมถึงมีฮาร์ดดิกส์ภายนอกที่มีขนาด 2TB อยู่แล้ว ดังนั้นเอง เราเลยคิดว่าจะนำรูปอกจาก iCloud

การนำรูปออกมาจาก iCloud ทำอย่างไรดีล่ะ? จุดนี้ทำได้ไม่ยาก มีหลายเทคนิคที่โพสในอินเตอร์เน็ต คราวนี้เอาเทคนิคที่เราใช้กันดีกว่ามีสองวิธี

Categories
Computer

แสดงข้อมูลจากไพทอนมาหน้าเว็บด้วย Streamlit

ปกติเวลาแสดงข้อมูลในไพทอนที่เราเคยทำก็จะเป็นการเซฟเป็นไฟล์แล้วนำข้อมูลออกมาปรับแต่งเพื่อให้แสดงข้อมูลให้สวยงามผ่านโปรแกรมอื่นใช่ไหมครับ แต่ทีนี้เราต้องการแสดงข้อมูลผ่านทางหน้าเว็บก็ต้องใช้เครื่องมืออื่นช่วย อย่างเช่น Flask, Django ซึ่งฟังดูแล้วยุ่งยากไปหน่อย เลยคิดว่าน่าจะมีเครื่องมือนี้มาช่วยจะดีกว่านี้

ซึ่งมันก็มีจริง เครื่องมือที่แสดงข้อมูลให้สวยงามได้โดยการใช้ไลบรารีอย่าง Streamlit