Categories
Data

#27 Web Scraping ดึง20 ข่าวล่าสุดจากเว็บข่าวด้วย Selenium

ปกติการดึงข่าวล่าสุด อันนี้เราใช้ RSS (Really Simple Syndication) หรือ Feedly ได้เลย อย่างไรก็ดี ไม่ใช่ทุกเว็บไซต์ที่จะรองรับวิธีนี้ได้ อาจจะเป็นเพราะทางนั้นไม่ได้ให้ลิ้งค์สำหรับ RSS ไว้ครับ

เมื่อเจอปัญหานี้แล้ว ในบทความนี้เราแนะนำวิธีหนึ่งที่คนใช้กัน วิธีนี้เรียกว่า Web Scraping

Categories
Computer Data

#26 – วิธีสมัครบัญชีคอมมู Developer/Data/AI จีนอย่าง CSDN

CSDN (ที่ย่อมาจาก Chinese Software Developer Network หรือ China Software Developer Network) เป็น Community สำหรับนักพัฒนาซอฟต์แวร์ กับคนที่ทำงานทางด้าน Data และ AI ที่ใหญ่ที่สุดแห่งหนึ่งในประเทศจีน

Categories
Computer Data

#24 – คัสตอม Template บน iA Writer ใช้เองด้วย HTML และ CSS

ส่วนหนึ่งของงานทางด้าน Programming กับงานทางด้าน Data และอื่น ๆ คือการทำเอกสาร ส่วนใหญ่ที่เราทำงานทางด้านเอกสารที่เราใช้กันก็เป็นโปรแกรมแบบ Microsoft Word อะไรแนวนี้ ทีนี้ถ้าเราอยากได้โปรแกรมที่มันไม่ซับซ้อน ใช้งานไม่ยาก แถมหน้าจอยังคลีนอีก อันนี้เราจะใช้แอพอะไร

จากที่เราใช้ แอพหนึ่งที่เหมาะสมกับงานนี้คือ iA Writer

The English version is available on Medium.

Categories
Data

#23 – แนะนำ Cloud GPU สำหรับเทรน และทดสอบ AI

งานหนึ่งที่คนทำทางด้าน Data ต้องเจอคือการเทรนตัวโมเดล AI

ในปัจจุบันโมเดลที่ใช้งานสำหรับงานภาพ (Computer Vision) หรืองานข้อความ (Natural Language Processing) ก็เป็นโมเดล Deep Learning ที่มีขนาดโมเดลที่ใหญ่แบบโมเดลอย่าง Vision Transformer, GPT, BERT หรืออื่น ๆ

Categories
Computer Data

#22 MapReduce ที่มา การทำงาน และการเอาไปใช้

หลังจากที่เขียนเรื่องที่เกี่ยวกับ Data Structures & Algorithms ไปในบทความก่อนหน้าที่เขียนถึง Big-O Notation, Searching กับ Sorting Algorithms กับ Shortest Path อย่าง Dijkstra’s กับ Bellman-Ford’s Algorithm รวมถึง A* Search Algorithm

คราวนี้มาเข้าเรื่องที่เกี่ยวข้องกับ Data ที่เป็นพื้นฐานหนึ่งเลยคือ MapReduce

Categories
Computer Data

#21 A* Search Algorithm กับการเดินในเขาวงกต

หลังจากที่เขียนในบทความก่อนหน้าถึงโครงสร้างข้อมูลแบบ Graph และ เทคนิคการเดินทางใน Graph (Graph Traversal) เพื่อหาเส้นทาง Shortest Path โดย Dijkstra’s กับ Bellman-Ford’s Algorithms แล้ว

ในบทความนี้เราจะมาแนะนำเทคนิคอีกเทคนิคหนึ่งที่มีชื่อว่า A* (อ่านว่าเอ-สตาร์) Search Algorithm

The English version is available here.

Categories
Computer Data

#19 Big-O, Search & Sort ที่ใช้ในงาน Data

The English version of this blog related to the first part: Big-O notation, is available here.

เมื่อวันก่อนเข้าไปอ่านในหน้าเว็บ Medium ที่กล่าวถึง Data Structures & Algorithms (ย่อเป็น DSA) ที่จำเป็นสำหรับทาง Data Engineer ว่าต้องรู้เทคนิคไหนบ้าง แถมตอนเรียนในคอร์สจากเว็บ DataTH (รวมถึงที่อื่น) ก็มีกล่าวถึงไว้นิดหน่อยว่าจำเป็นต้องรู้เรื่องนี้ต่อยอดจากที่เรียนในคอร์ส

เราเลยสังเกตตอนที่เขียนโค้ดแล้วพบว่าโค้ดมันก็รันได้ แต่ประสิทธิภาพมันก็ไม่ได้ดีอะไรขนาดนั้น การมีความรู้ทางด้าน DSA ก็นำไปใช้ช่วยเขียนโค้ดให้ทำงานได้มีประสิทธิภาพมากกว่าเดิม โดยในบทความนี้ก็สรุป และแชร์เรื่องนี้ครับ

Categories
Computer Data

#18 ใช้ Databricks ดึงอัตราแลกเปลี่ยนลงตาราง

ช่วงสองสามสัปดาห์ที่ผ่านมาเราได้เข้าไปดู Special Classes เรื่อง Intro to Databricks ในคอร์ส Road to Data Engineer 2.0 ของ DataTH School จากนั้นเราเลยทดลองทำโปรเจคด้วย Databricks และแชร์ลงบทความนี้

แต่ก่อนอื่น เราไม่เสียเวลาเกริ่นนาน เรามาเริ่มพูดถึง Databricks กันก่อนดีกว่าครับ

The English version is available here.

Categories
Computer Data

#17 – เตรียมสอบ Google Cloud Digital Leader

For English version, readers can follow here on Medium.

สวัสดีครับ หลังจากที่ไม่ได้เขียนบล็อกไปสัปดาห์นึงไปก็ไม่ใช่อะไร ตอนนั้นเราไปเตรียมสอบ Google Cloud Digital Leader มาเมื่อสัปดาห์ที่แล้ว และได้สอบมาเมื่อวานนี้เอง

แต่ก่อนอื่น เราไม่เสียเวลาเกริ่นนาน เรามาเริ่มพูดถึงการเตรียมตัวสอบดีกว่าครับ

Categories
Computer Data

#16 – เขียนโค้ด DBML เพื่อวาด ER Diagram

ER Diagram (Entity Relation Diagram) คือแบบจำลองที่ใช้อธิบายโครงสร้างของ Database ที่ออกมาเป็นรูปภาพ เพื่ออธิบายโครงสร้างและความสัมพันธ์ของข้อมูล ประกอบไปด้วย 2 ส่วน ได้แก่ Entity และ Relationship.