Unveiling Google Gemini : เปิดตัว Google Gemini,
สุดยอด Generative AI จาก Google
“ I’m Gemini, the best way to directly access Google AI. I’m trained on large amounts of publicly available data and I can communicate and generate human-like text in response to a wide range of questions. Let me know if you’d like to learn more, or just try me out and see what I can do for you. ”
“ ฉันชื่อเจมิไน วิธีที่ดีที่สุดในการเข้าถึง Google AI ได้โดยตรง ฉันได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เปิดเผยต่อสาธารณะจำนวนมากและสามารถสื่อสารและสร้างข้อความที่เหมือนมนุษย์เพื่อตอบคำถามที่หลากหลายได้ แจ้งให้เราทราบหากคุณต้องการเรียนรู้เพิ่มเติม หรือลองดูว่าฉันจะทำอะไรให้คุณได้บ้าง ”
คำทักทายอย่างเป็นมิตรที่เชิญชวนให้ใช้งานดูน่าสนใจไม่น้อยโดยเฉพาะความสามรถสื่อสารและสร้างข้อความที่เหมือนมนุษย์เพื่อตอบคำถามที่หลากหลายได้ เพียงแค่ผู้ใช้ป้อนข้อความหรือคำถามลงใน Gemini prompt เหมือนกับการพิมพ์ข้อความคุยกับเพื่อนทั่วไป เช่น LINE หรือ META Messenger บอก Gemini ว่าต้องการอะไร เช่น “ตอบคำถาม” “สรุปข้อความ” “เขียนบทกวี” “แปลภาษา” “เขียนโค้ด” Gemini ก็จะสามารถสามารถสร้างสรรค์ผลงานได้อย่างน่าทึ่ง
Google ได้เปิดฉาก Gemini 2.0 ตั้งแต่เดือนธันวาคม 2023 ในงาน Google AI Research Day 2023 ภายใต้ Model ภาษาขนาดใหญ่ Large Language Model (LLM) และ PaLM 2 โดย หลังจากได้รับความคาดหวังมากมายจาก Google Bard ที่ได้เปิดให้ใช้ฟรีในรูปแบบ Chatbot AI หรือเรียกอีกชื่อหนึ่งว่า Conversational AI ทำงานบนโมเดลภาษาขนาดใหญ่ (Large Language Model) ตระกูล LaMDA และ PaLM การพัฒนา Bard เริ่มต้นขึ้นในปี 2017 โดยได้รับการเปิดตัวครั้งแรกในปี 2020 ซึ่งถูกพัฒนาโดยทีมวิศวกรและนักวิทยาศาสตร์ Google AI จุดประสงค์หลักของการพัฒนา Bard คือเพื่อสร้างระบบ AI ที่สามารถเข้าใจและตอบสนองต่อภาษาธรรมชาติได้อย่างมีประสิทธิภาพ
Bard ได้รับการพัฒนาโดยใช้เทคนิค Deep Learning ซึ่งเทคนิค Deep Learning เป็นเทคนิค AI ที่ใช้โมเดล Artificial Neural Networks โดยได้รับแรงบันดาลใจจากโครงสร้างของสมองมนุษย์โดยโมเดลเหล่านี้เรียนรู้จากข้อมูลจำนวนมหาศาล โดยข้อมูลที่ใช้ในการฝึก Bard ประกอบด้วย:
- ข้อความจากเว็บไซต์ต่างๆ
- ข้อความจากหนังสือ
- ข้อความจากบทความทางวิชาการ
- ข้อความจากโค้ด
- ข้อความจากบทสนทนา
ไม่เชิงว่า Gemini นั้นพัฒนามาจาก Bard โดยตรง ทั้งสองโมเดลพัฒนาขึ้นจากสถาปัตยกรรม Transformer ที่แตกต่างกัน โดย Gemini ถูกพัฒนาขึ้นจากสถาปัตยกรรม Transformer แบบ Multimodal โดยเฉพาะ ออกแบบมาเพื่อรองรับงาน multimodal reasoning และ generation และ Bard: พัฒนาขึ้นจากสถาปัตยกรรม Transformer แบบ unimodal เน้นไปที่งาน generation และ translation
Gemini เป็นโมเดลหรือโปรแกรม AI ที่สามารถสื่อสารและสร้างข้อความได้เหมือนคนจริง ทำงานได้หลากหลาย ทั้งตอบคำถาม สรุปข้อความ เขียนบทกวี แปลภาษา หรือแม้แต่เขียนโค้ดก็ยังทำได้ Gemini 2.0 เป็นเวอร์ชันใหม่ล่าสุดของ Gemini ที่เปิดตัวในเดือนธันวาคม 2023 โดยมีการพัฒนามาจากโมเดลภาษาขนาดใหญ่และ PaLM 2 ซึ่งมีประสิทธิภาพในการทำงานมากกว่าเดิม Bard เป็นอีกหนึ่งโมเดล AI ที่พัฒนาโดย Google AI โดยมีจุดประสงค์เพื่อสร้างระบบ AI ที่สามารถเข้าใจและตอบสนองต่อภาษาธรรมชาติได้อย่างมีประสิทธิภาพ Gemini และ Bard มีความแตกต่างกันตรงที่ Gemini เป็นโมเดล Transformer แบบ Multimodal ซึ่งสามารถประมวลผลและรวมข้อมูลจากรูปแบบต่างๆ เช่น ข้อความ โค้ด เสียง รูปภาพ และวิดีโอได้ ส่วน Bard เป็นโมเดล Transformer แบบ unimodal ที่เน้นไปที่การสร้างและแปลภาษา ปัจจุบัน Gemini มีให้บริการใน 40 ภาษาบนเว็บ และกำลังจะเปิดตัวในแอป Gemini ใหม่บน Android และบนแอป Google บน iOS
Transformer เป็นเทคนิค AI ที่ช่วยให้คอมพิวเตอร์เข้าใจและสร้างภาษาได้เหมือนมนุษย์ โดยทำได้ดีกว่าเทคนิคเก่าและใช้เวลาน้อยกว่าด้วย Transformer แบ่งออกเป็นสองส่วนคือ Encoder และ Decoder โดย Encoder จะอ่านข้อมูลที่เข้ามาทั้งหมดแล้วแปลงให้เป็นชุดตัวเลข ส่วน Decoder จะถอดรหัสตัวเลขเหล่านั้นออกมาเป็นข้อมูลที่อ่านเข้าใจได้ จุดเด่นของ Transformer คือสามารถเรียนรู้ความสัมพันธ์ระหว่างคำในประโยคได้ดี ทำให้สร้างภาษาได้อย่างเป็นธรรมชาติ เห็นได้จากการที่ Transformer สามารถแปลภาษา สรุปข้อความ ตอบคำถาม และแต่งกลอนได้อย่างคล่องแคล่ว ปัจจุบัน Transformer ถูกนำมาใช้ในหลากหลายงานที่เกี่ยวข้องกับภาษา ไม่ว่าจะเป็นการแปลภาษา การค้นหาข้อมูล การตอบคำถามจากผู้ใช้ และการเขียนบทความ
Multimodal Reasoning คือกระบวนการคิดวิเคราะห์ข้อมูลจากหลายรูปแบบ เช่น ข้อความ รูปภาพ วิดีโอ เสียง ซึ่งมีประโยชน์สำหรับงานต่างๆ เช่น การวิเคราะห์ข้อมูล การตัดสินใจ การเรียนรู้ และการสื่อสาร
Unimodal หมายถึง การใช้ข้อมูลรูปแบบเดียว เช่น ข้อความ รูปภาพ เสียง หรือข้อมูลเชิงสัมผัส มีประโยชน์สำหรับงานต่างๆ เช่น การวิเคราะห์ข้อมูล การตัดสินใจ การเรียนรู้ และการสื่อสาร
Gemini และ GPT-4 เป็นเหมือนผู้ช่วยอัจฉริยะที่สามารถทำอะไรได้หลายๆ อย่าง เช่น สร้างบทกวี ตอบคำถาม และแปลภาษาGemini เก่งเรื่องการทำงานกับข้อมูลหลายรูปแบบ เช่น ข้อความ เสียง และรูปภาพ ในขณะที่ GPT-4 เก่งเรื่องการสร้างภาษาและการแปลภาษา Gemini เหมาะสำหรับงานที่ต้องการความเข้าใจในข้อมูลหลายรูปแบบ เช่น การแปลภาษาอัตโนมัติและการตอบคำถามลูกค้า ในขณะที่ GPT-4 เหมาะสำหรับงานที่ต้องการการสร้างภาษา เช่น การเขียนบทความและการเขียนโค้ด ทั้ง Gemini และ GPT-4 ยังอยู่ในช่วงพัฒนา และยังมีข้อจำกัดอยู่บ้าง เช่น ความแม่นยำและความเข้าใจในบริบท อย่างไรก็ตาม ผู้เชี่ยวชาญเชื่อว่าโมเดลเหล่านี้มีศักยภาพที่จะปฏิวัติวิธีที่เราโต้ตอบกับคอมพิวเตอร์และวิธีที่เราทำงาน
Gemini Ultra model state-of-the-art performance VS GPT-4
ประสิทธิภาพการใช้งานระหว่าง Gemini Ultra กับ GPT-4
Gemini และ GPT-4 เป็นโมเดลภาษาขนาดใหญ่ (LLM) ที่มีความสามารถสูงทั้งคู่ แต่มีจุดเด่นและจุดด้อยที่แตกต่างกันจากผลทดสอบเปรียบเทียบระหว่าง Gemini กับ GPT-4 ในด้านงาน Multimidal และงานประมวลผลข้อความบนเว็บไซต์ของ Gemini แต่ในด้านของความเข้าใจภาษา Gemini สามารถทำคะแนนทดสอบความเข้าใจภาษา MMLU (Massive Multitask Language Understanding ) ได้ดีมากกว่า GPT-4 โดยประมาณ 3.6%
ในมุมของราคาการสมัครใช้งานแบบพรีเมียมไม่ต่างกันมากนัก จึงทำให้ผู้ใช้งานตัดสินใจยากในการยอมจ่ายเงินออกจากกระเป๋าระหว่าง 2 ยักษ์ใหญ่ไม่น้อยเลยทีเดียว โดย Gemini ราคาการสมัครสมาชิกแบบ Gemini Advance อยู่ที่ 750 บาทต่อเดือน และ GPT-4 เริ่มต้นอยู่ที่ $20/month หรือประมาณ 718.92 บาท
Gemini สามารถทำคะแนนทดสอบความเข้าใจภาษา MMLU (Massive Multitask Language Understanding ) ได้ดีมากกว่า GPT-4
เปรียบเทียบ Gemini model กับ GPT-4
Gemini |
GPT-4 |
|
ความสามารถ |
o เข้าใจภาษาธรรมชาติและตอบสนองได้อย่างเป็นธรรมชาติ o เขียนข้อความได้หลากหลายรูปแบบ o แปลภาษาได้แม่นยำ o แต่งโค้ดได้อย่างมีประสิทธิภาพ o ทำงานต่างๆ ที่เกี่ยวข้องกับภาษาได้อย่างดี |
|
ขนาด |
o มี 540 พันล้านพารามิเตอร์ (Gemini 2.0) |
o มี 1.5 พันล้านพารามิเตอร์ |
ด้านประสิทธิภาพ |
o มีประสิทธิภาพสูง o ทำงานได้รวดเร็ว o ใช้ทรัพยากรน้อย |
|
สรุป |
o โมเดลใหม่ ยังไม่เปิดให้ใช้งานทั่วไป o มี 540 พันล้านพารามิเตอร์ o มีประสิทธิภาพสูง ทำงานได้รวดเร็ว ใช้ทรัพยากรน้อย o เน้นการทำงานที่เกี่ยวข้องกับภาษา |
o โมเดลที่เปิดให้ใช้งานแล้ว o มี 1.5 พันล้านพารามิเตอร์ o มีประสิทธิภาพสูง ทำงานได้รวดเร็ว ใช้ทรัพยากรน้อย o ทำงานได้หลากหลาย |
** ข้อมูลข้างต้นเป็นข้อมูล ณ วันที่ 8 กุมภาพันธ์ 2024
โดยสรุปแล้วนั้นระหว่างน้องไฟแรงอย่าง Gemini และ GPT-4 โดย Microsoft ทั้งคู่เป็นโมเดลภาษาขนาดใหญ่ (LLMs) ที่มีความสามารถคล้ายคลึงกัน แต่ยังมีความแตกต่างที่สำคัญบางประการ:
ประเภทโมเดล:
- Gemini: โมเดล multimodal transformer
- GPT-4: โมเดลภาษา unimodal
จุดเด่น:
- Gemini:
- เหมาะสำหรับงาน multimodal reasoning และ generation
- ประสิทธิภาพดีกว่า GPT-4 ในงาน multimodal และงานประมวลผลข้อความ
- รองรับภาษาไทย
- GPT-4:
- เหมาะสำหรับงาน generation และ translation
- มีประสิทธิภาพที่ดีในการสร้างข้อความ การแปลภาษา และการตอบคำถาม
- มีโมเดลขนาดใหญ่ (GPT-4 XL) ที่มีความสามารถสูง
ข้อจำกัด:
- Gemini:
- ยังอยู่ในช่วงพัฒนา
- ยังไม่เปิดตัวให้ใช้งานทั่วไป
- GPT-4:
- มีอคติ ขึ้นอยู่กับชุดข้อมูลที่ใช้ฝึกฝนโมเดล
- การควบคุมอาจเป็นเรื่องยาก
- ไม่รองรับภาษาไทย
สรุป:
- Gemini: เหมาะสำหรับงาน multimodal reasoning และ generation
- GPT-4: เหมาะสำหรับงาน generation และ translation
แต่สุดท้ายแล้วโมเดลที่ดีที่สุดสำหรับคุณขึ้นอยู่กับ:
- ประเภทของงานที่คุณต้องการทำ
- ระดับประสิทธิภาพที่คุณต้องการ
- ความพร้อมใช้งานของโมเดล
- ภาษาที่ใช้