เทคโนโลยี

กระบวนการสร้างดัชนีของ SEO

0

มีการคาดเดามากมายเกี่ยวกับวิธีที่เครื่องมือค้นหาทำดัชนีเว็บไซต์ หัวข้อนี้ถูกปกคลุมไปด้วยความลึกลับเกี่ยวกับการทำงานอย่างแม่นยำของกระบวนการสร้างดัชนีของเครื่องมือค้นหา เนื่องจากเครื่องมือค้นหาส่วนใหญ่ให้ข้อมูลที่จำกัดเกี่ยวกับวิธีสร้างกระบวนการสร้างดัชนี ผู้ดูแลเว็บได้รับเบาะแสบางอย่างโดยการตรวจสอบรายงานบันทึกของพวกเขาเกี่ยวกับการเข้าชมของโปรแกรมรวบรวมข้อมูล แต่ไม่ทราบว่าการจัดทำดัชนีเกิดขึ้นได้อย่างไร หรือหน้าใดในเว็บไซต์ของพวกเขาได้รับการรวบรวมข้อมูลจริงๆ

ในขณะที่การคาดเดาเกี่ยวกับกระบวนการสร้างดัชนีของเครื่องมือค้นหาอาจดำเนินต่อไป นี่คือทฤษฎีที่อิงจากประสบการณ์ การค้นคว้า และเบาะแส เกี่ยวกับวิธีที่พวกเขาอาจดำเนินการจัดทำดัชนีหน้าเว็บ 8 ถึง 10 พันล้านหน้าแม้จะบ่อยครั้ง หรือสาเหตุที่ทำให้มีความล่าช้าใน แสดงหน้าที่เพิ่มใหม่ในดัชนี การสนทนานี้มีศูนย์กลางอยู่ที่ Google แต่เราเชื่อว่าเครื่องมือค้นหายอดนิยมส่วนใหญ่ เช่น Yahoo และ MSN มีรูปแบบคล้ายกัน

Google ทำงานจากศูนย์ข้อมูลอินเทอร์เน็ต (IDC) ประมาณ 10 แห่ง แต่ละแห่งมีเซิร์ฟเวอร์ Pentium-3 หรือ Pentium-4 1,000 ถึง 2,000 เครื่องที่ใช้ระบบปฏิบัติการ Linux

Google มีโปรแกรมรวบรวมข้อมูล/บ็อตกว่า 200 ตัว (บางคนคิดว่ามากกว่า 1,000 ตัว) สแกนเว็บในแต่ละวัน สิ่งเหล่านี้ไม่จำเป็นต้องเป็นไปตามรูปแบบเฉพาะตัว ซึ่งหมายความว่าโปรแกรมรวบรวมข้อมูลต่างๆ อาจเข้าชมไซต์เดียวกันในวันเดียวกัน โดยไม่รู้ว่าโปรแกรมรวบรวมข้อมูลอื่นๆ เคยไปที่นั่นมาก่อน นี่คือสิ่งที่อาจให้บันทึกการเยี่ยมชมรายวันในรายงานบันทึกการเข้าชมของคุณ ทำให้ผู้ดูแลเว็บมีความสุขมากกับการเข้าชมบ่อยครั้ง

งานของโปรแกรมรวบรวมข้อมูลบางอย่างใช้เพื่อคว้า URL ใหม่เท่านั้น (โปรดเรียกพวกเขาว่า URL Grabbers เพื่อความสะดวก) – โปรแกรมรวบรวมข้อมูล URL จะจับลิงก์และ URL ที่ตรวจพบในเว็บไซต์ต่างๆ (รวมถึงลิงก์ที่ชี้ไปยังไซต์ของคุณ) และ URL เก่า/ใหม่ที่ตรวจพบในไซต์ของคุณ นอกจากนี้ยังบันทึกการประทับวันที่ของไฟล์เมื่อพวกเขาเยี่ยมชมเว็บไซต์ของคุณ เพื่อให้สามารถระบุเนื้อหาใหม่หรือหน้าเนื้อหาที่อัปเดต ตัวจับ URL จะเคารพไฟล์ robots.txt และเมตาแท็กของ Robots เพื่อให้สามารถรวม / ไม่รวม URL ที่คุณต้องการ / ไม่ต้องการให้จัดทำดัชนี (หมายเหตุ: URL เดียวกันที่มี ID เซสชันต่างกันจะถูกบันทึกเป็น URL ที่แตกต่างกัน ด้วยเหตุนี้ ทางที่ดีควรหลีกเลี่ยง ID เซสชัน มิฉะนั้นอาจถูกเข้าใจผิดว่าเป็นเนื้อหาที่ซ้ำกัน ตัวจับ URL ใช้เวลาและแบนด์วิธน้อยมากในเว็บไซต์ของคุณ เนื่องจากพวกมัน งานค่อนข้างง่าย อย่างไรก็ตาม โปรดทราบว่าพวกเขาต้องสแกน URL 8 ถึง 10 พันล้านรายการบนเว็บในแต่ละเดือน ไม่ใช่งานเล็ก ๆ น้อย ๆ ในตัวมันเอง แม้แต่สำหรับโปรแกรมรวบรวมข้อมูล 1,000 คน

ตัวจับ URL จะเขียน URL ที่บันทึกด้วยการประทับวันที่และสถานะอื่นๆ ในรายการ URL หลัก เพื่อให้โปรแกรมรวบรวมข้อมูลพิเศษอื่นๆ สามารถจัดทำดัชนีเชิงลึกได้

รายการหลักจะได้รับการประมวลผลและจัดประเภทดังนี้ –

ก) ตรวจพบ URL ใหม่

b) URL เก่าที่มีการประทับวันที่ใหม่

ค) URL ที่เปลี่ยนเส้นทาง 301 & 302

d) URL เก่าที่มีการประทับวันที่แบบเก่า

จ) URL ข้อผิดพลาด 404

ฉ) URL อื่นๆ

การจัดทำดัชนีจริงทำโดย Deep Crawlers (เรียกว่าอะไร) งานของโปรแกรมรวบรวมข้อมูลเชิงลึกคือการเลือก URL จากรายการหลักและรวบรวมข้อมูลแต่ละ URL อย่างเจาะลึกและจับเนื้อหาทั้งหมด – ข้อความ, HTML, รูปภาพ, แฟลช ฯลฯ

ลำดับความสำคัญถูกกำหนดให้กับ ‘URL เก่าที่มีการประทับวันที่ใหม่’ เนื่องจากเกี่ยวข้องกับการจัดทำดัชนีแล้ว แต่เนื้อหาที่อัปเดต ‘301 & 302 redirected URLs’ อยู่ในลำดับความสำคัญรองลงมา ตามด้วย ‘ตรวจพบ URL ใหม่’ มีลำดับความสำคัญสูงสำหรับ URL ที่มีลิงก์ปรากฏในไซต์อื่นหลายแห่ง สิ่งเหล่านี้จัดเป็น URL ที่สำคัญ ไซต์และ URL ที่มีการประทับวันที่และการเปลี่ยนแปลงเนื้อหาเป็นรายวันหรือรายชั่วโมงจะถูกประทับตราเป็นไซต์ข่าวสารซึ่งได้รับการจัดทำดัชนีเป็นรายชั่วโมงหรือแม้แต่รายนาที

การจัดทำดัชนีของ ‘URL เก่าที่มีการประทับวันที่แบบเก่า’ และ ‘URL ข้อผิดพลาด 404’ จะถูกละเว้นโดยสิ้นเชิง ไม่มีการสิ้นเปลืองทรัพยากรในการทำดัชนี ‘URL เก่าที่มีการประทับวันที่แบบเก่า’ เนื่องจากเครื่องมือค้นหามีเนื้อหาที่จัดทำดัชนีแล้ว ซึ่งยังไม่ได้อัปเดต ‘URL ข้อผิดพลาด 404’ คือ URL ที่รวบรวมจากไซต์ต่างๆ แต่เป็นลิงก์เสียหรือหน้าแสดงข้อผิดพลาด URL เหล่านี้ไม่แสดงเนื้อหาใดๆ

URL อื่นๆ อาจมี URL ซึ่งเป็น URL แบบไดนามิก, มีรหัสเซสชัน, เอกสาร PDF, เอกสาร Word, งานนำเสนอ PowerPoint, ไฟล์มัลติมีเดีย ฯลฯ Google จำเป็นต้องดำเนินการกับสิ่งเหล่านี้เพิ่มเติมและประเมินว่ารายการใดที่ควรค่าแก่การจัดทำดัชนีและความลึกเท่าใด อาจจัดสรรงานการจัดทำดัชนีเหล่านี้ให้กับโปรแกรมรวบรวมข้อมูลพิเศษ

เมื่อ Google กำหนดเวลาให้ Deep Crawlers ทำดัชนี URL ใหม่และ URL ที่เปลี่ยนเส้นทาง 301 และ 302 เฉพาะ URL (ไม่ใช่คำอธิบาย) จะเริ่มปรากฏในหน้าผลลัพธ์ของเครื่องมือค้นหาเมื่อคุณเรียกใช้การค้นหา “site:www.domain.com” ใน Google สิ่งเหล่านี้เรียกว่าผลลัพธ์เสริม ซึ่งหมายความว่า Deep Crawlers จะจัดทำดัชนีเนื้อหาโดยเร็วเมื่อโปรแกรมรวบรวมข้อมูลมีเวลาดำเนินการ

เปลี่ยนห้องนั่งเล่นของคุณ – การปรับปรุงบ้าน

Previous article

เคล็ดลับ SEO เว็บไซต์ – เหตุผล 3 อันดับแรกว่าทำไมคุณควรทำ SEO เว็บไซต์

Next article

You may also like

Comments

Comments are closed.