การสร้างไฟล์ robots.txt ไว้ในเว็บไซต์ของเรานั้น เพื่อเป็นการบอกบอทของแต่ละ Search Engine ที่มาเก็บข้อมูลในเว็บไซต์ของเรา ว่าอนุญาตให้บอทของที่ไหนมาเก็บอะไร หรือไม่ให้เก็บข้อมูลอะไรในเว็บไซต์บ้าง อย่างที่เกริ่นไปข้างต้น สำหรับผู้ที่มีเว็บไซต์การสร้างไฟล์ robots.txt ไว้ในเว็บของคุณจะเป็นการบอก บอทของ Search engine ว่า "ไม่ต้องการให้มาเก็บเว็บไซต์ของฉัน หรือไม่ต้องการให้เก็บข้อมูลหน้าบางหน้า หรือไฟล์บางไฟล์ ในเว็บของฉันนะ" ทั้งนี้ก็เพื่อไม่ต้องการให้ข้อมูลเหล่านั้นถูกเก็บไป หรือ index ไว้ในสารระบบ Search Engine
เหตุผลหลักๆ ที่ต้องมีการสร้างไฟล์ robots.txt ก็เพราะต้องการป้องกันไม่ให้ robot ของ Search Engine มาเก็บข้อมูลที่เราไม่ต้องการให้แสดงใน Search Engine นั้น ๆ ซึ่งอาจมีเหตุผลมาจากใน file หรือ folder ในเว็บไซต์นั้นๆ เป็น ความลับหรือเขตหวงห้ามพิเศษ restriction zone/Log-in required zone ที่ไม่อยากให้ Search Engine เข้าไปค้นหาเช่นขอมูลลับของบริษัท ที่ต้อง upload ไปเก็บในเว็บไซต์ เป็นต้น
การเขียนไฟล์ robots.txt
แบบที่ 1ไม่ต้องการให้บอทของทุก Search Engine มาเก็บข้อมูลเขียนคำสั่ง robots.txt ดังนี้ User-agent: * Disallow: / robots.txt
แบบที่ 2ต้องการให้บอทของทุก Search Engine มาเก็บข้อมูล เขียนคำสั่ง robots.txt ดังนี้ User-agent: * Allow: / robots.txt
แบบที่ 3 ต้องการให้บอทของ Search Engine เฉพาะบางที่มาเก็บข้อมูลในเว็บไซต์ได้ ตามตัวอย่าง จะเป็นการอนุญาตให้เฉพาะบอทจาก Google และ MSNเท่านั้น ที่มีสิทธ์เก็บข้อมูลทั้งหมดในเว็บไซต์ของเรา เขียนคำสั่ง robots.txt ดังนี้ User-agent: Googlebot User-agent: msnbot Allow: / robots.txt
แบบที่ 4 ไม่ต้องการให้บอทของทุก Search Engine มาเก็บข้อมูล เฉพาะบางไฟล์ หรือบางโฟลเดอร์ (นอกจากไฟล์หรือโฟลเดอร์ที่ระบุ บอทสามารถเก็บข้อมูลได้) เขียนคำสั่ง robots.txt ดังนี้ User-agent: * Disallow: /foldername Disallow: /filename Disallow: /*.jpg$ (กำหนดให้ไม่ต้องเก็บไฟล์ ที่มีนามสกุล .jpg)ต้องการคำสั่ง robots.txt แบบไหนก็เขียนคำสั่งนั้น ๆ ลงในไฟล์ notepad จากนั้นบันทึกชื่อไฟล์เป็น robots.txt แล้วอัพโหลดไฟล์ไปไว้ที่ root ของ Server เป็นอันเสร็จค่ะ
หมายเหตุเพิ่มเติม แม้ว่าเราสามารถกำหนดเขียนไฟล์ robots.txt ไม่ให้บอทมาเก็บข้อมูลที่เราหวงห้ามแต่การเขียน robots.txt ก็เหมือนดาบ 2 คมเพราะถึงแม้ข้อมูลส่วนนี้จะไม่แสดงบน Search Engine แต่ผู้ไม่หวังดีหรือผู้ที่อยากทดลองเข้ามาแฮกข้อมูลอาจจะต้องการดูว่าในเว็บไซต์เรามีส่วนที่หวงห้ามตรงไหนบ้าง แล้วในส่วนที่เป็นข้อมูลหวงห้าม เราควรจะตั้งการเข้ารหัสเนื้อหาข้อมูล เพื่อความปลอดภัยของข้อมูลด้วยเพื่อป้องกันความเสียหายภายหลัง
Credit : www.thainextstep.com
By : www.SoGoodWeb.com
เจ้าของธุรกิจและผู้ประกอบการแทบทุกคนจะต้องมีเว็บไซต์เพื่อนำเสนอสินค้าและบริการของตัวเอง แต่เพียงแค่การมีเว็บไซต์ไม่เพียงพอ เรื่องสำคัญอย่างยิ่งที่นักการตลาดจะต้องทำความเข้าใจว่าอะไรที่ทำให้คนเข้าสู่เว็บไซต์