Definition of Spidering and Web Crawlers

Spiders & ຕົວທ່ອງເວັບເວັບໄຊທ໌: ສິ່ງທີ່ທ່ານຈໍາເປັນຕ້ອງຮູ້ເພື່ອປົກປ້ອງຂໍ້ມູນເວັບໄຊທ໌

Spiders ແມ່ນໂຄງການ (ຫຼືສະແກນອັດຕະໂນມັດ) ທີ່ 'ກວາດລ້າງ' ຜ່ານເວັບຊອກຫາຂໍ້ມູນ. Spiders ເດີນທາງຜ່ານ URL ເວັບໄຊທ໌ແລະສາມາດດຶງຂໍ້ມູນຈາກຫນ້າເວັບຕ່າງໆເຊັ່ນອີເມວ. Spiders ຍັງຖືກນໍາໃຊ້ເພື່ອໃຫ້ອາຫານຂໍ້ມູນທີ່ພົບຢູ່ໃນເວັບໄຊທ໌ເພື່ອເຄື່ອງຈັກຊອກຫາ.

Spiders, ເຊິ່ງເອີ້ນວ່າ "ຕົວທ່ອງເວັບເວັບໄຊຕ໌" ຄົ້ນຫາເວັບແລະບໍ່ແມ່ນທັງຫມົດທີ່ເປັນມິດໃນຄວາມຕັ້ງໃຈຂອງພວກເຂົາ.

Spammers ເວັບໄຊທ໌ Spider ເພື່ອເກັບກໍາຂໍ້ມູນ

Google, Yahoo!

ແລະເຄື່ອງຈັກຊອກຫາອື່ນໆບໍ່ແມ່ນຜູ້ດຽວເທົ່ານັ້ນທີ່ສົນໃຈໃນການຂຸດຄົ້ນເວັບໄຊທ໌ - ສະນັ້ນແມ່ນນັກຂີ້ເຫຍື້ອແລະຜູ້ສົ່ງອີເມວ.

Spiders ແລະເຄື່ອງມືອື່ນໆອັດຕະໂນມັດຖືກນໍາໃຊ້ໂດຍ spammers ເພື່ອຊອກຫາທີ່ຢູ່ອີເມວ (ໃນອິນເຕີເນັດການປະຕິບັດນີ້ມັກຈະເອີ້ນວ່າ 'ການຂຸດຄົ້ນ') ໃນເວັບໄຊທ໌ແລະນໍາໃຊ້ພວກມັນເພື່ອສ້າງລາຍການສະແປມ.

Spiders ຍັງເປັນເຄື່ອງມືທີ່ນໍາໃຊ້ໂດຍເຄື່ອງຈັກຊອກຫາເພື່ອຊອກຫາຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບເວັບໄຊທ໌ຂອງທ່ານແຕ່ບໍ່ໄດ້ກວດສອບ, ເວັບໄຊທ໌ທີ່ບໍ່ມີຄໍາແນະນໍາ (ຫຼື 'ສິດ') ກ່ຽວກັບວິທີການລວບລວມເວັບໄຊທ໌ຂອງທ່ານສາມາດນໍາສະເຫນີຄວາມສ່ຽງດ້ານຄວາມປອດໄພຂອງຂໍ້ມູນທີ່ສໍາຄັນ. Spiders ເດີນທາງໂດຍການເຊື່ອມຕໍ່ດັ່ງຕໍ່ໄປນີ້, ແລະພວກເຂົາເຈົ້າແມ່ນຫຼາຍທີ່ສຸດໃນການຊອກຫາການເຊື່ອມຕໍ່ກັບຖານຂໍ້ມູນ, ໄຟລ໌ໂຄງການ, ແລະຂໍ້ມູນອື່ນໆທີ່ທ່ານອາດຈະບໍ່ຢາກໃຫ້ພວກເຂົາເຂົ້າເຖິງ.

Webmasters ສາມາດເບິ່ງບັນທຶກເພື່ອເບິ່ງສິ່ງທີ່ແມງມຸມແລະຫຸ່ນຍົນອື່ນໆໄດ້ໄປຢ້ຽມຢາມເວັບໄຊທ໌ຂອງພວກເຂົາ. ຂໍ້ມູນນີ້ຊ່ວຍໃຫ້ຜູ້ເບິ່ງແຍງລະບົບຮູ້ວ່າໃຜກໍາລັງ indexing ເວັບໄຊທ໌ຂອງພວກເຂົາແລະເລື້ອຍໆ.

ຂໍ້ມູນນີ້ແມ່ນເປັນປະໂຫຍດເນື່ອງຈາກວ່າມັນຊ່ວຍໃຫ້ຜູ້ຄຸ້ມຄອງເວັບປັບປຸງປັບປຸງ SEO ຂອງເຂົາເຈົ້າແລະປັບປຸງໄຟລ໌ robot.txt ເພື່ອຫ້າມຫຸ່ນຍົນທີ່ແນ່ນອນຈາກການລວບລວມເວັບໄຊທ໌ຂອງເຂົາເຈົ້າໃນອະນາຄົດ.

ເຄັດລັບໃນການປົກປ້ອງເວັບໄຊທ໌ຂອງທ່ານຈາກຕົວລ້າໆຫຸ່ນຍົນທີ່ບໍ່ຕ້ອງການ

ມີວິທີທີ່ງ່າຍດາຍທີ່ຈະເຮັດໃຫ້ຕົວກວາດເວັບທີ່ບໍ່ຕ້ອງການອອກຈາກເວັບໄຊທ໌ຂອງທ່ານ. ເຖິງແມ່ນວ່າທ່ານບໍ່ໄດ້ກັງວົນກ່ຽວກັບ spider malicious ຂ້ອນຂ້າງກວາດເວັບໄຊທ໌ຂອງທ່ານ (ທີ່ຢູ່ອີເມວທີ່ບໍ່ສໍາຄັນຈະບໍ່ປົກປ້ອງທ່ານຈາກຕົວທ່ອງເວັບສ່ວນໃຫຍ່), ທ່ານຍັງຈໍາເປັນຕ້ອງໃຫ້ເຄື່ອງມືຄົ້ນຫາມີຄໍາແນະນໍາທີ່ສໍາຄັນ.

ເວັບໄຊທ໌ທັງຫມົດຄວນມີໄຟລ໌ທີ່ຢູ່ໃນຮາກທີ່ເອີ້ນວ່າໄຟ robots.txt. ໄຟລ໌ນີ້ອະນຸຍາດໃຫ້ທ່ານແນະນໍາຕົວທ່ອງເວັບເວັບໄຊຕ໌ທີ່ທ່ານຕ້ອງການໃຫ້ເບິ່ງຫນ້າດັດສະນີ (ເວັ້ນເສຍແຕ່ໄດ້ລະບຸໄວ້ໃນຂໍ້ມູນ meta ຂອງຫນ້າທີ່ສະເພາະໃດຫນຶ່ງທີ່ບໍ່ມີດັດສະນີ) ຖ້າພວກເຂົາເປັນເຄື່ອງຈັກຊອກຫາ.

ເຊັ່ນດຽວກັນກັບທ່ານສາມາດບອກຄວາມຕ້ອງການຂອງນັກຊ່ຽວຊານທີ່ຕ້ອງການໃຫ້ພວກເຂົາຄົ້ນຫາ, ທ່ານຍັງສາມາດບອກພວກເຂົາວ່າພວກເຂົາເຈົ້າອາດຈະບໍ່ໄປແລະແມ້ກະທັ້ງຜູ້ລວບລວມຂໍ້ມູນຈາກເວັບໄຊທ໌ຂອງທ່ານທັງຫມົດ.

ມັນເປັນສິ່ງສໍາຄັນທີ່ຄວນລະວັງວ່າໄຟລ໌ robots.txt ທີ່ດີຈະມີມູນຄ່າຫລາຍສໍາລັບເຄື່ອງຈັກຊອກຫາແລະເຖິງແມ່ນວ່າມັນຈະເປັນສິ່ງສໍາຄັນໃນການປັບປຸງການປະຕິບັດເວັບໄຊທ໌ຂອງທ່ານແຕ່ບາງຄົນທີ່ລວບລວມຂໍ້ມູນຂອງຫຸ່ນຍົນຈະຍັງບໍ່ສົນໃຈຄໍາແນະນໍາຂອງທ່ານ. ສໍາລັບເຫດຜົນນີ້, ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຮັກສາຊອບແວ, plugins ແລະແອັບຯຂອງທ່ານທຸກວັນ.

ບົດຄວາມທີ່ກ່ຽວຂ້ອງແລະຂໍ້ມູນ

ເນື່ອງຈາກອັດຕາສ່ວນການເກັບກ່ຽວຂໍ້ມູນທີ່ໃຊ້ໃນການຂີ້ເຫຍື້ອ (spam), ກົດຫມາຍໄດ້ຖືກສົ່ງຜ່ານໃນປີ 2003 ເພື່ອເຮັດໃຫ້ການປະຕິບັດບາງຢ່າງທີ່ຜິດກົດຫມາຍ. ກົດຫມາຍວ່າດ້ວຍການປົກປ້ອງຜູ້ບໍລິໂພກເຫຼົ່ານີ້ຕົກຢູ່ພາຍໃຕ້ກົດຫມາຍ CAN-SPAM ຂອງປີ 2003.

ມັນເປັນສິ່ງສໍາຄັນທີ່ທ່ານໃຊ້ເວລາໃນການອ່ານກ່ຽວກັບກົດຫມາຍວ່າດ້ວຍ CAN-SPAM ຖ້າທຸລະກິດຂອງທ່ານເຂົ້າຮ່ວມໃນການສົ່ງຈົດຫມາຍຫລືການເກັບກ່ຽວຂໍ້ມູນ.

ທ່ານສາມາດຊອກຮູ້ເພີ່ມເຕີມກ່ຽວກັບກົດຫມາຍຕ້ານທານສະແປມແລະວິທີການຈັດການກັບຜູ້ສົ່ງອີເມວ, ແລະສິ່ງທີ່ເຈົ້າເປັນເຈົ້າຂອງທຸລະກິດອາດຈະບໍ່ເຮັດ, ໂດຍອ່ານບົດຄວາມຕໍ່ໄປນີ້: