Google Axtarış necə işləyir?

Google Axtarış indeksimizə əlavə olunacaq səhifələri tapmaq üçün müntəzəm olaraq interneti tədqiq edən veb taramaçılar kimi tanınan proqram təminatından istifadə edən tam avtomatlaşdırılmış axtarış motorudur. Əslində, nəticələrimizdə sadalanan səhifələrin böyük əksəriyyəti daxil edilmək üçün əl ilə təqdim edilmir, lakin veb brauzerlərimiz interneti araşdırdıqda avtomatik olaraq tapılır və əlavə edilir.

Web crawler nədir?

Veb tarayıcısı və ya hörümçək, adətən Google və Bing kimi axtarış motorları tərəfindən idarə olunan bir bot növüdür. Onların məqsədi bütün İnternetdəki vebsaytların məzmununu indeksləşdirməkdir ki, həmin vebsaytlar axtarış motoru nəticələrində görünə bilsin.

Google Axtarışın üç mərhələsini təqdim edirik

Google Axtarış üç mərhələdə işləyir və bütün səhifələr hər mərhələdən keçmir:

1. Tarama: Google brauzerlər adlanan avtomatlaşdırılmış proqramlarla internetdə tapdığı səhifələrdən mətn, şəkillər və videoları yükləyir.

2. İndeksləmə: Google səhifədəki mətn, şəkillər və video faylları təhlil edir və məlumatları böyük verilənlər bazası olan Google indeksində saxlayır.

3. Axtarış nəticələrini təqdim etmək: İstifadəçi Google-da axtarış etdikdə, Google istifadəçinin sorğusuna uyğun olan məlumatları qaytarır.

Crawling

Birinci mərhələ internetdə hansı səhifələrin mövcud olduğunu öyrənməkdir. Bütün veb səhifələrin mərkəzi reyestri yoxdur, ona görə də Google daim yeni və yenilənmiş səhifələr axtarmalı və onları məlum səhifələr siyahısına əlavə etməlidir. Bu proses "URL kəşfi" adlanır. Bəzi səhifələr tanınır, çünki Google onları artıq ziyarət edib. Google məlum səhifədən yeni səhifəyə keçidi izlədikdə digər səhifələr aşkarlanır: məsələn, kateqoriya səhifəsi kimi mərkəz səhifəsi yeni blog yazısına keçid verir. Google-un taraması üçün səhifələrin siyahısını (sayt xəritəsi) təqdim etdiyiniz zaman başqa səhifələr aşkar edilir.

Google bir səhifənin URL-sini aşkar etdikdən sonra orada nə olduğunu öyrənmək üçün səhifəyə baş çəkə (və ya "sürüyə") bilər. İnternetdə milyardlarla səhifəni taramaq üçün çoxlu kompüterlərdən istifadə edirik. Göndərməni həyata keçirən proqram Googlebot adlanır (həmçinin tarama, robot, bot və ya hörümçək kimi tanınır). Googlebot hansı saytların taranacağını, nə qədər tez-tez və hər bir saytdan neçə səhifənin götürüləcəyini müəyyən etmək üçün alqoritmik prosesdən istifadə edir. Google-un tarayıcıları da elə proqramlaşdırılıb ki, saytı həddən artıq yükləməmək üçün onu çox sürətlə taramamağa çalışırlar. Bu mexanizm saytın cavablarına əsaslanır (məsələn, HTTP 500 xətaları "yavaşlamaq" deməkdir).

Bununla belə, Googlebot kəşf etdiyi bütün səhifələri taramır. Bəzi səhifələrin sayt sahibi tərəfindən taramasına icazə verilə bilər, digər səhifələr isə sayta daxil olmadan əlçatan olmaya bilər.

Sitemaps haqqında məlumat əldə edin

Sayt xəritəsi saytınızdakı səhifələr, videolar və digər fayllar və onlar arasındakı əlaqələr haqqında məlumat verdiyiniz fayldır. Google kimi axtarış motorları saytınızı daha səmərəli taramaq üçün bu faylı oxuyur. Sayt xəritəsi axtarış motorlarına saytınızda vacib hesab etdiyiniz səhifə və faylları bildirir və həmçinin bu fayllar haqqında dəyərli məlumat verir. Məsələn, səhifənin sonuncu dəfə yeniləndiyi vaxt və səhifənin istənilən alternativ dil versiyaları.

İndeksləmə

Səhifə tarandıqdan sonra Google səhifənin nə haqqında olduğunu anlamağa çalışır. Bu mərhələ indeksləşdirmə adlanır və ona mətn məzmununun və əsas məzmun teqlərinin və atributlarının, məsələn, <title> elementləri və alt atributlar, şəkillər, videolar və s. emalı və təhlili daxildir.

İndeksləmə prosesi zamanı Google bir səhifənin internetdəki başqa bir səhifənin dublikatı və ya kanonik olduğunu müəyyən edir. Kanonik olanı seçmək üçün əvvəlcə internetdə tapdığımız oxşar məzmuna malik səhifələri qruplaşdırırıq (həmçinin qruplaşma kimi tanınır), sonra isə qrupun ən çox təmsilçisi olanı seçirik. Qrupdakı digər səhifələr müxtəlif kontekstlərdə təqdim oluna bilən alternativ versiyalardır, məsələn, istifadəçi mobil cihazdan axtarış edirsə və ya həmin klasterdən çox xüsusi səhifə axtarırsa.

İndeksləmə həm də səhifənin məzmunundan və onun metadatasından asılıdır. Bəzi ümumi indeksləşdirmə problemlərinə aşağıdakılar daxil ola bilər:

• Səhifədəki məzmunun keyfiyyəti aşağıdır

• Robotların meta qaydaları indeksləşdirməyə icazə vermir

• Veb saytın dizaynı indeksləşdirməni çətinləşdirə bilər

İstinadlar:

https://developers.google.com/search/docs/fundamentals/how-search-works

https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview

https://www.cloudflare.com/learning/bots/what-is-a-web-crawler/

https://youtu.be/8QeU97wWomQ?si=4Mu3zNjAv4voY_O1

Müəllif: Heydər Muxtarlı

Əlavə keçid