Google Index Là Gì? Cách Google Lập Chỉ Mục Website Của Bạn

Google Index là gì? Lý do nào khiến website của bạn bị chậm index? Có những cách nào để giúp website cải thiện được tốc độ index. Đây đều là những câu hỏi mà chắc các bạn làm SEO vần thường nhận được trong suốt quá trình làm việc của mình. Nhưng liệu bạn có chắc rằng mình đã hiểu rõ một cách tường tận về thuật ngữ này chưa. Hãy để VietMoz thông qua bài viết này giúp bạn giải đáp các vướng mắc về vai trò cũng như tầm quan trọng của Google Index trong SEO nhé.

Index là gì?

Index được hiểu là chỉ mục – đây là hệ thống gồm tập hợp các thông tin, được sắp xếp, phân loại theo một quy luật cụ thể nhằm mục đích hỗ trợ cho việc tra cứu thông tin trở nên nhanh chóng, dễ dàng và hiệu quả. Một cách hiểu đơn giản hơn thì Index là một tập hợp cơ sở dữ liệu, được sắp xếp theo từng chỉ mục riêng trên hệ thống máy chủ của Google thông qua các thuật toán.

Google Index là gì?

Dựa vào khái niệm trên thì Google Index có thể hiểu là quá trình mà Google thu thập, phân tích, đánh giá dữ liệu của các website và dựa vào đó trả lại các kết quả trùng khớp nhất với truy vấn của người dùng.

Nếu trong trường hợp trang web không được Google Index thì cũng đồng nghĩa website đó sẽ không thể xuất hiện trên kết quả tìm kiếm Google.

Ví dụ: 

Như việc bạn sắp xếp quần áo theo từng ngăn tủ riêng, khi cần dùng có thể dễ dàng lấy ra thì với Google các dữ liệu cũng như vậy. Những dữ liệu của website được Google thu thập trong quá trình index, các dữ liệu này sẽ được chia nhỏ và phân loại theo từng chuyên mục, chủ đề, lĩnh vực… Từ đó Google đánh giá xếp hạng các website và trả về các kết quả tìm kiếm phù hợp nhất dựa trên truy vấn tìm kiếm của người dùng.

Ngược lại nếu các dữ liệu của website không được Google thu thập và lập chỉ mục thì sẽ không thể xuất hiện trên Google cho dù bạn có cố gắng tìm kiếm chúng đi nữa.

Một số thuật ngữ liên quan đến Index

SERP: Là viết tắt của Search Engine Results Page là các kết quả hiển thị trên trang tìm kiếm khi người dùng search một từ khóa nào đó.

Crawl: Thuật ngữ này dùng để ám chỉ quá trình các Googlebot tìm kiếm, thu thập các dữ liệu và đưa trở về hệ thống lưu trữ dữ liệu trên máy chủ Google.

Googlebot (hay Spiders): Chúng là những thuật ngữ được dùng để chỉ những con bọ tìm kiếm của Google. Những con bọ này được sinh ra có nhiệm vụ thu thập tất cả các dữ liệu có trên website về cho Google.

Hệ lụy từ việc website không được index

Thứ hạng trên Google luôn thay đổi theo từng giờ từng phút, chỉ có 10 kết quả hàng đầu mới giúp bạn tiếp cận được người dùng tốt nhất. Chỉ 10 vị trí nhưng có đến hàng trăm ngàn người cạnh tranh nhau, chưa nói đến việc website có được lên top không chỉ riêng việc website không được lập chỉ mục để xuất hiện trên công cụ tìm kiếm cũng đồng nghĩa với việc không một ai có thể tìm kiếm được các thông tin mà bạn có trên website của mình.

Do vậy, việc trang web được Google lập chỉ mục không chỉ giúp website có cơ hội vào top 10 mà còn giúp tiếp cận người dùng dễ dàng hơn.

Quá trình để website được google index

Phụ thuộc vào nhiều yếu tố khác nhau như lượng người dùng, tuổi đời website, cấu trúc website, liên kết nội bộ,… mà quá trình index có thể diễn ra nhanh hay chậm. Nhưng nhìn chung tiến trình này sẽ phải trải qua 3 bước sau:

Bước 1: Thu thập thông tin

Google sẽ tiến hành sử dụng các spider thu thập dữ liệu từ nhiều nguồn khác nhau trên internet như từ chính website, cơ sở dữ liệu trên internet,… Khi phát hiện được một URL mới các spider sẽ truy cập vào đó và quét nội dung của toàn bài hoặc cả website.

Bước 2: Lập chỉ mục (Index)

Quá trình này Google sẽ bắt đầu đọc và phân loại dữ liệu trên trang web và lưu vào bộ nhớ của Google.

Bước 3: Phân phát nội dung

Khi này, mỗi khi người dùng tìm kiếm một truy vấn nào đó trên google, nó sẽ quét và tìm kiếm những câu trả lời phù hợp nhất với ý định tìm kiếm của người dùng từ các URL đã thu thập được và trả lại kết quả cho người dùng.

Thời gian đến để URL được index và xuất hiện trên Google sẽ có thể là từ vài giờ cho đến vài tuần thậm chí là cả tháng.

Cách kiểm tra Google đã index website của bạn hay chưa

Để kiểm tra xem website hay URL đã được index hay chưa thì có rất nhiều cách, nhưng phổ biến và dễ dàng nhất thì bạn có thể dùng 3 cách sau:

Cách 1: Kiểm tra trong Google Search Console

Bạn chỉ cần nhập vào thanh tìm kiếm trên cùng của công cụ URL cần kiểm tra, kết quả sẽ được trả lại như hình nếu URL đã được lập chỉ mục. Còn nếu kết quả trả về là “URL in not on Google” như dưới đây thì có nghĩa URL vẫn chưa được lập chỉ mục:

Trường hợp URL đã được google index thành công:

Cách 2: Sử dụng toán tử “site:domain ”

Các bạn vào trang tìm kiếm Google, nhập vào thanh tìm kiếm cú pháp bên trên thay domain bằng website của mình.

Ví dụ ở đây tôi thay bằng domain bằng vietmoz.edu.vn. Kết quả trả về sẽ là 525 kết quả liên quan đến website của tôi.

Tương tự nếu như bạn cần kiểm tra trạng thái lập chỉ mục của URL thì bạn thay domain thành url cần kiểm tra là được.

Cách 3: Sử dụng Add-on SEOquake

Add-on này thì chắc đã quá quen thuộc với các bạn làm trong ngành digital marketing này rồi, đặc biệt là các bạn trong ngành SEO. Nhưng tôi vẫn sẽ giới thiệu sơ qua cho những bạn chưa biết đến công cụ này.

SEOquake là một add-on SEO miễn phí được tích hợp trên nhiều nền tảng trình duyệt như Google Chrome, Microsoft Edge, Mozilla Firefox, Opera,… Sở hữu giao diện đơn giản, thân thiện với người dùng cùng với khả năng tối ưu onpage khá mạnh mẽ nên công cụ này rất được lòng các SEOer kể cả là người mới.

Để cài đặt SEOquake cũng rất đơn giản, ví dụ với trình duyệt Google Chrome thì bạn có thể truy cập vào “cửa hàng Chrome” tìm ứng dụng SEOquake chọn “Thêm vào Chrome”. Cách khác, bạn có thể gõ tìm kiếm “SEOquake” trên Google và click vào kết quả đầu tiên là được.

Sau khi công cụ đã được thêm vào trình duyệt, biểu tượng SEOquake sẽ xuất hiện ở góc trên cùng bên phải bên cạnh thanh tìm kiếm. Khi này, bạn click vào biểu tượng để xem các chỉ số về onpage cũng như index của website.

Những nguyên nhân khiến website không thể index

Website có chứa thẻ noindex

Sử dụng thẻ meta robots noindex là cách website thông báo với Googlebot rằng một trang nào đó thuộc website của bạn không cần được lập chỉ mục.

Vị trí của thẻ này được đặt sau phần <head> của website. Có 2 dạng thẻ noindex thường xuyên đực sử dụng đó là:

  • <meta name=”robots” content=”noindex, nofollow”> :Khi trang web đặt thẻ này, các Spiders không thể tìm kiếm hay theo dấu những liên kết có trong trang này.
  • <meta name=”robots” content=”noindex, follow”> => Các trang có thẻ này Googlebit vẫn có  thể theo dấu được một số liên kết, nhưng trang web vẫn sẽ không được xuất hiện trên kết quả tìm kiếm.

Vì vậy trong trường hợp vô tình website của bạn có một hay vài trang web không được Google index thì hãy kiểm tra xem bạn có vô tình đặt thẻ noindex ở các trang này hay không. 

Lời khuyên của tôi là bạn không nên đặt bất kỳ một thẻ noindex nào website của mình hết trừ khi có một trang thuộc website mà bạn không muốn google lập chỉ mục thì mới nên đặt thẻ noindex, còn không thì đừng làm gì cả!

Chặn Index bằng file robots.txt

File robot.txt là một tệp tin văn bản nằm trong thư mục gốc của website. Nhiệm vụ của tệp này là cung cấp các hướng dẫn cho công cụ tìm kiếm thu thập thông tin về các trang mà Googlebot có thể thu thập và lập chỉ mục.

Cấu trúc của file robots.txt sẽ bao gồm các phần:

User-agent: Tên của các trình thu thập dữ liệu web (googlebot, googlebot-image, bingbot,…)

Disallow: Thông báo cho các User-agent không thu thập dữ liệu URL nào đó. Mỗi một dòng disallow chỉ được gắn 1 URL.

Allow: Lệnh thông báo cho googlebot rằng nó sẽ truy cập vào một trang hay thư mục con (chỉ sử dụng cho Googlebot).

Crawl-delay: Thông báo cho trình thu thập phải chờ bao giây trước khi được tải và thu thập dữ liệu trang.

Sitemap :Dùng để cung cấp các vị trí của bất kì sitemap.xml nào được liên kết với URL này (chỉ áp dụng trên Google, Ask, Bing và Yahoo)

Để chặn tất cả các web crawler không được thu thập bất kỳ dữ liệu nào trên website kể cả trang chủ, ta dùng cú pháp sau:

Ngược lại để cho phép tất cả các trình thu thập được thu thập dữ liệu trên web ta chỉ cần bỏ dấu “/” đi:

Chặn Googlebot thu thập bất kỳ trang nào chứa tiền tố URL: www.example.com/abc/

Chặn Index từ file .htaccess

File .htaccess ngoài các công dụng như chuyển hướng người dùng tự động, chỉnh lỗi chính tả,… thì còn sử dụng để chặn index cũng là cách rất hiệu quả với bất kỳ website nào. Nếu như trang web của bạn đang gặp vấn đề trong việc lập chỉ mục Google thì đây cũng có thể là một trong những nguyên nhân mà bạn nên kiểm tra thử.

Tăng khả năng index cho website

1. Khai báo URL/domain bằng Google Search Console

Để khai báo URL hoặc domain bạn sử dụng tài khoản quản trị của website truy cập vào công cụ Google Search Console (GSC).

Trong trường hợp tài khoản GSC chưa được liên kết với website thì bạn có thể tham khảo bài viêt này để liên kết website với GSC:

  • Google Search Console: Hướng dẫn đầy đủ nhất (2021)

Hoặc nếu website của bạn sử dụng mã nguồn wordpress thì có thể sử dụng các plugin như Yoast SEO, Rank Math hoặc Site Kit by Google để kết nối với GSC.

Khi website đã được kết nối với Search Console, các bạn truy cập vào công cụ GSC:

Mục 1: Nhập URL cần khai báo vào ô tìm kiếm. 

Mục 2: Nếu kết quả trả về là “URL nằm trên Google” thì có nghĩa URL đã được google index thành công. Ngược lại nếu kết quả là “URL không nằm trên Google” thì click vào “Yêu cầu lập chỉ mục” để khai báo với Google.

2. Khai báo sitemap.xml

Sitemap.xml bạn có hiểu nó như một tấm bản đồ của website được tạo ra để điều hướng googlebot crawling trên website, từ đó giúp việc thu thập và lập chỉ mục của trang web trở lên hiệu quả hơn.

Đối với các mã nguồn mở như wordpress bạn có thể dễ dàng tạo và khai báo sitemap của website một cách dễ dàng nhờ vào các plugin, phổ biến nhất được dùng là Yoast SEO và Rank Math. Cả 2 công cụ này đều có thể giúp bạn tạo và khai báo sitemap một cách hoàn toàn tự động.

Ví dụ website của tôi đang sử dụng plugin rank math thì sau khi các bạn đã cài đặt hoàn thành các bước liên kết với GSC ban đầu. Công cụ này sẽ tự động tạo một sitemap gửi lên google thông qua liên kết với GSC.

Sitemap được tạo tự động sẽ có dạng https://domain.com/sitemap_index.xml

Để kiểm tra xem sitemap đã được khai báo hay chưa bạn vào công cụ Google Search Console trong mục “Sơ đồ trang web”. Trong mục này bạn sẽ thấy lịch sử các lần gửi sitemap thành công hay thất bại.

Ngoài ra bạn cũng có thể khai báo sitemap thủ công bằng cách:

  • Nhập “sitemap_index.xml” vào ô “Thêm sơ đồ trang web mới” để hoàn thành URL sitemap và nhấn gửi

Tối ưu các internal link trên website

Bằng cách tận dụng các bài viết có traffic tốt dẫn link nội bộ về các bài viết cần được index thông qua những từ khóa liên quan sẽ giúp các googlebot nhanh chóng phát hiện các URL mới và tiến hành index chúng.

3. Tối ưu backlinks

Backlinks hay những liên kết ngoài trỏ về website cũng là một trong các yếu tố giúp Google đánh giá chất lượng website và tăng khả năng index. Do đó, bạn có thể tận dụng những backlinks từ các site uy tin được Google đánh giá cao để đặt liên kế trỏ về website của mình.

4. Sử dụng các trang mạng xã hội và web 2.0

Đây là cách được sử dụng khá phổ biến hiện nay. Bằng cách share link bài viết lên các trang social như facebook, twitter,… hoặc web 2.0 như blogspot sẽ tạo thêm các được link dẫn dắt googlebot về website của bạn

5. Tối ưu Internal link trang web

Như tôi đã nói googlebot hoạt động theo cách thức link to link. Tức khi trong bài viết có đặt những anchor text liên kết trỏ sang cá bài khác trên website, những con bọ sẽ truy cập thông qua văn bản neo đó sang bài viết được liên kết để crawl.

Mặc định mỗi bài viết đã được index trên web sẽ có riêng một con bot và định kỳ (hoặc khi  được gọi) chúng sẽ đến crawl lại bài viết. Nếu trong bài có một liên kết mới spider sẽ chui vào và quét bài biết được liên kết đó.

Nhìn chung, điều này cũng khá giống với backlinks điểm khác biệt có thể xem ở đây với internal link sẽ là quan hệ xoay vòng khi các bài viết được liên kết chặt chẽ với nhau, googlebot trên web sẽ di chuyển xoay vòng để toàn bộ các bài. Còn với backlink nó giống quan hệ vay mượn hơn, trang web của bạn mượn bot của website để tạo tìn hiệu index.

6. Sử dụng các công cụ Ping

Mức độ hiệu quả của phương pháp này hiện nay không phải quá cao nhưng ít nhất nó cũng giúp website cải thiện khả năng index phần nào đó. Có khá nhiều công cụ hỗ trợ bạn có thể tham khảo một vài cái tên như: addurl.nu, pingfarm.com,…

Tham khảo thêm bài viết: 30 công cụ tăng tốc độ index Google

7. Chạy Ads cho URL

Cho đến hiện tại thì theo tôi đây là phương pháp hiệu quả nhất. Bạn chỉ cần chi ra một khoản nhỏ trong ngân sách quảng cáo (khoảng 50 – 100k) chạy các từ khóa có CPC thấy và lượng search ở mức ổn chút để tăng lượng truy cập vào website. Điều này cũng giúp quá trình index diễn ra một nhanh chóng nhất.

8. Kết nối Google News cho website

Nổi nên trong các hội nhóm về SEO trên Facebook vào nửa cuối năm 2020. Xuất bản website trên Google news có thể được xếp vào hàng top những phương pháp giúp tăng khả năng index nhanh nhất mà bạn có thể thử.

Chi tiết cách kết nối website với google news chúng ta sẽ không đề cập đến trong bài chia sẻ này. Nhưng đừng lo, tôi sẽ có riêng một bài khác để hướng dẫn các bạn các đưa website của mình nên đề xuất của google tin tức, hãy cùng đón chờ nhé.

9. Đặt Link URL tại các trang có nhiều traffic trên website

Như tôi đã nói ở phần tối ưu internal link, mỗi website đều sở hưu một con bot riêng để crawl dữ liệu của web đó. Một khác quan trọng ảnh hưởng đến khả năng bot vào quét là người dùng truy cập. Đúng là Googlebot sẽ định kỳ quét lại nội dung bài viết, nhưng đó chỉ là khi trang web của bạn sở hữu ít nội dung, còn nếu trường hợp web có hàng trăm, nghìn bài viết thì Googlebot không thể mỗi lần quét hết cả trang web được, các bot sẽ chỉ ưu tiên các nội dung có người truy cập và các nội dung mới. Vậy nếu bạn cập nhật lại các nội dung cũ thì làm cách nào để gọi bot vào quét.

Một cách khá hiệu quả có thể giúp cho bạn trong trường hợp này đó là đặt các liên kết cần gọi bot vào nhưng bài viết đang có lượng lớn người dùng truy cập, hoặc cách khác là bạn có thể gắn trực tiếp các url này vào trang chủ website nơi có lượng người dùng truy cập nhiều nhất trang.

Một số vị trí đặt link có thể như sitebar, dưới footer, hoặc trong code,… bạn hoàn toàn có thể để ẩn chúng đi để khách truy cập không thể nhìn thấy, bởi mục đích chúng ta làm vậy cũng chỉ là để gọi bot vào crawl những url đó.

10. Sử dụng các dịch vụ index

Cách cuối cùng dành cho những bạn dư dả về tài chính và cũng là cách chắc ăn nhất giúp website index là nhờ tới các dịch vụ hỗ trợ index. Thường những dịch vụ này họ sẽ có những cam kết và bảo dảm cho chúng ta là index được bao nhiêu % nên bạn có thể yên tâm hoàn toàn.

Tại sao website chậm được index

Cấu trúc website

Một trong những lỗi hay gặp nhất khiến cho website của bạn chậm được Google index là do cấu trúc website hay cấu trúc code không đặt chuẩn. Việc này gây khó khăn cho các Googlebot crawl dữ liệu trên website khi mà các phân vùng và nội dung bị sắp xếp chằng chịt không có khóa học. Điều này sẽ khiến website không được Google đánh giá cao đồng nghĩa với việc index chậm.

Do đó, việc có một cấu trúc website rõ ràng, được sắp xếp khoa học sẽ không chỉ giúp bạn cải thiện các chỉ số tối ưu về Onpage mà còn giúp các Googlebot dễ dàng trong việc phân loại và lập chỉ mục website.

Lưu ý trong việc cấu trúc website

  • Phân cấp website không nên tạo quá 3 mức như: https://example.com/cap1/cap2
  • Xây dựng các URL để điều hướng những phân cấp đã lập đó
  • Tạo các điều hướng trong HTML/ CSS
  • Tạo 1 menu trên Header để liệt kê các mục chính của website
  • Tối ưu chuỗi liên kết nội bộ trên website

Lưu lượng truy cập website

Dựa vào các yếu tố như số lượng, tốc độ tiếp cận người dùng nhanh hay chậm, Googlebot cũng có thể dựa vào đó để lập chỉ mục website của bạn nhanh hay chậm.

Tuổi đời domain

Đây là trong 200 yếu tố xếp hạng website được đã được Google đưa ra. Thực tế cho thấy hầu hết những link từ các domain có tuổi đời lâu thường chất lượng và được Google ưu tiên index nhanh hơn.

Tốc độ load trang

Tiếp tục là một trong các yếu tố xếp hạng của Google, thậm chí yếu tố này còn có ảnh hưởng lớn hơn cả chỉ số “tuổi đời website”. Để lập chỉ mục cho trang, các spiders sẽ phải quét toàn bộ nội dung trên trang của bạn. Nếu thời gian load trang quá lâu, mặc định trang đó sẽ bị bỏ qua đồng nghĩa với việc không được Google index.

Nội dung cập nhật

Google luôn ưa thích các nội dung mới mẻ và được cập nhật thường xuyên. Những trang web có các nội dung mới mẻ được cập nhật thường xuyên sẽ nhận được sự ưu tiên của các googlebot.

Duplicate content

Các bài viết trên website có nội dung trùng lặp với các website/đường dẫn khác cũng là dấu hiệu có thể khiến quá trình index trên trang web chậm lại.

Internal link

Số lượng liên kết nội bộ trên website thể hiện cho sự liên quan chặt chẽ giữa các trang web trên cùng hệ thống website với nhau. Các liên kết nội bộ được xây dựng khoa học sẽ giúp quá trình thu thập dữ liệu và lập chỉ mục của Googlebot diễn ra trơn tru nhanh chóng nhất.

Mức độ nhận diện thương hiệu

Cũng tương tự như tuổi đời domain, những thương hiệu thường xuyên được người dùng tìm kiếm và đánh giá tốt sẽ càng được index nhanh.

Chưa khai báo cho công cụ tìm kiếm

Trường hợp này thường sẽ gặp nhiều ở các website mới, khi đó googlebot không thể tìm được trang web. Lúc này bạn sẽ phải chủ động khai báo cho công cụ tìm kiếm bằng một trong các cách ở phần trên.

Website có các trang 404

Lỗi này thường xảy ra do người dùng nhập sai URL hoặc do bài viết đó đã được bị đổi URL nhưng chưa được chuyển hướng 301 từ URL cũ sang URL mới. Khí đó các Spiders sẽ không thể truy cập được vào URL cũ đã được index dẫn đến trang web báo lỗi 404.

Để khắc phục tình trạng này sẽ có 2 hướng giải quyết:

Nếu bài viết đó đã được bạn thay đổi URL thì bạn chỉ cần làm thao tác chuyển hướng URL cũ sang URL mới. Sau đó xóa index URL cũ bằng tính năng “Xóa URL” trong Google Search Console.

Đầu tiên bạn truy cập vào tài khoản Google Search Console kết nối với website. Chọn chức năng “Xóa URL” -> Chọn “Yêu cầu mới”.

Tiếp theo Google cho bạn 2 lựa chọn là:

Chặn tạm thời URL: Lựa chọn này sẽ không xóa hoàn toàn URL trên kết quả tìm kiếm mà chỉ chặn không cho hiển thị trong khoảng 6 tháng.

Xóa URL đã lưu trong bộ nhớ đệm: Lựa chọn này cho phép bạn giữ lại url trên kết quả tìm kiếm nhưng sẽ xóa hoàn toàn các đoạn trí và phiên bản trong bộ nhớ đệm của Google cho đến lần thu thập tiếp theo.

Tiếp theo lựa chọn nhập chỉ xóa 1 url hoặc xóa tất cả url có cùng tiền tố, ví dụ:

Xóa 1 URL: Bạn nhập vào “https://example.com/blog/abc” thì sẽ chỉ có duy nhất URL này bị xóa.

Xóa tất cả URL có tiền tố này: Bạn nhập vào “https://example.com/blog/” thì Google sẽ xóa toàn bộ bài viết có URL cùng tiền tố “https://example.com/blog/”.

Sau khi nhập xong bạn nhấn “Tiếp” để tiến hành gửi URL đi.

URL bị chặn Index

Trong trường hợp này có thể URL của bạn gặp 1 trong số các lỗi như bị chặn trong file robot.txt, URL có thẻ noindex hoặc bị chặn bởi .htaccess. Để xác định chính xác nhất bạn cần truy cập vào Google Search Console, trong mục “Phạm vị lập chỉ mục” để kiểm tra tình trạng index của các URL trên website như nào.

Ở đây nếu trên website có bất kỳ URL nào gặp vấn đề trong quá trình lập chỉ mục sẽ được liệt kê tại đây. Nếu có, bạn tiến hành sửa chữa, nếu không, trang này đang trong tình trạng xếp hàng đợi index. Bạn có thể sử dụng các phương pháp hỗ trợ tăng tốc độ index như đã nêu ở trên để quá trình diễn ra nhanh chóng hơn.

Tổng kết

Trên đây là tổng hợp toàn bộ những thông tin về khái niệm, quá trình google index, giải pháp tăng khả năng index, nhũng nguyên nhân làm chậm quá trình lập chỉ mục và hướng xử lý mà bạn cần nắm được. Hy vọng rằng những chia sẻ trong bài viết này thực sự hữu ích với các bạn đang và sắp làm SEO hiểu thêm được về Google Index.

Từ khóa » Chặn Google Index