Thông tin dưới đây tới từ 3 nguồn khác nhau. Thứ nhất là từ báo cáo của Bloomberg, trang đã làm rộ tin vào ngày hôm qua. Thứ hai là từ thông tin mà Google trưc tiếp cung cấp cho Search Engine Land. Và cuối cùng là dựa kiến thức của chúng tôi để đưa ra những dựa đoán về nó. Chúng tôi đã làm rõ nguồn thông tin để tránh mập mờ, dưới đây là câu hỏi.
RankBrain là gì?
RankBrain là tên của một hệ thống trí thông minh nhân tạo tự học mới giúp đưa ra kết quả tìm kiếm, theo báo của Bloomberg và được xác nhận bởi Google.
Thế nào là hệ thống máy móc tự học?
Hệ thống máy tự học là khi mà máy tính tự dạy nó cách xử lý vấn đề gì đó chứ không cần phải được con người chỉ dạy chi tiết bằng thuật toán.
Trí thông minh nhân tạo là gì?
Trí thông minh nhân tạo đúng nghĩa, còn gọi là AI, là một máy tính có thể thông minh như con người, ít nhất là trong vấn đề học hỏi kiến thức từ việc được dạy hoặc tự xây dựng kiến thức và liên kết chúng lại.
Tất nhiên, AI thật sự chỉ tồn tại trong các tác phẩm khoa học viễn tương. Trong thực tế, AI được dùng để chỉ hệ thống máy tính thiết kế để tự học và liên kết thông tin.
Vậy RankBrain là cách sắp xếp kết quả tìm kiếm mới?
Không phải. RankBrain chỉ là một phần của tổng hợp nhiều thuật toán, một phần mềm máy tính có thể sắp xếp hàng tỉ trang mà nó biết và tìm những trang có kết quả phù hợp nhất với từ khóa người dùng tìm.
Tên của thuật toán tìm kiếm của Google là gì?
Nó là Hummingbird (chim nhại). Trong nhiều năm, các thuật toán không có tên gọi theo kiểu đàng hoàng. Nhưng vào giữa 2013, Google đã bắt đầu đặt tên cho thuật toán này là Hummingbird.
Vậy RankBrain là một phần của Hummingbird?
Đó là những gì chúng tôi hiểu. Hummingbird là thuật toán tổng của toàn bộ search, cũng giống như chiếc xe với một động cơ tổng thể. Động cơ đó có thể được kết hợp bởi nhiều thành phần, như lọc dầu, nhiên liệu và những thứ khác. Cũng giống vậy, Hummingbird kết hợp nhiều thành phần, RankBrain là một thành phần mới nhất. Cụ thể, chúng tôi biết RankBrain là thành phần của Hummingbird bởi vì trong báo cáo của Bloomberg đã nói rõ RankBrain không kiểm soát toàn bộ search.
Hummingbird cũng chứa những phần khác với các cái tên quen thuộc như Panda, Penguin, Payday để chống lại spam, Pigeon để tăng hiệu quả của local search, Top Heavy chống lại các trang có ad quá nặng, Mobile Friendly để tăng cơ hội xếp hạng cao cho các trang tương thích di động và Pirate để chống lại vấn đề vi phạm bản quyền.
Tôi nghĩ thuật toán này mang tên PageRank?
PageRank chỉ là một phần của thuật toán Hummingbird, nó là cách thức chấm điểm các trang dựa vào những đường link trỏ về từ các trang khác. PageRank đặc biệt bỏi nó là thành phần đầu tiên được Google đặt tên, từ năm 1998.
Có bao nhiêu tín hiệu Google dùng để xếp hạng?
Google đã nói chính thức rằng có khoảng hơn 200 tín hiệu chính họ dùng để xếp hạng, và có tới 10000 tín hiệu phụ. Nếu bạn muốn hiểu rõ hơn về các tín hiệu xếp hạng, xem bảng sau:
Và RankBrain là yếu tố quan trọng thứ 3?
Đúng vậy. Hệ thống mới đã trở thành yếu tố quan trọng thứ ba để xếp hạng các trang web. Theo như bài viết của Bloomberg.
RankBrain là một trong hàng trăm tín hiệu cho phép thuật toán quyết định kết quả nào sẽ xuất hiện trên Google search và xếp hạng nó ra sao. Trong vài tháng triển khai, RankBrain đã trở thành tín hiệu quan trọng thứ 3 để xếp hạng.
Vậy tín hiệu quan trọng nhất và nhì là gì?
Google không nói cho chúng tôi biết mặc dù đã được hỏi 2 lần. Thật khó chịu khi họ không nói ra 2 tín hiệu đầu tiên, và trong bài viết của Bloomberg cũng không có. Thế nhưng cũng thật hay khi hiểu rằng những tín hiệu quan trọng khác mà Google sử dụng đã bị RankBrain qua mặt. Google nên có lời giải thích về vấn đề này.
Dự đoán cá nhân của tôi cho rằng link là tín hiệu qua trọng nhất, bởi Google tính số link về website như các lượt vote. Và quan trọng thứ nhì có lẽ là “từ ngữ”, bởi nó có mặt trong mọi thứ từ nội dung trên trang tới cách mà Google hiểu những gì mà người dùng gõ vào khung tìm kiếm.
Chính xác thì RankBrain làm gì?
Từ những email với Google, RankBrain được sử dụng chủ yếu để hiểu những gì mà người dùng gõ vào ô tìm kiếm để bắt đầu tìm kiếm trang mà có thể không có chính xác từ khóa họ tìm.
Vậy Google đã từng có thuật toán để đưa ra các trang không có chính xác từ khóa chưa?
Rồi. Google đã tìm kiếm các trang không có chính xác từ khóa trong thời gian dài. Ví dụ, rất nhiều năm trước, nếu bạn gõ vào các từ như “shoe” Google sẽ không tìm thấy trang có từ “shoes”, bởi nó là 2 từ khác nhau. Với sự phát triển của mình, Google đã có sự thông minh với từ đồng nghĩa. Nếu bạn gõ vào “sneakers” thì nó có thể hiểu đó là “running shoes”. Nó còn có thể hiểu được cả ngữ cảnh để phân biệt được trang của Apple về công nghệ và “apple” nói về trái táo.
Vậy còn Knowledge Graph?
Knowledge graph ra mắt năm 2012, nó là các kết nối các từ ngữ thông minh hơn của Google. Quan trọng hơn, nó biết các làm sao để tìm kiếm các dữ liệu cho chuỗi từ khóa, như Google đã nói.
Chuỗi nghĩa chuỗi các chữ cái. Còn dữ liệu là khi người dùng tìm “Obama”, Google sẽ hiểu là “US President Barank Obama”, một người có kết nối với những người khác, địa điểm và sự kiện khác.
Knowledge Graph là một kho dữ liệu về vấn đề trên thế giới và sự liên kết giữa chúng. Đó là lý do tại sao bạn có thể tìm kiếm “vợ obama ra đời khi nào?” và có được kết quả của Michele Obama, mà không tìm kiếm tên của bà ấy.
Vậy RankBrain giúp hiểu từ khóa như thế nào?
Cách thức Google sử dụng để định nghĩa từ khóa cơ bản dựa vào con người, từ việc đưa ra các danh sách từ ngữ, danh sách đồng nghĩa hoặc liên kết những dữ liệu lại với nhau. Chắc chắn có một số là tự động. Nhưng phần lớn là dựa vào con người.
Vấn đề là Google nhận được 3 tỉ tìm kiếm mỗi ngày. Trong năm 2007, Google nói rằng 20 đến 25% từ khóa chưa từng gặp bao giờ. Trong năm 2013, con số giảm xuống còn 15%. Thế nhưng 15% của 3 tỉ vẫn rất lớn, 450 triệu mỗi ngày.
Nội dung tìm kiếm có thể rất phức tạp, như các từ khóa dài, từ ngữ đa dạng. RankBrain được thiết kế để hiểu các nội dung đó là chuyển tải nó một cách hiệu quả, và đưa ra kết quả tìm kiếm phù hợp nhất cho người tìm. Như Google đã nói, họ có thể thấy được các tìm kiếm gần như khác nhau và hiểu được nó liên hệ nhau như thế nào. Việc hiểu được điều này cho phép họ có thể hiểu được các tìm kiếm phức tạp hơn trong tương lai và xem xét nó có liên quan tới chủ đề cụ thể nào không. Quan trọng nhất là nó có thể liên hệ với những nhóm nội dung tìm kiếm mà nó nghĩ rằng người dùng thích nhất.
Ví dụ cho nó?
Mặc dùng Google không đưa ra các nhóm nội dung tìm kiếm, nhưng Bloomberg đã chỉ ra một ví dụ mà RankBrain giúp đỡ trong việc đưa ra kết quả.
Đây là câu hỏi “What’s the title of the consumer at the highest level of a food chain”
Consumer giống như một người mua hàng. Tuy nhiên, trong thuật ngữ khoa học nó là loài mà tiêu thụ thức ăn và nó có phân theo thứ bậc. Và thứ bậc cao nhất gọi là “loài săn mồi”.
Gõ vào và Google sẽ đưa ra kết quả phù hợp, mặc dù có vẻ như câu hỏi không liên quan lắm.
Đây là một ví dụ tương tự
Hãy tưởng tượng rằng RankBrain kết nối các chuỗi từ khóa dài và phức tạp tới những chuỗi ngắn hơn như trên. Nó hiểu được rằng 2 chuỗi đó là tương đương nhau. Vậy nên, Google sẽ có thể gia tăng mức độ hiểu biết dựa trên các chuỗi mà người dùng thường tìm kiếm để cải thiện câu trả lời cho các chuỗi không thường được tìm kiếm.
Tôi muốn nhấn mạnh rằng tôi không biết RankBrain kết nối các dữ liệu tìm kiếm. Tôi chỉ biết Google đưa ra ví dụ đầu tiên. Đơn giản, đây là một ví dụ về cách RankBrain kết dữ liệu thường được tìm kiếm với những thứ không được tìm kiếm để cải thiện câu trả lời.
Bing có thể làm vậy với RankNet không?
Năm 2005, Microsoft bắt đầu sử dụng một máy tính tự học mang tên RankNet, như một phần của công cụ tìm kiếm Bing như ngày nay. Thực tế, trưởng nhóm tìm kiếm của RankNet rất được tôn vinh nhưng sau vài năm thì không thấy họ nhắc tới RankNet nữa.
Có thể dự đoán rằng nó không thay đổi nhiều. Và thật thú vị khi tôi tìm kiếm trên Bing, nó cho ra kết quả phù hợp và tương tự như trên Google.
Một ví dụ không thể chứng tỏ rằng RankNet của Bing tốt như RankBrain của Google. Mà cũng thật khó để đưa ra danh sách các so sánh cho 2 công cụ này.
RankBrain có thật sự hữu ích?
Ngoài ví dụ của tôi ở trên thể hiện khả năng tuyệt vời của RankBrain ra thì tôi không thật sự tin rằng nó sẽ tạo ra được ảnh hưởng lớn như Google nói. Họ thường khá kín tiếng với những thuật toán của mình, và thường sử dụng các thử nghiệm nhỏ. Thế nhưng khi họ đã chắc chắn thì thường đưa ra những thay đổi lớn.
Việc triển khai RankBrain, một tín hiệu xếp hạng đứng thứ 3, sẽ tạo ra sự thay đổi lớn. Tôi không nghĩ Google sẽ làm vậy, trừ khi họ tin rằng nó có hiệu quả.
Khi nào RankBrain bắt đầu?
Google nói rằng nó đã được triển khai từ từ đầu năm 2015 và đã cập nhật hoàn toàn vài tháng trở lại đây
Những từ khóa nào bị ảnh hưởng?
Google nói với Bloomberg rằng có rất nhiều từ khóa bị ảnh hưởng bởi RankBrain. Chúng tôi hỏi thêm thông tin cụ thể nhưng họ không nói rõ ràng.
Có phải RankBrain lúc nào cũng học hỏi?
Việc học của RankBrain luôn tiến hành offline, Google đã nói vậy. Nó đưa ra danh sách các tìm kiếm và học hỏi để đưa ra dự đoán từ chúng. Những dự đoán này được kiểm tra và chứng minh rằng nó tốt, bởi vậy RankBrain đã được cập nhật hoàn toàn. Sau đó quy trình học hỏi offline và kiểm tra được lặp đi lặp lại.
RankBrain có làm những gì khác ngoài xác định từ khóa tìm kiếm?
Cơ bản thì chuỗi từ khóa được xác định như thế nào – thông qua các danh sách, từ đồng nghĩa giờ là RankBrain – không được coi là một yếu tố hay tín hiệu để xếp hạng.
Yếu tố cơ bản để xếp hạng gắn liền với content, như từ ngữ trên trang, link trỏ về. Hoặc nó cũng liên kết với người dùng như vị trí của người tìm kiếm hoặc lịch sử duyệt web của họ.
Chính xác là như thế nào? Có phần chấm điểm nào của RankBrain mà ảnh hưởng tới kết quả xếp hạng không? Có lẽ nhưng hẳn là RankBrain chỉ giúp Google phân loại các trang dựa trên content của nó. RankBrain sẽ giúp tóm tắt lại content trên trang tốt hơn những hệ thống khác mà Google có.
Hoặc cũng có thể không. Google không nói gì về điều này.
Làm sao để tôi học thêm về RankBrain?
Google đã nói với những người cần học về vector – cách từ ngữ và cụm từ liên kết với nhau - có thể xem qua trang này, nó nói về cách hệ thống học các khái niệm về thủ đô của các nước chỉ nhờ đọc qua các bài viết.
Có một nghiên cứu dài hơn tại đây.
Mã:
http://seomxh.com/tailieu/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf
nguồn LINK diễn đàn seo seomxh.com
LINK : Hỏi đáp về thuật toán RankBrain mới của Google
Bài viết này được dịch từ searchengineland.com
Không có nhận xét nào:
Đăng nhận xét