Hướng dẫn chọn công cụ AI trong kỷ nguyên tác tử (Agentic Era)
Không chỉ còn là những chatbot đơn thuần...
Tác giả: Ethan Mollick
Biên dịch: Cộng đồng Tự học cùng AI
Tôi đã viết tám bản hướng dẫn như thế này kể từ khi ChatGPT ra đời, nhưng phiên bản lần này đánh dấu một bước ngoặt lớn so với trước đây. Lý do là khái niệm “sử dụng AI” đã thay đổi hoàn toàn. Cho đến cách đây vài tháng, với đại đa số mọi người, “dùng AI” đồng nghĩa với việc trò chuyện qua lại với một chatbot. Nhưng hiện nay, việc sử dụng AI như một tác tử (agent) đã trở nên khả thi: bạn có thể giao nhiệm vụ cho chúng và chúng sẽ tự thực hiện, sử dụng các công cụ phù hợp để hoàn thành. Vì sự thay đổi này, bạn cần cân nhắc ba yếu tố khi quyết định sử dụng AI: Mô hình (Models), Ứng dụng (Apps) và Bộ khung điều khiển (Harnesses).

Mô hình (Models) là bộ não AI cốt lõi bên dưới. Ba cái tên lớn nhất hiện nay là GPT-5.2/5.3, Claude Opus 4.6 và Gemini 3 Pro (các công ty đang ra mắt mô hình mới nhanh hơn trước, nên số hiệu phiên bản có thể thay đổi trong vài tuần tới). Đây là yếu tố quyết định hệ thống thông minh đến mức nào, khả năng lập luận ra sao, viết lách, lập trình hay phân tích bảng tính tốt thế nào, cũng như khả năng nhận diện và tạo hình ảnh. Mô hình là thứ mà các bài kiểm tra (benchmarks) đo lường và là mục tiêu chạy đua của các công ty AI. Khi mọi người nói “Claude viết tốt hơn” hay “ChatGPT giải toán giỏi hơn”, họ đang nói về các mô hình.
Ứng dụng (Apps) là những sản phẩm thực tế bạn dùng để tương tác với mô hình và giúp mô hình làm việc cho bạn. Ứng dụng phổ biến nhất là trang web của các mô hình này: chatgpt.com, claude.ai, gemini.google.com (hoặc ứng dụng tương ứng trên điện thoại). Ngày càng có nhiều ứng dụng khác được các công ty AI này tạo ra, bao gồm các công cụ lập trình như OpenAI Codex hay Claude Code, và các công cụ dành cho máy tính để bàn như Claude Cowork.
Bộ khung điều khiển (Harnesses) là thứ cho phép sức mạnh của mô hình AI thực hiện công việc thực tế, giống như bộ dây cương giúp con ngựa kéo xe hoặc cày ruộng. Bộ khung là một hệ thống cho phép AI sử dụng công cụ, thực hiện hành động và tự mình hoàn thành các tác vụ gồm nhiều bước. Các ứng dụng thường đi kèm với một bộ khung nhất định.
Claude trên trang web có bộ khung cho phép Claude 4.6 Opus tìm kiếm web và viết mã, đồng thời có các chỉ dẫn về cách tiếp cận các vấn đề như tạo bảng tính hay thiết kế đồ họa.
Claude Code có một bộ khung mạnh mẽ hơn: nó cung cấp cho Claude 4.6 Opus một máy tính ảo, trình duyệt web, cửa sổ lệnh (terminal) và khả năng kết nối chúng để thực hiện các việc như nghiên cứu, xây dựng và chạy thử một website mới từ đầu.
Manus (mới được Meta thâu tóm) về cơ bản là một bộ khung độc lập có thể bao quát nhiều mô hình khác nhau.
OpenClaw là một bộ khung cho phép bạn sử dụng bất kỳ mô hình AI nào trực tiếp trên máy tính cá nhân.
Trước đây, bạn không cần phải biết những điều này. Mô hình chính là sản phẩm, ứng dụng là trang web và bộ khung thì rất sơ khai. Bạn nhập văn bản, AI phản hồi, rồi bạn lại nhập tiếp. Giờ đây, cùng một mô hình có thể hành xử rất khác nhau tùy thuộc vào bộ khung mà nó vận hành. Claude Opus 4.6 trò chuyện với bạn trong cửa sổ chat là một trải nghiệm rất khác so với Claude Opus 4.6 hoạt động bên trong Claude Code, tự động viết và kiểm thử phần mềm liên tục trong nhiều giờ. GPT-5.2 trả lời một câu hỏi sẽ rất khác với GPT-5.2 Thinking đang duyệt web và xây dựng cho bạn một bộ slide thuyết trình.
Điều này có nghĩa là câu hỏi “nên dùng AI nào?” đã trở nên khó trả lời hơn, vì đáp án phụ thuộc vào việc bạn định làm gì với nó. Hãy để tôi đi sâu vào bức tranh toàn cảnh hiện nay.
Các mô hình hiện tại
Các mô hình hàng đầu hiện nay có năng lực tổng thể rất sát sao, thông minh hơn và ít mắc lỗi hơn bao giờ hết. Tuy nhiên, nếu bạn muốn sử dụng AI cao cấp một cách nghiêm túc, bạn sẽ cần trả ít nhất 20 USD mỗi tháng. Số tiền này mang lại cho bạn hai thứ: quyền chọn mô hình và khả năng sử dụng các mô hình cũng như ứng dụng tiên phong (frontier models) mạnh mẽ nhất. Tôi rất muốn nói rằng các mô hình miễn phí hiện nay cũng tốt như bản trả phí, nhưng thực tế không phải vậy. Các mô hình miễn phí thường được tối ưu hóa cho việc trò chuyện hơn là độ chính xác; chúng phản hồi nhanh và thú vị hơn khi nói chuyện, nhưng kém chính xác và năng lực hạn chế hơn nhiều. Thông thường, khi ai đó đăng ví dụ về việc AI làm điều gì đó ngớ ngẩn, đó là vì họ đang dùng bản miễn phí hoặc chưa chọn đúng mô hình thông minh nhất để làm việc.
Ba mô hình tiên phong lớn nhất hiện nay là Claude Opus 4.6 của Anthropic, Gemini 3.0 Pro của Google và ChatGPT 5.2 Thinking của OpenAI. Với tất cả các tùy chọn này, bạn đều có quyền truy cập vào các mô hình AI đỉnh cao với chế độ giọng nói, khả năng nhìn hình ảnh và tài liệu, thực thi mã nguồn, ứng dụng di động tốt và khả năng tạo hình ảnh, video (Claude vẫn còn thiếu sót ở mảng này). Chúng đều có tính cách, điểm mạnh và điểm yếu riêng, nhưng với đa số mọi người, chỉ cần chọn cái mình thích nhất là đủ. Hiện tại, các công ty khác trong lĩnh vực này đã bị tụt lại phía sau, dù là về mô hình hay ứng dụng và bộ khung.

Khi sử dụng bất kỳ ứng dụng AI nào, điều quan trọng nhất bạn cần làm là chọn đúng mô hình, dù các công ty AI không làm cho việc này trở nên dễ dàng.
Với ChatGPT, dù dùng bản miễn phí hay trả phí, mô hình mặc định thường là ChatGPT 5.2. Vấn đề là GPT-5.2 không phải là một mô hình duy nhất mà là một dòng gồm nhiều loại: từ bản GPT-5.2 mini rất yếu đến GPT-5.2 Thinking rất tốt và GPT-5.2 Pro cực kỳ mạnh mẽ. Khi chọn GPT-5.2, thực chất bạn đang dùng chế độ “tự động”, nơi AI tự quyết định dùng mô hình nào (thường là bản yếu hơn). Khi trả phí, bạn được quyền tự chọn mô hình và mức độ “tư duy” của nó. Với bất kỳ việc gì phức tạp, tôi luôn chọn thủ công GPT-5.2 Thinking Extended (gói 20 USD) hoặc GPT-5.2 Thinking Heavy (gói đắt hơn).
Với Gemini, có ba lựa chọn: Gemini 3 Flash, Gemini 3 Thinking và Gemini 3 Pro (cho gói trả phí). Nếu dùng gói Ultra, bạn có quyền truy cập vào Gemini Deep Think cho các vấn đề cực khó. Hãy luôn chọn Gemini 3 Pro hoặc Thinking cho các công việc nghiêm túc.
Với Claude, bạn cần chọn Opus 4.6 và bật công tắc “extended thinking” (tư duy mở rộng).
Một lần nữa, đối với hầu hết mọi người, sự khác biệt giữa các mô hình hiện nay là đủ nhỏ để ứng dụng và bộ khung điều khiển trở nên quan trọng hơn bản thân mô hình.
Giao diện chatbot
Đại đa số mọi người sử dụng chatbot – các trang web chính hoặc ứng dụng di động của ChatGPT, Claude và Gemini – để tiếp cận các mô hình AI. Thực tế, chatbot là ứng dụng AI quan trọng và phổ biến nhất. Trong vài tháng qua, các ứng dụng này đã trở nên khác biệt rõ rệt.
Một số khác biệt nằm ở các tính năng được tích hợp kèm theo:
Tích hợp trong Gemini: Bạn có thể truy cập Nano Banana (công cụ tạo ảnh AI tốt nhất hiện nay), Veo 3.1 (công cụ tạo video AI hàng đầu), Guided Learning (hỗ trợ AI đóng vai trò như gia sư) và Deep Research (nghiên cứu sâu).
Tích hợp trong ChatGPT: Có một sự kết hợp đa dạng hơn như Tạo hình ảnh (gần bằng Nano Banana nhưng chưa có Sora video), Học tập (tương đương Guided Learning), Deep Research và Shopping Research (nghiên cứu mua sắm – tốt đến ngạc nhiên nhưng hay bị ngó lơ).
Claude: Chỉ có Deep Research là tùy chọn tích hợp, nhưng bạn có thể dùng chế độ học tập bằng cách tạo một Project (Dự án) và chọn loại hình học tập.
Tất cả các mô hình đều cho phép bạn kết nối với dữ liệu cá nhân, như đọc email, lịch, truy cập tệp tin hoặc kết nối với các ứng dụng khác. Điều này giúp AI hữu ích hơn nhiều, nhưng mỗi công cụ lại có các bộ kết nối khác nhau.
Đối với những người làm việc thực tế, tính năng bổ sung quan trọng nhất là Deep Research và khả năng kết nối AI với nội dung của bạn. Tuy nhiên, yếu tố ngày càng quan trọng là bộ khung điều khiển – các công cụ mà AI có quyền truy cập. Ở điểm này, OpenAI và Anthropic đang dẫn trước Google một khoảng cách rõ rệt. Cả Claude.ai và ChatGPT đều có khả năng viết và thực thi mã, xuất tệp tin, nghiên cứu chuyên sâu. Trang web Gemini của Google hiện kém năng lực hơn ở mảng này (dù mô hình AI bên dưới vẫn rất tốt).
Lưu ý cuối về Chatbot: GPT-5.2 Pro, với bộ khung đi kèm, là một mô hình RẤT thông minh. Nó vừa giúp tìm ra một kết quả mới trong vật lý và là mô hình tôi thấy có khả năng nhất trong việc thực hiện các phân tích thống kê phức tạp. Tuy nhiên, nó chỉ có trong các gói dịch vụ đắt tiền.

Các ứng dụng và bộ khung điều khiển khác
Các trang web chatbot là nơi hầu hết mọi người tương tác với AI, nhưng đó không còn là nơi những công việc ấn tượng nhất được thực hiện. Một nhóm các ứng dụng khác đang bao bọc các mô hình này trong những bộ khung mạnh mẽ hơn.
Claude Code, OpenAI Codex và Google Antigravity là những ví dụ điển hình nhất, tập trung vào giới lập trình viên. Mỗi công cụ này cho phép mô hình AI truy cập vào kho mã nguồn của bạn, cửa sổ lệnh và khả năng tự viết, chạy, kiểm thử mã. Bạn chỉ cần mô tả thứ mình muốn xây dựng, AI sẽ tự thực hiện và quay lại khi hoàn thành hoặc khi gặp bế tắc.
Ví dụ, cách đây một tuần, tôi đã yêu cầu Claude Code thực hiện một ý tưởng mà trước đây sẽ tốn rất nhiều công sức: tạo ra một phiên bản AI chạy hoàn toàn trên giấy dựa trên các thông số của GPT-1. Chỉ trong khoảng một giờ, AI đã thiết kế 80 tập sách được trình bày đẹp mắt chứa toàn bộ dữ liệu của GPT-1, kèm theo hướng dẫn tính toán. Nó còn tự thiết kế bìa sách, xây dựng một trang web thanh lịch, kết nối thanh toán qua Stripe và dịch vụ in ấn theo yêu cầu, thử nghiệm toàn bộ hệ thống và ra mắt cho tôi. Tôi không hề chạm vào hay nhìn qua một dòng code nào.
Claude for Excel và PowerPoint là những bộ khung chuyên biệt bên trong các ứng dụng văn phòng. Claude for Excel mang lại sự thay đổi lớn trong cách làm việc với bảng tính; bạn có thể yêu cầu AI thực hiện nhiệm vụ như một phân tích viên thực thụ và nó sẽ tự hoàn thành công việc ngay trong Excel.
Claude Cowork là một thứ thực sự mới mẻ. Ra mắt vào tháng Một, Cowork về cơ bản là “Claude Code dành cho các công việc không chuyên về kỹ thuật”. Nó chạy trên máy tính của bạn, có thể làm việc trực tiếp với các tệp tin cục bộ và trình duyệt web. Bạn mô tả một kết quả mong muốn (như: tổ chức lại các báo cáo chi phí, trích xuất dữ liệu từ các tệp PDF vào bảng tính, dự thảo bản tóm tắt), Claude sẽ lập kế hoạch, chia nhỏ nhiệm vụ và thực hiện chúng ngay trên máy tính khi bạn đang quan sát. Đây là dấu hiệu rõ ràng cho thấy tương lai: AI không chỉ nói về công việc của bạn, mà trực tiếp làm công việc đó.
NotebookLM là câu trả lời của Google cho vấn đề: làm thế nào để dùng AI hiểu một lượng lớn thông tin? Bạn có thể nạp các bài nghiên cứu, video YouTube, trang web hoặc tệp tin, và NotebookLM sẽ xây dựng một kho tri thức tương tác để bạn đặt câu hỏi, tạo slide, sơ đồ tư duy hoặc các bản podcast do AI tạo ra để thảo luận về tài liệu của bạn.

Cuối cùng là OpenClaw, một tác tử AI nguồn mở chạy trực tiếp trên máy tính cá nhân. Nó có thể duyệt web, quản lý tệp, gửi email và thực hiện các lệnh hệ thống. Nó giống như một trợ lý cá nhân 24/7 sống ngay trong máy của bạn. Tuy nhiên, nó cũng tiềm ẩn rủi ro bảo mật lớn vì bạn đang cấp quyền truy cập rộng rãi vào máy tính và tài khoản cá nhân cho một AI.
Bạn nên làm gì bây giờ?
Mọi thứ có vẻ phức tạp, nhưng hãy để tôi đơn giản hóa giúp bạn:
Nếu bạn mới bắt đầu: Hãy chọn một trong ba hệ thống (ChatGPT, Claude, hoặc Gemini), trả 20 USD và chọn mô hình cao cấp nhất. Hãy bắt đầu sử dụng nó cho công việc thực tế: tải lên một tài liệu bạn đang làm, giao cho nó một nhiệm vụ phức tạp (như viết hồ sơ thầu hoặc quy trình vận hành tiêu chuẩn). Chỉ riêng việc này sẽ dạy bạn nhiều điều hơn bất kỳ bản hướng dẫn nào.
Nếu bạn đã quen với chatbot: Hãy thử các ứng dụng chuyên biệt. NotebookLM miễn phí và dễ dùng là điểm bắt đầu tốt. Nếu muốn đi sâu hơn, hãy thử các công cụ của Anthropic như Claude Code hay Claude Cowork. Đừng chỉ dùng thử kiểu xem trình diễn (demo), hãy dùng chúng cho một việc bạn thực sự cần hoàn thành. Hãy quan sát cách nó làm và điều chỉnh khi nó đi sai hướng. Bạn không còn là người “nhập lệnh” (prompting) nữa, mà đang đóng vai trò là một người “quản lý” (managing).
Sự chuyển dịch từ chatbot sang tác tử là thay đổi quan trọng nhất kể từ khi ChatGPT ra mắt. Những công cụ này vẫn còn sơ khai và đôi khi hành xử kỳ quặc, nhưng một AI biết làm việc về cơ bản hữu ích hơn nhiều so với một AI chỉ biết nói. Việc học cách làm chủ chúng ngay từ bây giờ là hoàn toàn xứng đáng với thời gian của bạn.





