[Series AI Agent][Bài Số 05] 3 kỹ thuật quản lý bộ nhớ AI

May 02, 2026

Hai developer cùng dùng Claude để viết code. Dev A mở một cuộc chat, làm liền 3 tiếng. Kết quả: code lỗi lung tung, AI quên convention đã thống nhất, phải sửa đi sửa lại. Dev B cũng làm cùng task đó, tách thành 5 cuộc chat ngắn. Xong trong 2 tiếng. Code nhất quán, ít bug hơn hẳn.

Khác biệt không nằm ở AI. Cùng một model, cùng một phiên bản. Nằm ở cách quản lý "bàn làm việc" mà bài trước đã nói.

Bạn không thể mở rộng bàn. Context window là cố định, do nhà phát triển quy định. Nhưng bạn quản lý được cách dùng bàn đó. Ba kỹ thuật sau đây đơn giản, ai cũng làm được, và thay đổi chất lượng output rõ rệt.

Kỹ thuật 1: Dọn bàn

Bàn làm việc đầy thì dọn. Nghe hiển nhiên, nhưng hầu hết mọi người không bao giờ dọn.

Cụ thể: khi cuộc chat đã dài hơn 15-20 lượt, gửi cho AI một tin nhắn kiểu này:

"Tóm tắt lại những gì ta đã thống nhất cho đến giờ."

AI sẽ liệt kê các quyết định, yêu cầu, ràng buộc đã có. Bạn đọc lại, xác nhận hoặc sửa. Từ đây, AI dùng bản tóm tắt gọn gàng đó thay vì phải đọc lại 20 lượt chat rời rạc.

Một biến thể mạnh hơn: sau khi AI tóm tắt xong, bạn copy bản tóm tắt đó, mở cuộc chat mới, paste vào. Bàn sạch hoàn toàn, chỉ có đúng những gì cần thiết. Cách này kết hợp cả "dọn bàn" lẫn "chia bàn" mà tôi sẽ nói ở phần sau.

Tại sao cách này hiệu quả? Vì bình thường hệ thống tự nén, bạn không kiểm soát được cái gì bị cắt. Nhưng khi bạn chủ động bảo AI tóm tắt, bạn quyết định thông tin nào được giữ. Đây là cách duy nhất bạn can thiệp được vào quá trình nén context.

Giống dọn bàn làm việc vật lý vậy. Bạn không vứt bừa. Bạn nhìn qua, giữ lại giấy tờ quan trọng, xếp gọn, bỏ rác. Còn hơn là để bàn ngập rồi mất tờ hợp đồng quan trọng trong đống giấy nháp.

Thời điểm tốt nhất để dọn: khi bạn vừa hoàn thành một phần công việc. Ví dụ viết xong outline, trước khi bắt đầu viết bản nháp. Hoặc sau khi thống nhất xong yêu cầu, trước khi AI bắt tay vào làm.

Kỹ thuật 2: Chia bàn

Quay lại câu chuyện hai developer. Dev A dùng một bàn duy nhất cho mọi thứ: thiết kế database, viết API, sửa bug frontend, chỉnh CSS. Bàn chật, giấy tờ lẫn lộn. AI bắt đầu nhầm context của task này sang task kia.

Dev B chia 5 bàn riêng. Mỗi bàn một việc. Bàn thiết kế database chỉ có tài liệu database. Bàn viết API chỉ có spec API. Gọn, rõ, AI không nhầm.

Nói cách khác: mỗi task mở một cuộc chat mới.

Khi chuyển sang cuộc chat mới, paste đúng context cần thiết từ cuộc trước. Không cần paste toàn bộ. Chỉ cần kết quả, quyết định, ràng buộc liên quan đến task mới.

Ví dụ: xong phần thiết kế database, mở chat mới viết API. Paste vào schema database đã thống nhất, không cần paste 20 lượt bàn qua bàn lại lúc thiết kế. AI có đủ context sạch để làm việc tiếp.

Cái khó duy nhất: bạn phải biết "chuyển bóng" giữa các cuộc chat. Kết thúc cuộc chat cũ bằng cách bảo AI tóm tắt kết quả. Rồi mang bản tóm tắt đó sang cuộc chat mới. Mất thêm 30 giây, nhưng tiết kiệm hàng chục phút sửa lỗi sau này.

Kỹ thuật này hiệu quả vì lý do đơn giản: bàn sạch thì làm việc tốt hơn bàn bừa. AI cũng vậy.

Kỹ thuật 3: Nhắc lại

Đây là kỹ thuật nhiều người bỏ qua, nhưng mạnh nhất khi chat dài.

Nhớ hiện tượng "Lost in the Middle" ở bài trước? AI chú ý đầu và cuối context, quên giữa. Nghĩa là yêu cầu bạn đặt ra ở tin nhắn thứ 3 rất dễ bị AI bỏ qua sau 15 lượt chat.

Cách xử lý: nhắc lại yêu cầu quan trọng ngay trong tin nhắn hiện tại.

Ví dụ, thay vì chỉ gửi:

"Viết tiếp phần kết luận đi."

Thì gửi:

"Viết tiếp phần kết luận. Nhớ nhé: bạn đang viết báo cáo cho sếp Hùng, giọng formal, không quá 500 từ."

Ba dòng thêm, nhưng hiệu quả khác hẳn. Bạn đưa thông tin quan trọng về cuối context window, nơi AI chú ý nhất. Giống bạn dán tờ giấy nhớ ngay trước mặt thay vì để nó chìm dưới đống giấy.

Giới kỹ thuật gọi cách này là identity re-injection. Nghe phức tạp, nhưng bản chất đơn giản. Mỗi khi gửi yêu cầu mới trong cuộc chat dài, nhắc lại vai trò, giọng văn, quy tắc quan trọng. Vậy thôi.

Những gì nên nhắc lại:

Vai trò AI đang đóng ("bạn là biên tập viên", "bạn là trợ lý kỹ thuật")
Giọng văn yêu cầu ("formal", "thân thiện", "ngắn gọn")
Ràng buộc quan trọng ("không quá 500 từ", "dùng tiếng Việt")
Đối tượng đọc ("viết cho sếp", "viết cho khách hàng")

Không cần nhắc lại toàn bộ. Chỉ nhắc những gì AI hay quên. Thường là vai trò và giọng văn, vì hai thứ này dễ "trôi" nhất sau nhiều lượt chat.

Khi nào KHÔNG cần tách?

Không phải lúc nào cũng phải chia nhỏ. Chat nhanh 5 phút hỏi một câu, mở chat mới cho câu tiếp theo, quá rườm rà. Không đáng.

Quy tắc đơn giản: nếu phải cuộn lên hơn 5 phút để tìm lại context, nên tách. Nếu vẫn nhìn thấy toàn bộ cuộc chat trên màn hình, cứ tiếp tục.

Chat nhanh, hỏi đáp ngắn thì cứ một cuộc chat. Nhưng khi task kéo dài, nhiều bước, nhiều quyết định, đó là lúc chia bàn có giá trị.

Một dấu hiệu khác: AI bắt đầu lặp lại câu bạn đã nói. Hoặc output mâu thuẫn với những gì đã thống nhất trước đó. Đó là lúc bàn quá tải. Dọn hoặc chia, tuỳ tình huống.

Công thức ghi nhớ

Ba kỹ thuật quy về một ý: đối xử với bộ nhớ AI giống cách bạn đối xử với bàn làm việc.

Dọn bàn: bảo AI tóm tắt khi chat dài, giữ lại cái quan trọng.
Chia bàn: mỗi việc một cuộc chat, context sạch.
Dán giấy nhớ: nhắc lại yêu cầu quan trọng ở mỗi tin nhắn.

Không cần nhớ thuật ngữ. Không cần hiểu kỹ thuật bên trong. Chỉ cần nhớ: bàn gọn, phân loại rõ, dọn định kỳ. Làm ba điều này, chất lượng output sẽ khác.

Bắt đầu từ cuộc chat tiếp theo. Thử một trong ba kỹ thuật, xem kết quả. Không cần áp dụng cả ba cùng lúc.

Gợi ý: bắt đầu với "chia bàn" vì dễ nhất. Mỗi việc mới, mở chat mới. Chỉ thế thôi. Khi quen rồi, thêm "nhắc lại" và "dọn bàn". Một thay đổi nhỏ đã đủ thấy khác biệt.

---

Discussion about this post

Ready for more?