Tài liệu tóm tắt: ChatGPT: Kỹ thuật tạo Prompt
Tài liệu này giới thiệu về Trí tuệ Nhân tạo tạo sinh (Generative AI) và các Mô hình Ngôn ngữ Lớn (LLM), đặc biệt tập trung vào ChatGPT và các kỹ thuật tạo prompt hiệu quả. Nó nhấn mạnh sự phát triển nhanh chóng của AI và vai trò cách mạng của nó trong xã hội.
I. Sự Tiến Hóa và Tác Động Của Trí Tuệ Nhân Tạo
· Bước nhảy vọt về chất: Các tác giả coi sự xuất hiện của ChatGPT là "một bước nhảy vọt về chất trong sự phát triển của Trí tuệ Nhân tạo."
· Tiếp cận công chúng: Mục tiêu chính của cuốn sách là "đưa các công cụ trí tuệ nhân tạo đến gần hơn với công chúng, đặc biệt là những người không quen thuộc với máy tính."
· Cách mạng công nghệ: AI được so sánh với "cuộc cách mạng công nghệ tương tự như những gì Internet đã từng là ba hoặc bốn thập kỷ trước hoặc những chiếc điện thoại đầu tiên."
· Tính phù du: Tài liệu này thừa nhận rằng nội dung của nó có thể nhanh chóng lỗi thời do "sự phát triển nhanh chóng của trí tuệ nhân tạo."
II. Cơ Chế Hoạt Động của AI Tạo Sinh và LLM
· Nguyên lý cơ bản: Các công cụ AI này hoạt động bằng cách "cố gắng 'đoán' từ, pixel, nốt nhạc, v.v., được gọi chung là 'mã thông báo' (token) tiếp theo." AI sẽ chọn từ "được sử dụng thường xuyên nhất trong ngữ cảnh của câu đã cho."
· AI tạo sinh: Được định nghĩa là "một tập hợp con của các mô hình và thuật toán AI được thiết kế để tạo ra nội dung mới, độc đáo."
· Các mô hình AI tạo sinh phổ biến:Mạng đối kháng tạo sinh (GANs): Bao gồm một bộ tạo và một bộ phân biệt hoạt động đối kháng để tạo ra "các kết quả ngày càng chân thực."
· Mã hóa tự động biến phân (VAEs): Học cấu trúc cơ bản của dữ liệu đầu vào để tạo ra các điểm dữ liệu mới.
· Mạng thần kinh hồi quy (RNNs) và Transformers: Có khả năng tạo ra các chuỗi dữ liệu như văn bản hoặc âm nhạc bằng cách dự đoán các yếu tố tiếp theo.
· Mô hình Ngôn ngữ Lớn (LLM): "Các hệ thống trí tuệ nhân tạo tiên tiến được thiết kế đặc biệt để hiểu, xử lý và tạo ra văn bản giống con người." Chúng có khả năng học các mẫu phức tạp, ngữ cảnh và mối quan hệ trong dữ liệu ngôn ngữ.
III. ChatGPT và Các LLM Khác
· Phiên bản ChatGPT:GPT-3.5: Miễn phí, có "khả năng ghi nhớ các lời nhắc gần đây từ mỗi cuộc trò chuyện," nhưng "không có quyền truy cập Internet và chỉ có kiến thức về dữ liệu cho đến tháng 1 năm 2022."
· GPT-4: Chỉ dành cho người dùng trả phí.
· Llama: Một LLM khác, giao diện của nó cho phép "đính kèm tệp. Cho phép bạn tải lên một hình ảnh và đặt câu hỏi về nó." Tuy nhiên, Llama cũng "không có quyền truy cập Internet, vì vậy nó thiếu thông tin cập nhật."
· LLM như "máy tính văn bản": Có khả năng xử lý văn bản "một cách hiệu quả và nhanh chóng" cho vô số tác vụ, bao gồm:
· Dịch văn bản.
· Tóm tắt văn bản.
· Phân loại cảm xúc của văn bản.
· Tạo phản hồi.
· Tạo phong cách văn bản.
· Xử lý bảng dữ liệu, mã lập trình, và gần đây là hiểu số liệu và hình ảnh.
IV. Prompting: Kỹ Thuật Giao Tiếp Với LLM
· Định nghĩa Prompt: "Là cách chúng ta đưa ra truy vấn cho một LLM. Nói chung, một prompt sẽ là một chỉ dẫn hoặc văn bản ban đầu được cung cấp cho LLM mà chúng ta muốn hướng dẫn và điều khiển việc tạo ra các phản hồi hoặc văn bản mạch lạc."
· Thử và sai: "Thông thường bạn sẽ cần 2 hoặc 3 lần thử để có được lời nhắc đúng. Với thử và sai, bạn sẽ tinh chỉnh lời nhắc để đạt được kết quả mong đợi."
V. Các Kỹ Thuật Prompting Cơ Bản
· Zero-Shot Prompt: "Loại lời nhắc đơn giản và tối thiểu này thường được gọi là 'Zero-Shot Prompt'," trong đó LLM được yêu cầu thông tin mà không có bất kỳ hạn chế hoặc hướng dẫn nào, cho phép nó tự do trả lời theo cách mà nó thấy phù hợp.
· Thêm hướng dẫn: Điểm khác biệt chính so với công cụ tìm kiếm là khả năng "thêm các hướng dẫn để LLM cung cấp câu trả lời theo một cách nhất định, ví dụ, theo một phong cách cụ thể hoặc áp dụng một định dạng nhất định để trình bày hoặc chỉ đơn giản hóa nó để dễ hiểu hơn."
· Tóm tắt và cấu trúc thông tin: LLM có thể "rút gọn hoặc tóm tắt kết quả" và "cung cấp một cấu trúc tài liệu mà LLM nên tuân thủ."
· Định dạng đầu ra: LLM có thể cung cấp dữ liệu đầu ra dưới nhiều định dạng có cấu trúc như bảng, JSON, HTML hoặc CSV, không chỉ văn bản thuần túy.
VI. Các Kỹ Thuật Prompting Nâng Cao
· Mô phỏng nhân vật lịch sử và nhập vai: Một trong những tính năng thú vị nhất là "yêu cầu chúng đảm nhận một vai trò cụ thể và bắt chước vai trò đó," cho phép LLM giải thích các khái niệm từ quan điểm của các nhân vật khác nhau (ví dụ: Gandhi, Albert Einstein).
· Học với các ví dụ nhỏ (Few-Shot Prompting - FSP): Lời nhắc bao gồm "nhiều ví dụ khác nhau về một nhiệm vụ, và LLM được kỳ vọng sẽ diễn giải và học hỏi từ những ví dụ này để giải quyết nhiệm vụ," ví dụ như phân loại cảm xúc.
· Gán giá trị số cho văn bản: Khả năng "gán giá trị từ 0 đến 10 cho một số vấn đề nhất định," giúp so sánh giữa các yếu tố tương tự.
· Lập kế hoạch và tính toán sơ bộ: LLM có thể "hỗ trợ thực hiện các phép tính đơn giản và ước lượng cơ bản," mặc dù cần thận trọng vì "lý luận và logic không phải là thế mạnh của chúng." (ví dụ: lên kế hoạch tiệc BBQ, ngân sách đám cưới).
· Suy luận từng bước (Chain-of-Thoughts - CoT): Một kỹ thuật "hướng dẫn LLM bằng một lời nhắc buộc nó phải giải quyết vấn đề từng bước một theo một cách cụ thể," cải thiện độ chính xác trong các bài toán phức tạp.
VII. Ứng Dụng Đa Dạng của LLM
· Hỗ trợ cá nhân:Soạn thảo và trả lời email.
· Tạo danh sách mua sắm, kế hoạch tập luyện, kế hoạch ăn kiêng.
· Đề xuất các bài tập toán học cho trẻ em.
· Tính toán tiết kiệm chi phí hàng ngày.
· Ứng dụng kinh doanh:Soạn thảo bản mô tả công việc.
· Hỗ trợ nghiên cứu pháp lý (ví dụ: hình phạt cho tội giết người ở các quốc gia khác nhau).
· Tương tác với hình ảnh:Phân tích và mô tả hình ảnh (ví dụ: tháp dân số, biểu đồ CO2, xe ô tô bị hỏng).
· Hạn chế trong chẩn đoán y tế: ChatGPT khẳng định "Tôi không thể đưa ra diễn giải hay chẩn đoán dựa trên phim X-quang, vì điều này nằm ngoài khả năng của tôi và cũng đòi hỏi kiến thức y tế chuyên sâu."
· Hạn chế trong đánh giá thiệt hại ô tô: Dù có thể xác định thiệt hại, nó "không thể đưa ra ước tính chi phí chính xác nếu không có thông tin cụ thể về giá nhân công và phụ tùng tại khu vực của bạn."
· Sáng tạo nghệ thuật:Tạo hình ảnh bằng DALL-E thông qua prompt chi tiết (chủ thể, hành động, phong cách, chi tiết, v.v.).
· Khả năng cách mạng hóa "thiết kế đồ họa, nghệ thuật, quảng cáo, kiến trúc."
· Chế độ đàm thoại: Cho phép tương tác bằng giọng nói, hữu ích cho các câu trả lời ngắn gọn, nhanh chóng và luyện tập ngôn ngữ mới.
· Plugins: "Các chương trình bên ngoài mà mô hình giao tiếp để thực hiện các tác vụ vượt ra ngoài khả năng tạo văn bản gốc của nó," ví dụ như plugin Wolfram Alpha để giải toán phức tạp.
VIII. Giới Hạn và Rủi Ro
· Hạn chế về lý luận và logic: "Lý luận và logic không phải là thế mạnh của chúng."
· Thông tin lỗi thời: Các phiên bản miễn phí của LLM có thể có "kiến thức về dữ liệu cho đến tháng 1 năm 2022," dẫn đến thông tin không cập nhật.
· Hạn chế về "bộ nhớ": LLM "không có 'bộ nhớ' vô hạn, và nó có thể mất mạch câu chuyện."
· Độ chính xác của Latinh: ChatGPT gặp khó khăn với tiếng Latinh, cho thấy rằng mặc dù nó có thể cung cấp thông tin liên quan, "tiếng Latinh là một thử thách đối với ChatGPT."
· Cần thận trọng với thông tin y tế/pháp lý: AI không thể thay thế chuyên gia trong các lĩnh vực yêu cầu kiến thức chuyên sâu và trách nhiệm pháp lý.
· Thiên vị hoặc không đầy đủ: Các mô tả về nhân vật lịch sử có thể "kết hợp các yếu tố kịch tính và cách giải thích có thể không hoàn toàn phù hợp với sự phức tạp lịch sử hoặc các sắc thái trong tính cách của ông."
· Ước tính mang tính suy đoán: Các dự đoán về tương lai (ví dụ: tháp dân số, lượng khí thải CO2) thường là "ước tính đơn giản" hoặc "suy đoán cao" và không thay thế phân tích thống kê thích hợp.
· Cần cải thiện: "có vẻ như ChatGPT vẫn còn một vài điều cần cải thiện. Điều này không có gì đáng ngạc nhiên, nó mới chỉ hơn một năm tuổi!"
Kết luận:
Tài liệu này cung cấp một cái nhìn toàn diện về tiềm năng to lớn của AI tạo sinh và LLM như ChatGPT, nhấn mạnh khả năng cách mạng hóa giao tiếp và năng suất. Tuy nhiên, nó cũng thận trọng chỉ ra những giới hạn, đặc biệt là liên quan đến dữ liệu lỗi thời, độ chính xác trong lý luận phức tạp, và sự cần thiết của sự giám sát của con người trong các lĩnh vực quan trọng như y tế và pháp lý. Cuốn sách kêu gọi công chúng khám phá và thực hành các kỹ thuật prompting để khai thác tối đa những công cụ mạnh mẽ này.