DeepSeek: 'Ngựa ô' mới nhất của giới AI gây chấn động ngành công nghệ
Một mô hình AI của Trung Quốc cực kỳ hiệu quả và mạnh mẽ đã làm chấn động ngành công nghệ. DeepSeek R1 đang khiến Phố Wall vô cùng quan ngại.
DeepSeek là gì?
DeepSeek là một công ty tư nhân của Trung Quốc được thành lập vào tháng 7/2023 bởi Liang Wenfeng, tốt nghiệp Đại học Chiết Giang, một trong những trường đại học hàng đầu của Trung Quốc, người đã tài trợ cho công ty khởi nghiệp này thông qua quỹ đầu cơ của mình, theo MIT Technology Review.
Theo dữ liệu từ nhà phân tích Dan Ives của Wedbush Securities, ông Liang, sinh năm 1985, có khoảng 8 tỷ USD tài sản.
Liang Wenfeng, người trước đây tập trung vào việc áp dụng AI vào đầu tư, đã mua một "kho chip Nvidia A100", một loại công nghệ hiện bị cấm xuất khẩu sang Trung Quốc. Những con chip đó đã trở thành cơ sở của DeepSeek, ấn phẩm của MIT đưa tin.
DeepSeek là một trong số hàng chục công ty khởi nghiệp xuất hiện trong những năm gần đây nhằm tìm kiếm khoản đầu tư lớn để đón đầu làn sóng AI khổng lồ đã đưa ngành công nghệ lên một tầm cao mới.
Giống như các công ty khởi nghiệp AI khác, bao gồm Anthropic và Perplexity, DeepSeek đã phát hành nhiều mô hình AI cạnh tranh khác nhau trong năm qua đã thu hút được sự chú ý của ngành.
Mô hình V3 của công ty đã nâng cao nhận thức về công ty, mặc dù các hạn chế về nội dung xung quanh các chủ đề nhạy cảm về chính phủ Trung Quốc và ban lãnh đạo của công ty đã làm dấy lên nghi ngờ về khả năng tồn tại của công ty như một đối thủ cạnh tranh trong ngành, tờ Wall Street Journal đưa tin.
Nhưng mô hình R1, xuất hiện bất ngờ khi được tiết lộ vào cuối năm ngoái, đã ra mắt vào tuần trước và thu hút được sự chú ý đáng kể trong tuần này khi công ty tiết lộ về chi phí hoạt động thấp đáng kinh ngạc của mình.
Ứng dụng DeepSeek đã tăng vọt trên bảng xếp hạng cửa hàng ứng dụng, vượt qua ChatGPT vào ngày 27/1, trở thành ứng dụng ăn khách nhất trên các AppStore tại Mỹ và đã được tải xuống gần 2 triệu lần.
Ben Reitzes, người đứng đầu bộ phận nghiên cứu công nghệ tại Melius, đã nói với các nhà đầu tư trong một lưu ý rằng DeepSeek tạo ra những đột phá thực sự như một công cụ AI, bao gồm khả năng học tốt hơn và sử dụng bộ nhớ hiệu quả hơn, mặc dù ông bày tỏ sự hoài nghi về "số lượng chip được sử dụng".
DeepSeek có gì khác biệt với các ứng dụng AI khác?
DeepSeek là một mô hình ngôn ngữ lớn nguồn mở dựa trên cái gọi là "tính toán thời gian suy luận".
Theo Giuseppe Sette, chủ tịch công ty nghiên cứu thị trường AI Reflexivity, giải thích đơn giản hơn là "họ chỉ kích hoạt những phần có liên quan nhất trong mô hình của họ cho mỗi truy vấn và điều đó giúp tiết kiệm tiền bạc và sức mạnh tính toán".
Một số chuyên gia đã ca ngợi hiệu suất của DeepSeek. Nhà đầu tư công nghệ nổi tiếng Marc Andreessen đã viết trên X vào ngày 24/1 rằng "DeepSeek R1 là một trong những đột phá đáng kinh ngạc và ấn tượng nhất mà tôi từng thấy — và với tư cách là mã nguồn mở, đây là một món quà sâu sắc dành cho thế giới."
David Sacks, một nhà đầu tư mạo hiểm được ông Trump bổ nhiệm để giúp giám sát chính sách AI và tiền điện tử, đã phát biểu trên mạng xã hội rằng ứng dụng DeepSeek "cho thấy cuộc đua AI sẽ rất cạnh tranh".
DeepSeek có ý nghĩa gì đối với Nvidia và các công ty công nghệ khác?
Phố Wall đang cố gắng đánh giá tác động dài hạn của một công cụ AI giá rẻ từ Trung Quốc cạnh tranh với ChatGPT và các ứng dụng AI tạo sinh khác. Nó cũng đặt ra câu hỏi về việc liệu Thung lũng Silicon có đang chi tiêu quá mức cho những tiến bộ công nghệ trong lĩnh vực AI hay không.
Jay Woods, chiến lược gia toàn cầu tại Freedom Capital Markets, cho biết: "Việc công nghệ này được cho là tiêu thụ ít năng lượng hơn và tiết kiệm chi phí hơn so với các mô hình của Mỹ khiến các nhà đầu tư công nghệ Mỹ rất quan ngại".
"DeepSeek là một tiến bộ AI tuyệt vời và là ví dụ hoàn hảo về khả năng mở rộng thời gian thử nghiệm. Công trình của DeepSeek minh họa cách tạo ra các mô hình mới bằng kỹ thuật đó, tận dụng các mô hình có sẵn rộng rãi và tính toán tuân thủ hoàn toàn kiểm soát xuất khẩu", Nvidia nói về DeepSeek.
Tuy nhiên, Nvidia cho biết thêm, suy luận AI hoặc sử dụng các mô hình AI để đưa ra quyết định hoặc dự đoán "cần số lượng lớn GPU NVIDIA và mạng hiệu suất cao. Hiện chúng tôi có ba quy tắc mở rộng: đào tạo trước và đào tạo sau, vẫn tiếp tục, và quy mô thời gian thử nghiệm mới".
Bên cạnh đó, thế thống trị trong lĩnh vực AI của Mỹ cũng đang bị đặt dấu hỏi với sự xuất hiện của DeepSeek.
Keith Lerner, nhà phân tích tại Truist cho biết: "Việc triển khai mô hình DeepSeek đang khiến các nhà đầu tư đặt câu hỏi về vị trí dẫn đầu của các công ty Mỹ và số tiền đang được chi tiêu và liệu khoản chi tiêu đó có dẫn đến lợi nhuận (hay chi tiêu quá mức) hay không. Cuối cùng, quan điểm của chúng tôi là chi tiêu cần thiết cho dữ liệu và những thứ tương tự trong AI sẽ rất đáng kể và các công ty Mỹ vẫn là những người dẫn đầu".
Mặc dù thành tựu tiết kiệm chi phí có thể đáng kể, nhưng mô hình R1 là đối thủ cạnh tranh của ChatGPT — một mô hình ngôn ngữ lớn tập trung vào người tiêu dùng. Nó vẫn chưa chứng minh được rằng nó có thể xử lý một số khả năng AI đầy tham vọng cho các ngành công nghiệp — hiện tại — vẫn đòi hỏi đầu tư cơ sở hạ tầng rất lớn.
Giuseppe Sette, chủ tịch công ty nghiên cứu thị trường AI Reflexivity, cho biết: "Nhờ nguồn nhân tài dồi dào và nguồn vốn dồi dào, Mỹ vẫn là 'sân nhà' triển vọng nhất mà chúng tôi kỳ vọng sẽ chứng kiến sự xuất hiện của AI tự cải thiện đầu tiên".
Đôi nét về người sáng lập
Liang Wenfeng sinh năm 1985 tại một thành phố ở Trạm Giang, Quảng Đông, Trung Quốc. Năm 2002, Liang Wenfeng được nhận vào Đại học Chiết Giang chuyên ngành kỹ thuật thông tin điện tử với kết quả xuất sắc và sau đó tiếp tục theo học thạc sĩ chuyên ngành kỹ thuật thông tin và truyền thông tại cùng trường Đại học.
Từ năm 23 tuổi, Liang Wenfeng đã thành lập một nhóm với các bạn cùng lớp và bắt đầu tích lũy dữ liệu thị trường, các dữ liệu liên quan khác trên thị trường tài chính và dữ liệu kinh tế vĩ mô.
Sau khi tốt nghiệp, Liang không đến nhà máy lớn để làm lập trình viên như những người xung quanh mà ở trong một căn nhà cho thuê giá rẻ ở Thành Đô để thử thách bản thân với nhiều mô hình AI, sau đó tạo ra Magic Square Quantitative.
Magic Square Quantitative do ông lãnh đạo đã đưa ra chiến lược AI lần đầu tiên vào năm 2016 và hiện thực hóa toàn bộ chiến lược đầu tư dựa trên AI vào năm 2017, trở thành công ty tiên phong đổi mới trong lĩnh vực đầu tư định lượng.
Magic Square Quantitative chỉ được thành lập cách đây 6 năm và quy mô quản lý của nó đã lên tới 100 tỷ NDT. Nó được biết đến như một trong "Tứ đại vương định lượng ". Đây cũng là công ty duy nhất ở Trung Quốc công khai tuyên bố sở hữu 10.000 card đồ họa Nvidia A100. Dự trữ sức mạnh tính toán của họ không thua kém nhiều công ty Internet và công ty công nghệ.
Trong một cuộc phỏng vấn trước đây với giới truyền thông, Liang Wenfeng cho biết việc Magic Square Quantitative bước chân vào lĩnh vực AI không phải ngẫu nhiên mà xuất phát từ sự quan tâm sâu sắc và niềm tin vững chắc vào AI.
Ngay từ khi còn học AI tại Đại học Chiết Giang, Liang Wenfeng đã tin chắc rằng “AI chắc chắn sẽ thay đổi thế giới”, mặc dù quan điểm này vào thời điểm đó chưa được thừa nhận rộng rãi.
Liang Wenfeng nhấn mạnh rằng việc Magic Square Quantative tham gia vào lĩnh vực AI không phải để tái tạo ChatGPT mà là để làm sáng tỏ thêm những bí ẩn chưa được biết đến của AGI thông qua nghiên cứu và khám phá. Họ sẽ bắt đầu với các mô hình ngôn ngữ lớn và dần dần mở rộng sang các lĩnh vực như thị giác, nỗ lực tạo ra AI thực sự ở cấp độ con người.
Cuộc sống hàng ngày của Liang Wenfeng hiện vẫn là đọc báo, viết mã và tham gia thảo luận nhóm. Ông là một trong số ít lãnh đạo công ty có khả năng sánh ngang với các nhà nghiên cứu thực nghiệm.
Theo nhiều người trong ngành đã từng tiếp xúc với DeepSeek, lợi thế của DeepSeek nằm ở mật độ nhân tài cực cao, hầu hết đều đến từ thị trường địa phương Trung Quốc. Một người trong ngành khác từng liên hệ với DeepSeek cho biết: "Gói lương do DeepSeek đưa ra rất cạnh tranh, khiến nó luôn rất hấp dẫn đối với các nhân tài".