27 Januari 2025
4 Min baca
Mengapa model AI Deepseek hanyalah aplikasi teratas di AS
Mulai Cina telah mengejutkan industri teknologi dan pasar keuangan-dengan asisten AI yang lebih murah dan berteknologi rendah sesuai dengan Negara Bagian Seni

Asisten Intelijen Depepseek membuat gelombang besar pada hari Senin, menjadi aplikasi tertinggi di App App Store dan mengirim stok teknologi ke musim gugur. Apa yang telah terjadi?
Deepseek, startup Cina, mengejutkan industri teknologi dengan model baru yang menyaingi kemampuan OpenAI terbaru–dengan chip investasi dan kapasitas yang jauh lebih rendah. AS melarang ekspor chip komputer canggih ke Cina dan membatasi penjualan peralatan pembuatan chip. Deepseek, yang berbasis di Kota Hangzhou Tiongkok timur, dilaporkan memiliki stok chip NVIDIA A100 berkinerja tinggi yang diperoleh sebelum para insinyur Ban-So dapat menggunakan chip untuk mengembangkan model. Namun dalam keberhasilan utamanya, awal mengatakan mereka menggunakan chip NVIDIA H800 yang lebih rendah untuk melatih model baru, yang disebut Deepseek-R1.
“Kami telah melihat, hingga saat ini, keberhasilan perusahaan teknologi besar yang bekerja di AI diukur dalam berapa banyak uang yang mereka miliki, tidak harus apa teknologinya,” kata Ashha Nesarikar, chief executive officer perusahaan AI Plano Intelligence. “Saya pikir kami akan lebih memperhatikan teknologi apa yang mendukung produk dari perusahaan -perusahaan ini.”
Tentang mendukung jurnalisme sains
Jika Anda menikmati artikel ini, pertimbangkan untuk mendukung jurnalisme pemenang penghargaan kami berlangganan. Dengan membeli langganan, Anda membantu memastikan masa depan cerita ini efektif dalam penemuan dan ide -ide yang membentuk dunia kita saat ini.
Dalam tes AI umum dalam matematika dan pengkodean, Deepseek-R1 cocok dengan skor model O1 Open AI, menurut VentureBeat. Perusahaan AS tidak mengungkapkan biaya model bahasa besar mereka sendiri (LLMS), sebuah sistem yang mengalami chatbots populer seperti chatgpt. Tetapi Chief Executive Officer Terbuka Sam Altman mengatakan kepada pemirsa di Massachusetts Institute of Technology pada tahun 2023 yang melatih LLM GPT-4 perusahaan lebih dari $ 100 juta. Sebaliknya, Deepseek mengatakan itu membuat model barunya kurang dari $ 6 juta. Deepseek-R1 gratis untuk diunduh pengguna, sedangkan versi yang sebanding dengan chatgpt berharga $ 200 per bulan.
Jumlah Deepseek $ 6 juta tidak selalu mencerminkan berapa banyak uang yang diperlukan untuk membangun LLM seperti itu sejak awal, kata Nesarikar. Biaya yang dilaporkan Deepseek-R1 dapat mewakili tuning versi terbaru. Namun, katanya, efisiensi energi model yang lebih baik akan membuat AI lebih mudah diakses oleh lebih banyak orang di lebih banyak industri. Efisiensi yang meningkat dapat menjadi kabar baik ketika datang ke dampak lingkungan AI karena biaya menghitung data baru dengan LLM adalah empat hingga lima kali lebih tinggi daripada pertanyaan mesin pencari reguler.
Karena membutuhkan kekuatan perhitungan yang lebih sedikit, biaya menjalankan Deepseek-R1 adalah kesepuluh dari pesaing yang sama, kata Hancheng Cao, asisten profesor sistem informasi dan manajemen operasi di Emory University. “Untuk peneliti atau startup akademik, perbedaan biaya ini sangat bermakna,” kata Cao.
Deepseek mencapai efisiensi modelnya dalam beberapa hal, kata Ananthaswamy, penulis Mengapa Mesin Belajar: Matematika Elegan Di Balik AI Modern. Deepseek-R1 memiliki sekitar 670 miliar parameter, atau variabel yang dipelajari dari selama pelatihan, menjadikannya sumber terbuka terbesar, Ananthaswamy menjelaskan. Tetapi model ini menggunakan arsitektur yang disebut “campuran ahli” sehingga hanya sebagian kecil dari parameter ini -miliar miliaran daripada ratusan miliar -diaktifkan untuk setiap pertanyaan yang diberikan. Ini mengurangi biaya komputasi. Deepseek LLM juga menggunakan metode yang disebut Laten Multihead Attention untuk meningkatkan efisiensinya. Alih -alih memprediksi kata jawaban dengan kata -kata, itu menghasilkan beberapa kata sekaligus.
Model ini sangat berbeda dari yang lain seperti O1 dalam cara memperkuat pembelajaran selama pelatihan. Meskipun banyak LLM memiliki model “kritik” eksternal yang berjalan dengan mereka, memperbaiki kesalahan dan menjatuhkan LLM ke arah jawaban bersertifikat, Deepseek-R1 menggunakan seperangkat aturan internal untuk model untuk mengajarkannya yang dapat menghasilkan yang terbaik. “Deepseek telah mengoordinasikan prosesnya,” kata Ananthaswamy.
Aspek penting lain dari Deepseek-R1 adalah bahwa perusahaan telah membuat kode di belakang sumber produk, kata Ananthaswamy. (Data pelatihan reguler berpemilik.) Ini berarti bahwa klaim perusahaan dapat diperiksa. Jika model ini seefisien tuntutan Deepseek, katanya, itu mungkin membuka cara baru bagi para peneliti yang menggunakan AI dalam pekerjaan mereka untuk melakukannya lebih cepat dan lebih murah. Ini juga akan memungkinkan lebih banyak penelitian ke dalam pekerjaan internal LLMS sendiri.
“Salah satu hal utama adalah divisi ini yang telah dibuka antara akademisi dan industri karena akademisi tidak dapat bekerja dengan model -model besar ini atau melakukan penelitian dengan cara yang bermakna,” kata Ananthaswamy. “Tapi seperti ini, itu dalam jangkauan akademis sekarang, karena kamu punya kode.”
Catatan Editor (1/28/25): Artikel ini diedit setelah memposting untuk memperbaiki nama Hancheng Cao yang diberikan dan nama Apple Store dan untuk menjelaskan angka-angka untuk biaya dan jumlah parameter yang dilaporkan Deepseek-R1.