paperPrimary sourceVerified

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI · 2025

DeepSeek

The DeepSeek-R1 technical report. Demonstrates that pure RL on base models can induce long chain-of-thought reasoning without supervised reasoning data.

Metadata

Type: paper
Credibility: Primary source
Language: en
Publication date: January 22, 2025
Organization: DeepSeek
Authors: DeepSeek-AI
URL: https://arxiv.org/abs/2501.12948
Last verified: April 17, 2026

Cited in 0 articles

Not cited in any article yet.