《深思深索》

中国人工智能初创公司DeepSeek最近因其高性能、高性价比和开源的大型语言模型（LLM）而受到全球关注。

据《南华早报》报道，业内专家认为，该模型在预训练阶段对汉字的整合是其成功的重要因素。

汉字以高信息密度著称，人们认为使用汉字可以增强模型的逻辑能力，使其能够更有效地处理复杂概念。

电信行业分析师项立刚在社交媒体上表示：“汉字以最小的成本实现了最大的信息传输。”

作为一种高效的信息编码，中文大大提高了人工智能处理的效率并降低了成本。

此外，汉字的多模态性质，通常将视觉元素与含义结合在一起，可以为人工智能模型提供丰富的学习材料。

这一特性有助于提高语言理解和语境理解。

虽然 DeepSeek 尚未公开其训练数据来源，但据推测该模型的中文训练数据涵盖了各种各样的材料，包括古典文学、网络俚语、学术论文、政府文件和地方方言。

这种多样性可能提供了全面的语言基础，进一步提高了模型的性能。

如何举例验证呢？

诗曰：

情动于中而形于言，言之不足故嗟叹之，嗟叹之不足，故永歌之，永歌之不足，不知手之舞之足之蹈之也。

永平港日志