Anthropic宣布重大突破,提出更好地理解神经网络行为的方法。研究成果将提高下一代人工智能的安全性和可靠性,有望帮助研究人员和开发者更好地控制AI模型的行为。Anthropic通过深入研究神经网络的特征,解析了神经网络内部的工作方式,为预测神经网络结果提供了新方法。这一突破或有助于克服理解语言模型行为的挑战,对人工智能领域具有重要意义。