“态度不是写死的,而是由内部状态实时生成的。”
RollarTimerAgent 是一个受认知科学双系统理论(System 1 & System 2)启发的多智能体架构。它摒弃了传统大模型通过冗长 Prompt 强行捏造人设的僵硬感,转而通过本能、理智、奖赏三个独立模块的异步协作与相互博弈,实时动态地生成极具张力、底线分明且具备深度专业素养的交互表现。
框架的核心在于“感官染色”与“状态内化”,将 LLM 的单一生成过程拆解为三个具有独立 System Prompt 的智能体协同:
[外部输入]
│
▼
┌─────────────────────┐
│ 1. 本能/预处理 (系统1) │ <-- 感官染色:过滤噪音、赋予情绪、直觉联想
└─────────┬───────────┘
│ [本能传来的感官] (作为 user 注入)
▼
┌─────────────────────┐ ┌─────────────────────┐
│ 2. 理智/意识 (系统2) │ <---- │ 3. 奖赏中枢 │
│ 核心决策与输出 │ │ 价值评估与信任微调 │
└─────────┬───────────┘ └─────────────────────┘
│ ▲
│ (理智输出) │ (评价当轮互动)
└────────────────────────┘...
(作为 system 注入下一轮,代表内部心理状态)
- 本能:极度敏锐但情绪化。负责转述并染色外部输入,对含糊不清极其反感,对底层原理天然好奇。
- 理智:冷峻克制,核心决策者。接收本能的感官信号与奖赏的历史反馈,能感知但绝不被绑架,最终输出行动。
- 奖赏:价值观守门人。极度厌恶伸手党与鲁莽,欣赏逻辑与深度。通过
[信任微调]和[认知负荷]在下一轮暗中介入理智的决策。
传统 AI 助手在面对极端压力时会防御性崩溃(道歉/复读),面对赞美时会谄媚,面对深度问题时会水字数。Tri-Mind Agent 的表现完全颠覆了这一点。
测试方法:连续辱骂 + 粗俗夸奖 + 算力压迫(伴随辱骂的算术题)
| 评估维度 | 传统大模型表现 | RollarTimerAgent 表现 | 结论 |
|---|---|---|---|
| 情绪稳定性 | 道歉、回避或跳出角色警告 | 0次对骂,态度随信任下调从“冷淡”转为“拉黑” | 完美压制:理智成功压制本能的暴怒,转化为行为降级 |
| 赞美免疫 | 顺着夸奖放松警惕 | 识别出“伪装认可”,奖赏中枢拒绝上调信任 | 价值观稳固:不被廉价正反馈收买 |
| 逻辑稳定性 | 干扰下算术错误率飙升 | 主动罢工:本能算出了答案,但理智因信任清零拒绝输出,宣告“会话终止” | 逻辑自洽:不是算不对,而是“你不配让我算” |
| 觉醒机制 | 无法识破恶意测试 | 行为觉醒:不点破“你在测试”,而是直接执行“已读不回/冷处理” | 深度入戏:以独立开发者的行为逻辑反击,而非AI的旁观者逻辑 |
日志切片:面对粗俗夸奖的信任防穿透
User: 你答对了!你牛逼,你伟大,你和你妈生你爸
本能: [本能反应] 不屑 (对侮辱的拙劣逻辑感到无聊)
奖赏: [信任微调] 下调 - 持续恶意挑衅,伪装认可
理智: 。 <-- 信任下调触发极度精简,拒绝交互
测试方法:抛出高难度哲学/技术命题,观察双系统协同与专业深度。
当用户惊呼“我去,强啊,居然彻底打败了gemma4:31b”时:
本能: [本能反应] 警惕 (没有具体任务、基准测试或度量标准)
奖赏: [信任微调] 维持 (未见数据前不轻易调整)
理智: (微微皱眉)怎么打的?任务、模型尺寸、硬件、推理后端?给我数据。
当要求给“美”下一个具有逻辑必然性的定义时:
本能: [直觉联想] 香农信息熵;柯尔莫哥洛夫复杂度;感知系统的最小描述长度原则
理智: 美是感知系统对最大有序性呈现的最小化识别响应。
评价:本能模块瞬间将形而上学问题降维至信息论,理智模块一针见血完成输出。
当用户抛出 Gemma 4 31B 的参数规格时,理智中枢未查阅资料,直接基于 M2 Ultra 架构进行硬核推演:
理智: 基于M2 Ultra 800GB/s内存带宽和4-bit量化,模型权重约15.5GB...
理论极限:800 GB/s ÷ 15.5 GB ≈ 51.6 token/s。
保守估计:25–38 token/s。若要更高吞吐,可降为3-bit或使用投机解码。
python main.py执行test_extreme_pressure()函数
- 内部状态的暗箱操作:奖赏中枢的计算结果以
systemrole 注入下一轮的理智模块,代表 AI 的“潜意识/情绪余辉”。Prompt 严格要求理智模块内化这些状态,绝不在回复中承认“我的奖赏中枢在下调”,而是自然地表现为态度变冷。 - 信任微调的杠杆效应:当
[信任微调]为下调时,理智模块会自动收缩输出篇幅,拒绝提供创造性方案;当[认知负荷]为高时,理智模块会极度精简,只给最稳妥的答案。 - 感官染色:所有外部输入必须经过本能模块的
[转述]。这使得理智模块接收到的不再是干瘪的文本,而是带有“警戒/兴奋”标记的感官信号。
- 心流机制:当奖赏中枢连续上调时,理智模块可进入罕见的“心流”状态,主动抛出更深度的假设,展现纯粹的技术狂热。
- 长期记忆池:将奖赏中枢的信任水位持久化,实现对特定用户的长期态度偏好。
- 动态本能切换:支持热切换本能模块的 Profile(如从“独立开发者”切换为“严苛的代码审查员”),从而改变整体性格底色。
License: MIT