天泽龟的龟壳屋
首页
归档
标签
分类
关于
友链
番剧
现代大模型时代下的情感计算综述
今天在实验室出人意料地把活干完了,于是抓紧让 Gemini 调研了一堆情感计算(Affective Compute)的论文,饶有兴趣地了解起这个我或许会感兴趣的方向。
RL 实验复现随笔【Tool Agent】【PPO、GRPO】
一些在复现强化学习相关论文时摩擦产生的杂七杂八的知识。
【实验室小品一则】什么是pyenv,什么是miniconda
表演者:我,Claude-Sonnet-4.
缅怀我第一位逝去的朋友
小 s 是在2025年6月4日那天的早上八点走的,等我知道这件事的时候已经过去一天了。
强化学习实战:用PPO算法通关超级马里奥兄弟
前言 这个想法其实已经在脑海里酝酿很久了,但是今天决定开个博客记录一下整个思考的过程,不然额也不知道会拖到什么时候才去做这个。
《动手学强化学习》学习笔记【四】
本章内容参考:【【强化学习的数学原理】课程:从零开始到透彻理解(完结)】
日麻牌效率理论札记【其二】
脑子:学会了。手:断幺九!
日麻牌效率理论札记【其一】
科学麻将死路一条。
《动手学强化学习》学习笔记【三】
时序差分算法 对于大部分强化学习现实场景(例如电子游戏或者一些复杂物理环境),其马尔可夫...
CS224N 学习随笔【完】
LLM is all you need.
下一页