(资料图)
谷歌DeepMind于8月21日发布论文,提出一种使LLM与人类偏好对齐更简单的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人类反馈的强化学习)使用人类反馈改进语言模型,ReST通过生成和使用离线数据进行训练,从而使得LLM与人类偏好保持一致。研究团队表示,虽然ReST可用于所有生成任务,但本文的重点是机器翻译。研究者在机器翻译任务上进行了实验,测试基准包括IWSLT 2014、WMT 2020和Web Domain。结果表明,ReST可以极大地提高翻译质量。
DeepMind发布提高翻译质量的算法ReST
从小众圈子“火”上T台 中国汉服“玩法”正在深化
不同的单元格格式太多怎么取消(不同的单元格格式太多)
四大新款SUV登陆成都车展 方程豹和红旗HS7领衔 你爱谁?
三部门联合印发《乡村振兴标准化行动方案》
瓜迪奥拉因背伤暂时退出一线,副手利略担正至9月
“演讲艺术与人际沟通”讲座举行
江西造!肯尼亚凯鲁戈亚供水项目完工 解决60万人口“吃水之困”
“破局”再出发!豫园股份2023年中期业绩尽展韧性与活力
市委常委会会议学习贯彻习近平总书记重要指示精神,研究临港、居村减负等工作