初学LLM
2024-9-8
| 2024-9-8
0  |  Read Time 0 min
type
status
date
slug
summary
tags
category
icon
password
RLHF
 
 
随着 LLM 的发展,其大致可以分为两种类型,后续称为基础 LLM 和指令微调(Instruction Tuned)LLM
 
基础LLM是基于文本训练数据,训练出预测下一个单词能力的模型。其通常通过在互联网和其他来源的大量数据上训练,来确定紧接着出现的最可能的词。例如,如果你以“从前,有一只独角兽”作为 Prompt ,基础 LLM 可能会继续预测“她与独角兽朋友共同生活在一片神奇森林中”。但是,如果你以“法国的首都是什么”为 Prompt ,则基础 LLM 可能会根据互联网上的文章,将回答预测为“法国最大的城市是什么?法国的人口是多少?”,因为互联网上的文章很可能是有关法国国家的问答题目列表。
 
指令微调 LLM 通过专门的训练,可以更好地理解并遵循指令。举个例子,当询问“法国的首都是什么?”时,这类模型很可能直接回答“法国的首都是巴黎”。指令微调 LLM 的训练通常基于预训练语言模型,先在大规模文本数据上进行预训练,掌握语言的基本规律。在此基础上进行进一步的训练与微调(finetune),输入是指令,输出是对这些指令的正确回复。有时还会采用RLHF(reinforcement learning from human feedback,人类反馈强化学习)技术,根据人类对模型输出的反馈进一步增强模型遵循指令的能力。通过这种受控的训练过程。指令微调 LLM 可以生成对指令高度敏感、更安全可靠的输出,较少无关和损害性内容。因此。许多实际应用已经转向使用这类大语言模型。
notion image
from supervised fine-tuning to train a reward model—> build up an optimize policy to
 
but the point is how RLHF used in GEN AI:
 
  • RLHF can be used in AI image generation: for example, gauging the degree of realism, technicality, or mood of artwork
  • In music generation, RLHF can assist in creating music that matches certain moods and soundtracks to activities
  • RLHF can be used in a voice assistant, guiding the voice to sound more friendly, inquisitive, and trustworthy
 
 
key point:
清晰明确给予充足思考时间
  • 开发
  • 抽象 继承与接口何为责任链模式
    Loading...
    Catalog