DecryptPrompt

解密提示

如果LLM的突然到来让你感到沮丧，认知读下主目录的抑郁症AI学者选择你的武器生存策略持续更新以下内容，星标持续更新~

目录顺序如下

三维，垂直领域大模型
Agent和指令调用等训练框架
开源指令，预训练，rlhf，对话，代理训练数据整理
AIGC相关应用
提示写作指南和5星博客等资源整理
Prompt和LLM论文解读方向梳理

我的博客

LLMS

模型体育

名单	结果
AlpacaEval：基于LLM的自动评估	开源模型王者vicuna,openchat, Wizardlm
Huggingface 开放式 LLM 排行榜	MMLU只评估模型，Falcon开源项目，在Eleuther AI4个评估集上评估的LLM模型评估，vicuna建设
https://opencompass.org.cn/	上海人工智能实验室推出的开源排行榜
伯克利出品大模型排位赛榜有准中文排行榜	Elo评分机制，GPT4自然是稳居第一，GPT4>克劳德>GPT3.5>骆驼毛>其他
CMU开源聊天体育应用	ChatGPT>Vicuna>其他；在对话场景中训练可能很重要
Z-Bench中文真格基金体育	国产中文模型的编程可用性还相对较低，大家水平相差不多，两个版本ChatGLM提升明显
思路链评估	GSM8k、MATH等复杂题排行榜
InfoQ 大模型综合能力评估	面向中文，ChatGPT>文心一言>克劳德>星火
ToolBench：工具调用评估清单	工具模型和ChatGPT进行对比，提供剧情脚本
AgentBench：推理决策评估列表	清华联合多高校生产不同的任务环境，例如购物、家居、休闲等场景下模型推理决策能力
标志评估	智源出品优势+侦查LLM评分排行榜
鸟凳	更贴合真实世界应用的大型数据库，需要领域知识的NL2SQL列表，模型追赶人类尚有时日
科拉	以世界知识为核心的评价基准，包括已知的百科知识和未知的近90天网络发布内容，评价知识的记忆、理解、应用和创造能力
西瓦尔	中文知识评估，覆盖52个学科，机器评价主要为示范选择
CMLU	67个主题中文知识和推理能力评估，替代选择机器评估
LLMEval3	复旦推出的知识问答列表，涵盖大学作业和考题，题库问题来自非互联网避免模型作弊
财务Q	度小开源的金融项目选择评估数据集
SWE-长凳	基于github真实问题和PR的模型编程能力评估

国外开源模型

模型链接	模型描述
Φ3-MINI-128K	还是质量>数量的训练逻辑，微软的3B小模型
LLama3	Open Meta带着可开源的羊驼3模型来了，重回王座~
向导LM-2-8x22B	微软带来的WizardLM-2也来了包括70B，7B和8*22B
开放索拉	没等来OpenAI却等来了OpenSora这个梗不错哦
格罗克	马斯克开源Grok-1：3140亿收益最大，权重架构全开放
芽	谷歌商场开源模型2B，7B免费开发
混合8*7B	法国“openai”基于MegaBlocks开源训练的MOE模型8*7B 32K
米斯特拉尔7B	法国“openai”Mistral，超过开源llama2当前最好7B模型
Idefics2	Hugging Face 推出 Idefics2 8B 多模态模型
Dolphin-2.2.1-Mistral-7B	基于Mistral7B使用dolphin数据集
鹘	Falcon由外汇技术研究所在超高质量1万亿代币上训练得到1B，7B，40B开源，免费！土豪们表示钱什么的格局小了
骆驼毛	Alpaca前成员等以LLama13B开源为基础使用ShareGPT指令变量的模型，提出了用GPT4来气压模型效果
开放聊天	80k ShareGPT对话LLama-2 13B开源模型中的深度
原驼	LLama 7B底座，在alpaca52K数据上加入534K多语言指令数据调节
MPT	MosaicML的预训练+配置开源的新模型，可运行，支持84k tokens超长输入
红色睡衣	RedPajama项目既预数据训练后开源培训3B，7B的预+指令调试模型
考拉	使用alpaca，HC3等指令开源集+ ShareGPT等ChatGPT数据增量llama，在排行榜上排名靠前
查拉玛	基于RLHF变量了LLaMA
羊驼毛	斯坦福开源的使用52k数据在7B的LLaMA上API获取，
羊驼	洛拉扮演的骆驼
单峰骆驼	具有 LLaMA 基础的 IBM 自对齐模型
巨聊	HPC-AI Tech的Llama+RLHF开源配置
迷你GPT4	Vicuna+BLIP2 文本波动融合
堆栈LLama	LLama使用Stackexchange数据+SFT+RL
大脑	Cerebras开源了1亿到130亿训练的7个模型，从预数据到参数全开源
多莉-v2	可使用7b指令参数模型在GPT-J-6B开源上
开放聊天工具包	openai研究员打造GPT-NoX-20B+6B审计模型过滤
金属LM	微软开源的大规模自监督预训练模型
亚马逊泰坦	亚马逊在aws上增加自家大模型
模内贴标	Meta复刻GPT3，高达175B，但效果并不及GPT3
盛开	BigScience出品，规模最大176B
布卢姆Z	BigScience出品，基于Bloom API
加拉西亚	和Bloom相似，更针对科研领域训练的模型
T0	BigScience出品，3B~11B的在T5进行指令扭矩的模型
EXLL妈妈	Llama 的 Python/C++/CUDA 实现，用于 4 位 GPTQ 权重
长聊	llama-13b使用压缩旋转嵌入技术可怕的长文本模型
MPT-30B	MosaicML开源的在8Ktoken上训练的大模型

国内开源模型

模型链接	模型描述
DeepSeek-v2	深度求索最新发布的21B MOE超基础模型降低KV-cache高效推理更
Qwen1.5-MoE-A2.7B	Qwen推出MOE版本，推理更快
Qwen1.5	通义千问升级1.5，支持32K理解
百川2	百川第二代也出第二个版本了，提供了7B/13B Base和聊天的版本
子牙2	基于Llama2训练的ziya2它终于训练完了
实习生LM2 7B+20B	商汤的书生模型2支持200K
实习生-VL	最新多模态景观大模型
Orion-14B-LongChat	猎户星空多语言模型支持320K
聊天GLM3	ChatGLM3发布，支持工具调用等更多功能，不过泛化性有待评估
元-2.0	浪潮发布Yuan2.0 2B，51B，102B
YI-200K	元一智能开源超长200K的6B，34B模型
XVERSE-256K	元象发布13B免费大模型，虽然很长但是
LLama2-中文	没等太久中文预训练后的llama2来了~
玉兰聊天2	高瓴人工智能基于Llama-2中英语继续预训练+指令双/对话强度
蓝色LM	Vivo人工智能实验室开源大模型
zephyr-7B	HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型
XWin-LM	美洲驼2 + SFT + RLHF
思凯沃	昆仑万维集团·天工团队开源13B大模型可合作
中国-美洲驼-羊驼	哈工大中文指令调用的LLaMA
苔藓	为复旦正名！了预开源训练，配置配置的所有数据和模型。可运行
实习生LM	书生浦语在超过万亿代币数据上训练的多语千亿参数基础模型
天鹰座2	智源更新Aquila2模型系列包括全新34B
天鹰座	智源开源7B大模型可免费开发
超LM系列	面壁智能开源UltraLM13B，奖励模型UltraRM，和批评模型UltraCM
熊猫LLM	LLAMA2上中文wiki继续预训练+COIG配置调试
XVERSE	据说中文超越llama2的元象开源模型13B模型
比拉	LLama词表·增强预训练+预训练和任务1比1混合SFT+指令样本SFT三级
凤凰	港中文开源凤凰和奇美拉LLM，Bloom底座，40+语言支持
袋熊-7B	达摩院开源强化学习使用RRHF愿景的语言模型，羊驼底座
老虎机器人	虎博开源了7B 180B的模型以及预训练和霸语料
骆驼	中文指令执行的LLaMA，和ChatGLM
开放伙伴	Llama 多语言对话模型
中国长春花	LLama 7B基座，使用Belle+Guanaco数据训练
林利	Llama 7B底座，使用belle+guanaco+pclue+firefly+CSL+newscommentary等7个指令配置数据集训练
萤火虫	中文2.6B模型，提升模型中文编写，古文能力，待开源全部代码，当前只有模型
白泽	使用100k自助聊天对话数据的LLama
美女	使用ChatGPT生成数据对开源模型进行中文优化
茶园	chatgpt后期出来国内的开源开源模型，T5架构是下面PromptCLUE的衍生模型
提示线索	多任务提示语言模型
插头	阿里达摩院发布的大模型，提交申请将会下载链接
每千次展示费用2.0	智源发布CPM2.0
广义线性模型	清华发布的中英双语130B预训练模型
贝灵	基于LLama7B/13B，增强的英语/中文大语言模型的语言显示

法学硕士免费应用

模型链接	模型描述
PPLX-7B/70B	Perplexity.ai的Playground支持他们自家的PPLX模型和动物SOTA模型，Gemma也支持了
基米聊天	Moonshot超长文本LLM可输入20W以上，文档总结无敌
跃问	阶跃星立即推出了同样熟练的长文本大模型
讯飞星火	科大讯飞
文心一言	百度
通义千问	阿里
百川	百川
聊天GLM	智谱轻言
深度搜索	深度求索
360智脑	360
悟空	字节跳动

垂直领域模型及进展

领域	模型链接	模型描述
医疗	麦德GPT	医联发布的
医疗	掌中药	Google在Faln-PaLM的基础上通过多种类型的医疗QA数据进行提示调整指令获得，同时构建了MultiMedQA
医疗	聊天医生	110K真实医患对话样本+5KChatGPT生成数据进行指令调试
医疗	华佗 Med-ChatGLM	医学知识图谱和chatgpt构建中文医学指令数据集+医学文献和chatgpt构建多轮问答数据
医疗	中羊驼药	Chinese-vicuna在cMedQA2数据上
医疗	开放生物医学	清华AIR开源轻量版BioMedGPT,知识图谱&20+生物研究领域多模态预模型
医疗	博士GLM	ChatDoctor+MedDialog+CMD 多轮对话+单轮指令样本 GLM
医疗	医学GPT-zh	自建的医学数据库ChatGPT生成QA+16个情境下SELF构建场景对话
医疗	PMC-美洲驼	医疗论文演讲 Llama
医疗	脉冲	Bloom 表演+继续预训练
医疗	NHS法学硕士	Chatgpt生成的医疗问答，对话，角色模型
医疗	神农医疗大模型	以中医知识图谱的实体为中心生成的中医知识指令数据集11w+，驱动LLama-7B
医疗	岐黄问道大模型	3个子模型构成，已精准疾病的临床治疗模型+基于症状的临床诊疗模型+中医养生条理模型，看起来是要ToB落地
医疗	仲景	基于Ziya-LLama+医疗预训练+SFT+RLHF的中文医学大模型
医疗	微信	心理咨询领域，通过chatgpt改写多轮对话56k
医疗	灵魂聊天	心理咨询领域中文长文本指令与多轮共情对话数据联合指令参数 ChatGLM-6B
医疗	心灵聊天	MindChat-Baichuan-13B、Qwen-7B、MindChat-InternLM-7B使用不同的建筑在模型安全、共情、人类价值观上进行了强化
医疗	DISC医学法学硕士	疾病知识图谱构建QA对+QA对转化成单论对话+真实世界数据重构+人类偏好数据筛选，SFT偏差百川
法律	LawGPT-zh	利用ChatGPT清洗CrimeKgAssitant数据集获得52k单轮问答+我们根据中华人民共和国法律手册上最核心的9k法律条文，利用ChatGPT联想生成具体的场景问答+知识问答使用ChatGPT基于文本构建QA对
法律	法律GPT	基于llama+增加词表二次预训练+基于法律条款构建QA指令配置
法律	骆马律师	法律指令驱动数据集：咨询+法律考试+对话进行指令驱动
法律	法律法律	法律指令扭矩数据集：问答+书籍概念解释，法条内容进行指令扭矩数据集
法律	聊天法	北大推出的法律大模型，应用形式很新颖，类似于频道内流一切功能都融合在对话形式内
法律	录问模型	在baichuan基础上40G二次预训练+100K指令扭矩，在知识库构建上采用了Emb+意图+关键词联想结合的方案
金融	开放式GPT	领域LLM指令样本生成+配置框架
金融	乾元BigBang金融2亿模型	金融领域预训练+任务参数
金融	度小满千亿金融大模型	在Bloom-176B的基础上进行金融+中文预训练和权限
金融	聚宝盆	基于LLaMA系基础模型经过中文金融知识指令精调/指令扭矩(Instruct-tuning)的扭矩模型
金融	貔貅	整理了多个金融任务数据集加入了时间序列数据进行指令参数
金融	芬GPT	金融传统任务调用或chatgpt生成金融工具调用
金融	CFGPT	金融预训练+指令指令+RAG等检索任务增强
金融	DISC金融法学硕士	复旦发布多模型组合金融系统，包括金融知识问答、金融NLP任务、金融计算、金融搜索问答
金融	投资管理公司	CFA考试，SEC，StackExchange投资问题等构建的金融配置驱动LLaMA-65+
金融	深钱	基于yi-34b-200k使用金融研报进行闹钟
编程	星编码器	80种Smashing语言+Issue+Commit训练得到的Smashing大模型
编程	聊天SQL	基于ChatGLM实现NL2sql
编程	代码吉克斯	13B预训练+多语言变大模型
编程	代码吉克斯2	Chatglm2的基础上CodeGeeX2-6B进一步经过了600B代码数据预
编程	稳定代码	560B token多语言预训练+ 120,000个Alpaca指令箭头
编程	SQL编码器	在StarCoder的基础上扭矩15B超越gpt3.5
数学	数学GPT	是好的未来自主研发的，面向全球数学爱好者和科研机构，以解题和讲题算法为核心的大模型。
数学	长毛象	通过COT+POT构建了MathInstruct数据集骆驼在OOD数据集上超越了WizardLM
数学	元数学	模型逆向思维解决数学问题，构建了新的MetaMathQA 控制器 llama2
交通	转GPT	LLama-7B+34.6万领域预训练+5.8万条领域指令对话（来自文档问答）
交通	交通GPT	ChatGPT+Prompt实现规划，调用交通流量领域专业TFM模型，TFM负责数据分析，任务执行，可视化等操作
科技	墨子	红睡衣预训练+论文QA数据集+ChatGPT补充科研对话数据
天文	星型GLM	天文知识指令配置，项目进行中高级考虑天文二次预训练+KG
科	阅读文-网文大模型介绍	签约作者内测中，主打的内容为打斗场景、剧情切换、环境描绘、人物设定、世界观等辅助片段的生成
科	媒体GPT	LLama-7B增强词表+指令强度，指令来自国内媒体专家给出的在新闻创作上的80个子任务
电商	生态GPT	电商领域任务指令负载大模型，指令样本250万，基础模型是Bloomz
植物科学	聚乳酸	基于Llama使用植物科学领域学术论文继续预训练+sft扩展的领域模型
评估	自动J	上交开源进行了价值评估13B模型
评估	法官LM	智源开源了 JudgeLM 的裁判模型，可以准确地评价高效判罚主流模型
评估	法学硕士批判	智谱AI发布评分模型CritiqueLLM，支持含参考文本/无参考文本的评估打分

工具和库

推理框架

工具描述	链接
FlexFlow：模型部署推理框架	https://github.com/flexflow/FlexFlow
Medusa：针对采样解码的推理加速框架，可以和策略其他结合	https://github.com/FasterDecoding/Medusa
FlexGen：LLM 推理 CPU 卸载计算架构	https://github.com/FMInference/FlexGen
VLLM：超高速推理框架Vicuna，竞技场背后的无名英雄，比HF快24倍，支持很多基座模型	https://github.com/vllm-project/vllm
Streamingllm：新的注意力池注意力方案，耗费更多拓展模型推理长度，同时为推理提速	https://github.com/mit-han-lab/streaming-llm
llama2.c: llama2纯C语言的推理框架	https://github.com/karpathy/llama2.c

指令参数，预训练，rlhf框架

工具描述	链接
LoRA：低阶指令参数方案	https://github.com/tloen/alpaca-lora
peft：参数高效的提示调整工具集	https://github.com/huggingface/peft
RL4LM：AllenAI 的 RL 工具	https://github.com/allenai/RL4LMs
RLLTE：港大，大疆等联合开源RLLTE开源学习框架	https://github.com/RLE-Foundation/rllte
trl：基于Transformer的强化训练框架	https://github.com/lvwerra/trl
trlx：环球训练trl	https://github.com/CarperAI/trlx
北大开源河狸项目可复现RLHF，支持大多数LLM，提供RLHF数据	https://github.com/PKU-Alignment/safe-rlhf
RL4LM：AllenAI 的 RL 工具	https://github.com/allenai/RL4LMs
LMFlow：港科大实验室的开源模型配置框架，支持多数开源模型的配置和RLHF	https://github.com/OptimalScale/LMFlow
HuggingNLP：基于Huggingface开发继承Prompt技术，预训练和是指输入等多种方案	https://github.com/wjn1996/HugNLP
Deepspeed：针对RL训练和推理的整合优化	https://github.com/microsoft/DeepSpeed
Uerpy：预训练框架支持lm、mlm、unilm等	https://github.com/dbiir/UER-py
TecentPretrain：Uerpy的重构版本支持llama预训练	https://github.com/Tencent/TencentPretrain/tree/main
lamini：整合指令数据生成，SFT，RLHF的工具库	https://github.com/lamini-ai/lamini/
Chain-of-thought-hub：模型推理能力评估平台	https://github.com/FranxYao/chain-of-thought-hub
EasyEdit：浙大开源支持多种模型，多种方案的模型知识精准编辑器	https://github.com/zjunlp/EasyEdit
OpenDelta：集成了各种增量需求方案的开源实现	https://github.com/thunlp/OpenDelta
Megablocks：教育部训练框架	https://github.com/stanford-futuredata/megablocks
授课对象：教育部培训框架	https://github.com/microsoft/tutel
LongLora：长文本框架框架	https://github.com/dvlab-research/LongLoRA
LlamaGym：在线RL框架框架	https://github.com/KhoomeiK/LlamaGym
Megatron-LM：主流LLM预训练框架	https://github.com/NVIDIA/Megatron-LM
TradingGym：参考openaigym的股票交易强化学习模拟器	https://github.com/astrologos/tradinggym
TradeMaster：量化交易RL训练框架	https://github.com/TradeMaster-NTU/TradeMaster

自动/多代理

工具描述	链接
AutoGen：开源多Agent框架框架	https://github.com/microsoft/autogen
CrewAI：比chatDev流程定义了更灵活的多智能体框架	https://github.com/joaomdmoura/CrewAI
ChatDev：面壁智能多开源智能体协作的虚拟软件公司	https://github.com/OpenBMB/ChatDev
Generative Agents：斯坦福AI小镇的开源代码	https://github.com/joonspk-research/generative_agents
BabyAGI：自执行LLM代理	https://github.com/yoheinakajima/babyagi
AutoGPT：自执行LLM代理	https://github.com/Torantulino/Auto-GPT
AutoGPT-Plugins：提供大众Auo-GPT官方和第三方的插件	https://github.com/Significant-Gravitas/Auto-GPT-Plugins
XAgent：面壁智能双开源循环AutoGPT	https://github.com/OpenBMB/XAgent
MetaGPT：覆盖软件公司全生命流程，例如产品经理等各个职业的AutoGPT	https://github.com/geekan/MetaGPT
ResearchGPT：AutoGPT领域的论文写作，融合论文拆解+网络爬虫	https://github.com/assafelovic/gpt-researcher
MiniAGI：自执行LLM代理	https://github.com/muellerberndt/mini-agi
AL Legion：自执行LLM代理	https://github.com/eumemic/ai-legion
AgentVerse：多模型交互环境	https://github.com/OpenBMB/AgentVerse
AgentSims：给定一个社会环境，评估LLM作为智能体的预定任务目标完成能力的沙盒环境	https://github.com/py499372727/AgentSims/
GPTRPG：RPG环境AI代理游戏化	https://github.com/dzoba/gptrpg
GPTeam：多智能体交互	https://github.com/101dotxyz/GPTeam
GPTEngineer：自动工具构建和代码生成	https://github.com/AntonOsika/gpt-engineer
WorkGPT：类似AutoGPT	https://github.com/team-openpm/workgpt
AI-Town：虚拟世界模拟器	https://github.com/a16z-infra/ai-town
webarena：网络拟真环境，可用于自主智能体的测试，支持在线购物，论坛，代码仓库等	https://github.com/web-arena-x/webarena
MiniWoB++：100+web交互的拟真环境	https://github.com/Farama-Foundation/miniwob-plusplus
VIRL：虚拟世界模拟器	https://github.com/VIRL-Platform/VIRL

Agent工具框架类

工具描述	链接
OpenAgents：ChatGPT开源-Plus版搭建框架	https://github.com/xlang-ai/OpenAgents
LangGraph：白盒话，可循环基于有向无环图的Agent工作流构建框架	https://langchain-ai.github.io/langgraph/
langchain：LLM代理框架	https://github.com/hwchase17/langchain
llama索引：LLM代理框架	https://github.com/jerryjliu/llama_index
Langroid：LLM代理框架	https://github.com/langroid/langroid
Ragas：评估搜索增强LLM效果的框架，基于大模型及时评估事实、认知相关性、认知内容质量、回答相关性等	https://github.com/explodinggradients/ragas#fire-quickstart
fastRAG：搜索框架，包括多索引搜索，KG构建等基础功能	https://github.com/IntelLabs/fastRAG/tree/main
langflow：把langchain等agent组件外接了可拖拽式的UI	https://github.com/logspace-ai/langflow
PhiData：把工具调用抽象成函数调用的Agent框架	https://github.com/phidatahq/phidata
Haystack：LLM Agent框架，pipeline的设计模式个人感觉比langchain更灵活更简洁	https://github.com/deepset-ai/haystack
EdgeChain：通过Jsonnet配置文件实现LLM代理	https://github.com/arakoodev/EdgeChains/tree/main
语义内核：集成模型和编程语言的SDK	https://github.com/microsoft/semantic-kernel
BMTTools：清华出品多工具调用开源库，提供第三方数据和评估ToolBench	https://github.com/OpenBMB/BMTools
Jarvis：大模型调用小模型框架，给小模型一个未来！	https://github.com/search?q=jarvis
LLM-ToolMaker:让LLM自己制造代理	https://github.com/ctlllll/LLM-ToolMaker
Gorilla：LLM调用大量API	https://github.com/ShishirPatil/gorilla
Open-Interpreter：命令行聊天框架	https://github.com/KillianLucas/open-interpreter
AnythingLLM：langchain推出的支持本地开源部署模型的框架	https://github.com/Mintplex-Labs/anything-llm
PromptFlow：微软推出的大型模型应用框架	https://github.com/microsoft/promptflow
Anakin：和 Coze 类似的代理定制应用程序，插件支持很少，但工作流程使用起来更简洁	r
TaskingAI：面向API的类似langchain的大模型应用框架	https://www.tasking.ai/
TypeChat：微软推出的Schema Engineering风格的应用框架	https://github.com/microsoft/TypeChat
DSPy：将稳定性低的提示优化为参数化和模板化的提示技术	https://github.com/stanfordnlp/dspy

Agent Bot [托拉拽中间层]

应用	链接
迪菲	https://dify.ai/zh
科兹	https://www.coze.com/
阿纳金	https://app.anakin.ai/discover
福洛威斯	https://github.com/FlowiseAI/Flowise/blob/main/README-ZH.md

RAG安装工具

工具	描述
亚历山大港	来自Arix论文开始将整个互联网变成支持索引，可以免费下载
快速API	统一这个世界上的所有API，最大的API Hub，有调用成功率，延迟等，真是爱！
PyTesseract	OCR解析服务
易捷OCR	确实使用了非常友好的 OCR 服务
各不相同	旷视多模态大模型pdf直接转Markdown
骆驼解析	LLamaIndex提供的PDF解析服务，每天免费1000篇
吉娜-科伯特	健AI开源中英德，8192 Token长文本嵌入
BGE-M3	智源开源多语言，稀疏+稠密表征，8192 Token长文本嵌入
公元前	网易开源更重构RAG任务的Embedding模型
前FLMR-VIT-G	剑桥开源多模态Retriever
开放解析	文本解析分块服务，先分析文档的开源布局再进行切分
布局解析器	准确度排名第一的开源OCR文档布局识别
先进机械	阿里OCR团队的文档解析和图片理解
ragflow-deepdoc	ragflow提供文档识别和解析能力
火爬行	爬取url并生成markdown的神器
随机RAG	注入上下文表征，和自动连接上下文提高边界

其他垂直领域代理

工具描述	链接
GPT4v-ACT：基于JS DOM识别网页元素，服务于多种模式的webagent	https://github.com/ddupont808/GPT-4V-Act?tab=readme-ov-file
Deep-KE：基于LLM对数据进行智能解析实现知识抽取	https://github.com/zjunlp/DeepKE
IncarnaMind：多文档RAG方案，动态分块的方案可以收集	https://github.com/junruxiong/IncarnaMind
Vectra：平台化的LLM代理搭建方案，从索引构建，内容认知排序，到事实检查的LLM生成	https://vectara.com/tour-vectara/
Data-Copilot：时间序列等重构数据分析领域的Agent解决方案	https://github.com/zwq2018/Data-Copilot
DB-GPT：以数据库为基础的GPT实验项目，使用本地化的GPT大模型与您的数据和环境进行交互	https://db-gpt.readthedocs.io/projects/db-gpt-docs-zh-cn/zh_CN/latest/index.html
Guardrails：降低模型幻觉的python框架，提示模板+验证+修改	https://github.com/shrear/guardrails
指导：微软新开源框架，同样是降低模型幻觉的框架，提示+链的升级版加入渐进生成和思维流程图	https://github.com/guidance-ai/guidance
SolidGPT：上传个人数据，通过命令交互创建项目PRD等	https://github.com/AI-Citizen/SolidGPT
HR-Agent：类似HR和员工交互，支持多工具调用	https://github.com/stepanogil/autonomous-hr-chatbot
BambooAI：数据分析Agent	https://github.com/pgalko/BambooAI
AlphaCodium：通过流程工程完成代码任务	https://github.com/Codium-ai/AlphaCodium
REOR：AI驱动的笔记软件	https://github.com/reorproject/reor
Vanna.AI：与sql数据库聊天	https://vanna.ai/
融合了图逻辑和LLM的高效爬虫	https://scrapegraph-doc.onrender.com/

训练数据

数据类型	数据描述	数据链接
指令参数	自指令，GPT3自动生成&过滤获取指令集	https://github.com/yizhongw/self-instruct
指令参数	Standford Alpaca：52K text-davinci-003生成的自指令指令数据集	https://github.com/tatsu-lab/stanford_alpaca
指令参数	GPT4-for-LLM 中文+中文+对比指令	https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
指令参数	GPTteacher更多样的通用指令角色，播放和代码指令	https://github.com/teknium1/GPteacher/tree/main
指令参数	中文翻译羊驼还有一些其他指令数据集	https://github.com/hikariming/alpaca_chinese_dataset https://github.com/carbonz0/alpaca-chinese-dataset
指令参数	alpaca指令GPT4生成，和以上几个版本对比显着质量更高，回复更长	https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM/tree/main
指令参数	guanaco数据：对Alphca指令重写后以不同语言生成总共534K，有对话和非对话类型，还有补充的QA生成样本	https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
指令参数	OIG中文指令包括翻译羊驼+自然+非自然，多轮对话，考试，leetcode指令	https://github.com/BAAI-Zlab/COIG
指令参数	Vicuna 训练使用的样本，用API获取了sharegpt上用户和chatgpt对话历史，部分网友整理到了HF	https://github.com/domeccleston/sharegpt https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/tree/main
指令参数	HC3指令数据中英文，包括金融，开放QA，百科，DBQA，医学等包含人工回复	https://huggingface.co/datasets/Hello-SimpleAI/HC3-Chinese/tree/main
指令参数	MOSS开源的SFT数据包含使用插件的对话数据	https://huggingface.co/datasets/Hello-SimpleAI/HC3-Chinese/tree/main
指令参数	InstructWildData：用潜爬取的chatgpt指令作为种子self-instruct补充生成，中英文双语	https://github.com/XueFuzhao/InstructionWild/tree/main/data
指令参数	BELLE100万指令数据，参考Alpaca用ChatGPT生成，有数学，多轮对话，校色对话等等	https://github.com/LianjiaTech/百丽
指令参数	PromptCLUE多任务提示数据集：模板构建，只包含标准NLP任务	https://github.com/CLUEbenchmark/pCLUE
指令参数	TK-Instruct微调用的指令数据集，全人工标签1600+NLP任务	https://instructions.apps.allenai.org/
指令参数	T0微调用的指令数据集（P3）	https://huggingface.co/datasets/bigscience/P3
指令参数	p3衍生的46种多语言数据集（xmtf）	https://github.com/bigscience-workshop/xmtf
指令参数	非自然指令使用GPT3生成后改写得到240k	https://github.com/orhonovich/unnatural-instructions
指令参数	羊驼COT对多个数据源进行了清理并统一格式推送的了HF，重点是人工整理的COT数据	https://github.com/PhoebusSi/Alpaca-CoT
指令参数	人工编写包含23种常见的中文NLP任务的指令数据，中文书写方向	https://github.com/yangjianxin1/Firefly
指令参数	Amazon COT 指令样本包括各类 QA，bigbench，math 等	https://github.com/amazon-science/auto-cot
指令参数	CSL包含396,209篇中文核心期刊论文元信息（标题、摘要、关键词、学科、门类）可做预训练可构建NLP指令任务	https://github.com/ydli-ai/CSL
指令参数	羊驼代码 20K代码指令数据	https://github.com/sahil280114/codealpaca#data-release
指令参数	GPT4Tools 71K GPT4 指令样本	https://github.com/StevenGrove/GPT4Tools
指令参数	GPT4指令+玩角色+代码指令	https://github.com/teknium1/GPTeacher
指令参数	Mol-Instructions 2043K 分子+蛋白质+生物分子文本指令，覆盖分子设计、蛋白质功能预测、蛋白质设计等任务	https://github.com/zjunlp/Mol-Instructions
数学	腾讯人工智能实验室发布网上爬取数学题APE210k	https://github.com/Chenny0808/ape210k
数学	猿辅导AI Lab小学应用题Math23K	https://github.com/SCNU203/Math23k/tree/main
数学	小学数学把 OpenAI 的高中数学题改造成指令样本有 2-8 步推理过程	https://huggingface.co/datasets/qwedsacf/grade-school-math-instructions
数学	数学问答数据集有推理过程和演示选择	https://huggingface.co/datasets/math_qa/viewer/default/test?row=2
数学	AMC竞赛数学题	https://huggingface.co/datasets/competition_math
数学	线性代数等纯数学计算题	https://huggingface.co/datasets/math_dataset
代码	来自不同的开放访问编码网站Codeforces、Kattis等收集的问题的APPS	https://opendatalab.org.cn/APPS
代码	LyraCode由带有嵌入式SQL的Python代码组成，经过仔细注释的数据库操作程序，以及中文评论和中文评论。	https://opendatalab.org.cn/Lyra
代码	Conala来自StackOverflow问题，手动注释3k，中文	https://opendatalab.org.cn/CoNaLa/download
代码	code-alpaca ChatGPT 生成20K代码指令样本	https://github.com/sahil280114/codealpaca.git
代码	32K，四种不同类型、不同分量的代码相关中文对话数据，有大模型生成，	https://github.com/zxx000728/CodeGPT
对话	LAION 策划的开放指令通用数据集中手动选择的组件子集已开源40M 3万个,100M在路上	https://github.com/LAION-AI/Open-Instruction-Generalist
对话	百泽基于Chat GPT构建的自聊天数据	https://github.com/project-baize/baize-chatbot/tree/main/data
对话	FaceBook开源BlenderBot训练对话数据~6K	https://huggingface.co/datasets/blished_skill_talk
对话	AllenAI开源38.5万个对话高质量数据集SODA	https://realoxityprompts.apps.allenai.org/
对话	InstructDial 在单一对话任务类型上进行配置配置	https://github.com/prakarguptaz/Instructdial
对话	Ultra Chat 两个独立的 ChatGPT Turbo API 进行对话，从而生成多轮对话数据	https://github.com/thunlp/UltraChat
对话	很棒的开放域对话模型提供了多个开放域对话数据	https://github.com/cingtiye/Awesome-Open-domain-Dialogue-Models#%E4%B8%AD%E6%96%87%E5%BC%80%E6%94%BE%E5%9F%9F %E5%AF%B9%E8%AF%9D%E6%95%B0%E6%8D%AE%E9%9B%86
对话	Salesforce开源超全DialogStudio	https://github.com/salesforce/DialogStudio
对话	基于事实参考的多轮问答中文数据，已开源5万，之后会开源更多	https://github.com/sufengniu/RefGPT
右肺出血	北大河狸RLHF开源数据集10K，1M需要申请	https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K
RLHF	人类 hh-rlhf 数据集	https://huggingface.co/datasets/Anthropic/hh-rlhf
RLHF	Stack-exchange上问题回答，每个答案都有打分多个	https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences/tree/main
RLHF	Facebook Bot 对抗性对话数据集 5K	https://github.com/facebookresearch/ParlAI
RLHF	AllenAI真实毒性提示	https://github.com/facebookresearch/ParlAI
RLHF	OpenAssistant对话160K消息，13500人工生成，中文主控	https://huggingface.co/datasets/OpenAssistant/oasst1
RLHF	知乎选择偏好数据集	https://huggingface.co/datasets/liyu Cheng/zhihu_rlhf_3k
RLHF	hh-rlhf中文翻译偏好数据	https://huggingface.co/datasets/liswei/rm-static-zhTW
RLHF	面壁智能开源大规模偏好数据，基于64K提示使用不同模型生成4个回答使用GPT-4评估	https://github.com/OpenBMB/UltraFeedback
评估集	BigBench(超越模仿游戏基准)	https://github.com/google/BIG-bench
评估集	复杂的 QA：用于 ChatGPT 的体育指令集	https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-ChatGPT
评估集	Langchain开源评估数据集	https://huggingface.co/LangChainDatasets
评估集	2010-2022年全国高考卷的题目	https://github.com/OpenLMLab/GAOKAO-Bench
评估集	中文通用大模型综合性体育基准SuperCLUE	https://github.com/CLUEbenchmark/SuperCLUE
中文预训练	RedPajama开源的复刻llama的预训练数据集，1.21万亿Token	https://github.com/togethercomputer/RedPajama-Data
中文预训练	Cerebras 基于RedPajama进行清洗去重后得到的高质量数据集，6270亿Token	https://huggingface.co/datasets/cerebras/SlimPajama-627B/tree/main/train
中文预训练	堆22个高质量数据集混合的预训练数据集800G,全量开放下载	https://pile.eleuther.ai/
中文预训练	Huggingface发布从CC清理消重后的15T代币的中文网络数据FineWeb	hhttps://huggingface.co/datasets/HuggingFaceFW/fineweb
通用预训练	UER整理CLUECorpusSmall+新闻评论中英文	https://github.com/dbiir/UER-py/wiki/%E9%A2%84%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE
中文预训练	智源人工智能开源的wudao 200G预训练数据	https://github.com/BAAI-WuDao/WuDaoMM
中文预训练	里屋社区开源资源收集中文互联网语料集MNBVC目标是对标ChatGPT的40T	https://github.com/esbatmop/MNBVC
中文预训练	复旦开源15万中文图书下载和抽取方案	https://github.com/FudanNLPLAB/CBook-150K
中文预训练	书生万卷数据集来自公开网页多模态数据集，包括文本，图文和视频，其中文本1T，图文150G	https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0
中文预训练	昆仑天工3.2TB中英语开源料	https://github.com/SkyworkAI/Skywork
中文预训练	浪潮开源的用于Yuan1.0训练的预训练中文料	https://www.airyuan.cn/home
领域预训练	度小满开源60G金融预培训语料	https://github.com/Duxiaoman-DI/XuanYuan
领域预训练	第一个中文科学文献数据集CSL，也有多种NLP任务数据	https://github.com/ydli-ai/CSL
平行语	新闻评论中英平行语料，用于中英间知识迁移	https://data.statmt.org/news-commentary/v15/training/
多源数据集整合	opendatalab 整合了预训练阶段的多个数据源	https://opendatalab.org.cn/?industry=9821&source=JUU3JTlGJUE1JUU0JUI5JThF
工具-搜索增强	webCPM开源和搜索工具进行交互问答的数据集，包括网页抽取式摘要，多事实内容回答等人工标签数据	https://github.com/thunlp/WebCPM
工具-多工具	BmTools 开源的多工具调用指令数据集	https://github.com/OpenBMB/BMTools
工具-多工具	AgentInstruct包含6项Agent任务，包括REACT式COT标签	https://thudm.github.io/AgentTuning/
工具-多工具	MSAgent-Bench 大模型调用数据集 598k 训练数据	https://modelscope.cn/datasets/damo/MSAgent-Bench/summary
工具-多工具	MOSS开源的知识搜索，文生图，外汇，解方程等4个插件的30万条多轮对话数据	https://github.com/OpenLMLab/MOSS#%E6%95%B0%E6%8D%AE
NL2SQL	DB-GPT-Hub整理了多源text-to-sql数据集	https://github.com/eosphoros-ai/DB-GPT-Hub
长文本	清华开源的长文本数据集LongAlign-10k	https://huggingface.co/datasets/THUDM/LongAlign-10k
多模式-图表	MMC 图表理解问答数据集	https://github.com/FuxiaoLiu/MMC

美国国际GC

搜索

通用搜索

秘塔搜索：融合了大脑图，表格多模态问答的搜索应用
You.COM : 支持多种搜索增强问答模式
Walles.AI：融合了图像聊天、文本聊天、chatpdf、web-copilot等多种功能的智能助手
webpilot.ai比ChatGPT自带的网页浏览更好用的浏览器搜索插件，更适用于复杂场景搜索，也开通api调用了
新兵：需要科学上网哦
Perplexity.ai：同样需要科学上网，感觉比Bing做的更好的接入ChatGPT的神奇搜索引擎，在Bing之外还加入了相关推荐和追问
sider.ai : 支持多模型浏览器插件对话和多模态交互操作
360AI搜索: 360的AI搜索和秘塔有些像
MyLens.AI : 支持时间轴，脑图等多种生成结果的搜索增强
Globe Explorer：搜索查询相关的知识并构建类似知识图谱的结构返回图片信息
天工AI搜索：和你相同的清晰模式搜索增强

代码搜索

devv.ai : 基于架构llama2 + RAG架构的属于架构师的搜索引擎
Phind : 面向开发人员的 AI 引擎搜索

知识管理

收集：企业知识搜索和项目管理类的搜索公司，帮助员工快速定位信息，帮助公司整合信息
Mem : 个人知识管理，例如知识图谱，已获openai融资
GPT-Crawler：通过简单配置，可以自行提取网页的文本信息构建知识库，并进一步自定义GPT
ChatInsight：企业级文档管理，和基于文档的对话

聊天文档

Kimi-Chat : 长长长文档理解无敌的Kimi-Chat，单文档总结多文档格式对比，无所不能，多长都行！
ChatDoc :ChatPDF升级版，需要科学上网，增加了表格类解析，支持选择区域的问答，在PDF识别上做的很厉害
AskyourPdf：同样是上传pdf进行问答和摘要的应用
DocsGPT：比较早出来的Chat DOC通用方案
ChatPDF：国内的ChatPDF，上传pdf后，会给出文章的Top5可能问题，然后对话式从文档中进行问答和检索，10s读3万字
AlphaBox : 从个人文件夹管理出发的文档问答工具

论文研究：日度更新，观点总结，

SCISPACE : 论文研究的白月光，融合了全库搜索问答，以及个人上传PDF构建知识库问答。同样支持相关发现论文，和论文划词阅读。并且可以阅读内容保存到笔记本中方便后续查找，可以说是产品和算法强联合了。
共识：AI加持的论文搜素，多论文总结，观点对比工具。产品巨高，但个人感觉搜索做的有提升空间
Aminer : 论文搜索，摘要，问答，搜索关键词符号化改写；但论文知识库问答有些幻觉严重
Cool.paper : 苏神开发的基于kimi的论文阅读网站
OpenRead：国内产品，面向论文写作，阅读场景，可以帮助生成文献综述，以及提供和NotionAI相似的智能Markdown用于写作
ChatPaper : 根据输入关键词，自动在arxiv上下载最新的论文，论文进行摘要总结，可以在huggingface上实验
Researchgpt : 和ChatPDF类似，支持arivx论文下载，加载后对话式获取论文重点
ChatGPT-academic：又是一个基于gradio实现的paper润色， Abstract等功能资源的实现，功能明显可以抢先
BriefGPT : 日更Arxiv论文，论文论文进行摘要，关键词抽取，帮助一下了解最新动态，UI不错哟

写作效率工具类

赛博马良：题如其名，可定制AI员工24小时全网聚焦关注的创作选题，给个体小学进行二次创作
研墨AI：面向咨询领域的内容创作应用
Miracleplus：全AI代理负责运营的黑客新闻网站
ChatMind：chatgpt生成思维导图，模板很丰富，泛化性也不错，已经被XMind收购了
范文喵写作：范文喵写作工具，选题，大纲，写作全流程
WriteSonic：AI写作，支持对话和定向创作如广告文案，商品描述，支持网络搜索是亮点，支持中文
copy.ai : WriteSonic竞品，亮点是像论文引用一样每句话都有对应网站链接，可以一键复制到右边的创作Markdown，超级好用！
NotionAI：智能Markdown，适用真相！在创作中用命令调用AI辅助润色，扩写，搜索内容，给创意idea
Hix-AI：同时提供副驾驶模式和综合写作模式
AI-Write：个人使用感觉较好的流程化写作工具
Jasper : 同上，完全是竞品哈哈
copy.down : 中文的营销文案生成，只能定向定向，支持关键词到文案的生成
Weaver AI：波形智能开发的内容创作应用程序，支持多场景写作
ChatExcel : 指令控制excel计算，对熟悉excel的一些鸡肋，对不熟悉的有点用
MindShow：免费+付费的PPT制作工具，自定义PPT模板还不够好

金融垂直领域

Reportify : 金融领域公司公告、新闻、电话会的问答和摘要总结
Alpha派: kimi加持会议纪要 + 投研问答 + 各类金融资讯综合的一站式平台
状况客FOF智能投顾：基金大模型应用，基金投顾，支持nl2sql类的数据查询，和基金信息对比查询等
HithinkGPT：同花顺发布金融大模型问财，覆盖查询、分析、对比、解读、预测等多个问题领域
FinChat.io：使用最新的财务数据，电话会议记录，季度和年度报告，投资书籍等进行训练
TigerGPT : 老虎证券，GPT4做个股分析，财报分析，投资知识问答
ChatFund：韭圈儿发布的第一个基金大模型，看起来是做了多任务指令调整，并且APP现有的数据功能进行了全方位的打通，从选基，到持仓分析等等
ScopeChat :虚拟币应用，整个对话类似ChatLaw把工具组件嵌入了对话中
AInvest：个股投资，融合BI分析，讨论广场区（有演变成雪球热度指数的赶脚）
无涯Infinity :星环科技发布的金融大模型
曹植：达观发布金融大模型融合data2text等金融任务，赋能报告写作
妙想：东方财富自研金融大模型开放试用，但似乎申请一直未通过
恒生LightGPT :金融领域继续预训练+插件化设计
bondGPT : GPT4在细分债券市场的应用开放申请中
IndexGPT：摩根大通在研的生成式投资顾问
Alpha : ChatGPT加持的金融app，支持个股信息查询，资产分析诊断，财报汇总等
作曲家：量化策略与AI的结合，聊天式+拖拽式投资组合构建与回测
Finalle.ai：实时数据金融流接入大模型
OpenBB：金融投资框架，OpenBB+LLamaIndex主要是大模型+API的使用方案，通过自然语言进行金融数据查询、分析和可视化

私人助理&聊天

Mr.-Ranedeer-：基于prompt和GPT-4的强大能力提供个性化学习环境，个性化出题+模型解答
AI Topiah : 即时心智能角色AI聊天，和路飞唠了两句，多少有点中二之魂在燃烧
聊天库: 情感聊天，尚未尝试
Vana：虚拟DNA，通过聊天创造虚拟自己！概念很炫

代理人

NexusGPT：AutoGPT 可以工作了，第一个全人工智能自由平台
cognosys : 全网最火的web端AutoGPT，不过咋说呢实验了下感觉下巴要笑掉了，不剧去透试试你就知道了
godmode：可以进行人为每一步交互的AutoGPT
agentgpt : 基础版AutoGPT

视频拆条总结

Evenify : chrome插件，节省观看长视频的时间，立即获取关键思想，分模块总结+时间摘要
BibiGPT : Bilibli视频内容一键总结，多模态文档

代码副驾驶和 BI 工具

OpenDevin：CognitionAI发布再SWE-Bench上编码能力有显着提升的智能体
AlphaCodium：流程工程提高代码整体通过率
AutoDev : AI编程辅助工具
Codium : 开源的编程Copilot来啦
副驾驶: 要付费哟
Fauxpilot : copilot本地开源供应商
Codeium：Copilot替代品，有免费版本支持各种插件！
Wolverine : 代码调试的python脚本

BI和DB工具

TableAgent：九章云极推出的数据分析，机器学习智能体
SwiftAgent：数势科技推出的数据分析智能体
Kyligence Copilot :Kyligence发布一站式指标平台的AI数智助手，支持对话式指标搜索，异动促销等等
ai2sql : text2sql老牌公司，相比sqltranslate功能更全面，支持SQL语法检查、清理和生成公式
chat2query : text2sql 相比以上两者支持更自然的文本指令，以及更复杂的数据分析类的sql生成
OuterBase : text2sql 设计风格很吸睛！电子表格结合mysql和dashboard，更适合数据分析宝宝
Chat2DB：智能通用数据库SQL客户端和报表工具
ChatBI :网易数帆发布ChatBI对话数据分析平台
数据先驱：Text2SQL

多模态生成

dreamtudio.ai : 开创者，稳定扩散，有资源配额
中途：开创者，艺术风格主导
Dall.E : 三方一起凑齐了
ControlNet : 为绘画创作加持可控性
gemo.ai：多模态聊天机器人，包括文本，图像，视频生成
Storybird : 根据提示词生成故事绘本，还可以售卖
Magnific.ai：两个人的团队进行AI图片精修
Morph Studio : Stability AI 入场视频制作
Gamma : PPT制作神器，ProductHunt月度排名第1

资源

GPTs应用导航

提示和其他教程类

OpenAI Cookbook : 提供OpenAI模型使用示例 ⭐
PromptPerfect：用魔法击败魔法，输入原始提示词，模型进行定向优化，实验后我有点沉默了，可以定向支持不同使用提示的模型如Difussion，ChatGPT，Dalle等
ClickPrompt : 为各种提示加持的工具生成指令包括Difussion，chatgptdeng, 需要OpenAI Key
ChatGPT ShortCut：提供各式场景下的提示示例，示例很全，使用后可以点赞！ ⭐
完整的 ChatGPT 提示 + 资源：各种尝试的提示示例，以及更多场景有所不同
学习提示：提示工程超全教程，和落地应用收藏，包括很多LLM调用Agent的高级场景⭐
向chatgpt询问高质量答案的艺术：如何写Prompt指令出书了，链接是中文翻译的版本，比较偏基础使用
Prompt-Engineer-Guide : 同学习提示类的集成教程，互相引用还可以吗？！分类索引做的更好一些 ⭐
AI Alignment Forum : RLHF 等相关最新论文和观点的讨论论坛
Langchain：与你的数据对话：吴恩达LLM实践课程
构筑大语言模型应用：应用开发与架构设计：一本关于LLM的真实世界应用的开源电子书
大语言模型：从生产到应用：大模型应用Edx出品的课程
Minbpe : Karpathy大佬撤回openai后整了个分词器的教学代码
LLM-VIZ : 大模型结构可视化支持GPT系列
我如何分解新加坡首届GPT-4工程提示大赛 [译] : 干活很多的提示技巧

书籍和博客类

会议访谈类

麻省理工科技采访OpenAI工程师
陆奇最新演讲实录：我的大模型世界观｜第十四期
OpenAI首席科学家最新讲座阅读LM无监督预训练了啥对泛化的观察⭐
自主代理完整初学者指南：Octane AI 创始人 Matt Schlicht 发表的关于人工智能代理的一些思考
大型语言模型（2023 年） OpenAI 科学家最新大模型演讲
OpenAI闭门会议DevDay视频 - 最大化LLM表现技术的调查，无法翻墙可搜标题找笔记
月之暗面杨植麟专访,值得细读⭐
吴恩达最新演讲：AI Agent工作流的未来
法学硕士训练营 2023

文件

论文列表

综述

大型语言模型综述
预训练、提示和预测：自然语言处理中提示方法的系统调查 ⭐
自然语言处理的范式转变
预训练模型：过去、现在和未来
哪些语言模型架构和预训练对象最适合零样本泛化 ⭐
大型语言模型中的推理：一项调查
用语言模型提示进行推理：一项调查 ⭐
语言模型概述：最新发展和展望 ⭐
大型语言模型综述[6.29更新版]
统一大型语言模型和知识图：路线图
增强语言模型：调查 ⭐
领域专业化是大型语言模型颠覆性的关键：一项综合调查
大型语言模型的挑战和应用
基于大型语言模型的代理的兴起和潜力：调查
用于信息检索的大型语言模型：调查
人工智能调整：全面调查
知识与大型语言模型集成的趋势：方法、基准和应用的调查和分类
时间序列和时空数据的大型模型：调查与展望
代码语言模型调查
模型即服务 (MaaS)：调查

大模型研究能力

情境学习
- 更大的语言模型以不同的方式进行上下文学习
- 情境学习如何运作？理解与传统监督学习差异的框架
- 为什么 GPT 可以在上下文中学习？语言模型秘密执行梯度下降作为元优化器⭐
- 重新思考演示的作用情境学习为何有效？ ⭐
- 训练有素的 Transformer 在上下文中学习线性模型
- 情境学习创建任务向量
安慰能力
- 通用人工智能的火花：GPT-4 的早期实验
- 大型语言模型的新兴能力 ⭐
- 代表空间和时间的语言模型
- 大型语言模型的新兴能力是海市蜃楼吗？
能力评估
- CHATGPT 是通用自然语言处理任务求解器吗？
- 大型语言模型可以从相关性推断因果关系吗？
- 语言模型的整体评价
- 在实践中利用法学硕士的力量：对 ChatGPT 及其他内容的调查
- 心理理论可能自发地出现在大型语言模型中
- 超越模仿游戏：量化和推断语言模型的能力
- 模型能解释自己吗？自然语言解释的反事实可模拟性
- 揭秘代码生成的 GPT 自我修复
- 在程序上训练的语言模型的意义证据
- 解释对于校准黑盒模型有用吗
- 关于 ChatGPT 的鲁棒性：对抗性和非分布视角
- 语言习得：儿童和语言模型是否遵循相似的学习阶段？
领域能力
- GPT-4 解决医疗挑战问题的能力
- 通用基础模型能否胜过专用调整？医学案例研究

快速调谐范式

免费调谐提示
- GPT2：语言模型是无监督的多任务学习者
- GPT3：语言模型是小样本学习者 ⭐
- LAMA：语言模型作为知识库？
- 自动提示：从语言模型中获取知识
修复提示 LM 调整
- T5：使用统一的文本到文本转换器探索迁移学习的局限性
- PET-TC(a)：利用完形填空问题进行少量文本分类和自然语言推理 ⭐
- PET-TC(b)：PETSGLUE 重要的不仅仅是大小，小语言模型也是小样本学习者
- GenPET：使用自然语言指令生成少量文本
- LM-BFF：让预训练的语言模型更好地帮助小样本学习者 ⭐
- ADEPT：改进和简化模式利用训练
Fix-LM 提示调整
- 前缀调优：优化生成的连续提示
- 即时调整：规模的力量，可实现参数高效的即时调整 ⭐
- P-tunning：GPT 也理解 ⭐
- WARP：字级对抗性重编程
LM + 快速调谐
- P-tunning v2：快速调整可以与跨尺度和任务的通用微调相媲美
- PTR：使用文本分类规则进行提示调整
- PADA：基于示例的即时学习，用于动态适应未见过的领域
Fix-LM 适配器调整
- LORA：大语言模型的低阶适配⭐
- LST：用于参数和内存高效迁移学习的梯形侧调
- NLP 的参数高效迁移学习
- 内在维度解释了语言模型微调的有效性

主流LLMS和预训练

GLM-130B：开放的双语预训练模型
PaLM：通过路径扩展语言建模
PaLM 2 技术报告
GPT-4 技术报告
背包语言模型
LLaMA：开放高效的基础语言模型
Llama 2：开放基础和微调的聊天模型
Sheared LLaMA：通过结构化剪枝加速语言模型预训练
OpenBA：从头开始预训练的开源 15B 双语非对称 seq2seq 模型
米斯特拉尔7B
Ziya2：以数据为中心的学习是法学硕士所需要的
巨型块：专家组合的高效稀疏训练
TUTEL：大规模的自适应专家组合
Phi1- 教科书就是您所需要的 ⭐
Phi1.5- 教科书就是你所需要的 II：phi-1.5 技术报告
Phi-3 技术报告：手机本地功能强大的语言模型
Gemini：一系列高性能多模式模型
上下文预训练：超越文档边界的语言建模
LLAMA PRO：具有块扩展功能的渐进式 LLaMA
QWEN技术报告
更少的截断改善了语言建模

指令参数&对齐 (instruction_tunning)

经典方案
- Flan：经过微调的语言模型是零学习者 ⭐
- Flan-T5：扩展指令微调语言模型
- ExT5：迈向迁移学习的极限多任务扩展
- Instruct-GPT：训练语言模型以遵循人类反馈的指令 ⭐
- T0：多任务提示训练实现零射击任务泛化
- 自然指令：通过自然语言众包指令进行跨任务泛化
- Tk-INSTRUCT：超自然指令：通过 1600 多个 NLP 任务的声明性指令进行泛化
- ZeroPrompt：将基于提示的预训练扩展到 1,000 个任务，提高零样本泛化能力
- 非自然指令：在（几乎）无需人工的情况下调整语言模型
- 对指令调整的大型语言模型进行整体评估的指导
SFT数据缩放定律
- LIMA：对齐少即是多 ⭐
- 也许只需要0.5%的数据：低训练数据指令调优的初步探索
- AlpaGasus：用更少的数据训练更好的羊驼
- instructionsGPT-4：用于微调 MiniGPT-4 的 200 条指令范式
- 指令挖掘：大型语言模型的高质量指令数据选择
- 使用 Polite Flamingo 进行视觉指令调整
- 探索指令数据扩展对大型语言模型的影响：对现实世界用例的实证研究
- 使用大型语言模型学习数学推理的尺度关系
- 当扩展遇到 LLM 微调时：数据、模型和微调方法的效果
新景观/景观方案
- WizardLM：使大型语言模型能够遵循复杂的指令⭐
- 成为自我指导：引入早期停止标准以实现最小的指导调整
- 通过指令反向翻译进行自对准 ⭐
- 混合专家与指令调整的结合：大型语言模型的成功组合
- Goat：经过微调的 LLaMA 在算术任务上优于 GPT-4
- PROMPT2MODEL：从自然语言指令生成可部署模型
- OpinionGPT：对指令调整的法学硕士中的显性偏差进行建模
- 通过人工智能反馈的自我对弈和情境学习来改进语言模型协商
- 通过元学习神经网络进行类似人类的系统泛化
- Magicoder：源代码就是您所需要的
- 超越人类数据：利用语言模型扩展自我训练以解决问题
- 生成表征指令调优
- InsCL：一种数据高效的持续学习范式，用于通过指令微调大型语言模型
指令数据生成
- APE：大型语言模型是人类水平的即时工程师 ⭐
- 自指令：使语言模型与自生成的指令保持一致 ⭐
- iPrompt：通过可解释的自动提示用自然语言解释数据模式
- 翻转学习：猜指令！翻转学习使语言模型变得更强零样本学习者
- 大型语言模型的公平引导的小样本提示
- 指令归纳：从几个例子到自然语言任务描述。
- 自我质量检查无监督知识引导对齐。
- GPT 自我监督，打造更好的数据注释器
- Flan Collection 设计数据和方法
- 自消耗生成模型变得疯狂
- InstructEval：指令选择方法的系统评估
- 用微调数据覆盖预训练偏差
- 使用大型语言模型改进文本嵌入
如何降低通用能力损失
- 有监督的微调数据组合如何影响大型语言模型的能力
- 两阶段法学硕士微调，专业化程度较低，普遍化程度较高
更多经验/实验报告
- BELLE：探索指令数据扩展对大型语言模型的影响：对现实世界用例的实证研究
- Baize：Baize：一种对自聊天数据进行参数高效调优的开源聊天模型
- 大型LM中文指令数据全参数与LoRA微调对比研究
- 探索ChatGPT的内容排名能力：与人类偏好一致性的初步研究
- 遵循汉语语言模型实现更好的教学：调查培训数据和评估的影响
- 微调企业法学硕士：实用指南和建议
其他的
- 通过多任务微调进行跨语言泛化
- 通过自然语言众包指令进行跨任务泛化
- UNIFIEDSKG：使用文本到文本语言模型统一和多任务结构化知识基础
- PromptSource：自然语言提示的集成开发环境和存储库
- ROLELLM：大型语言模型的基准测试、诱导和增强角色扮演能力

对话模型

LaMDA：对话应用程序的语言模型
Sparrow：通过有针对性的人类判断来改善对话代理的一致性 ⭐
BlenderBot 3：一个部署的对话代理，不断学习负责任地参与
如何不评估你的对话系统：对话响应生成的无监督评估指标的实证研究
DialogStudio：为对话式人工智能打造最丰富、最多样化的统一数据集集合
通过扩展高质量的教学对话来增强聊天语言模型
DiagGPT：基于法学硕士的聊天机器人，具有面向任务对话的自动主题管理功能

思维链 (prompt_chain_of_thought)

基础&进阶方式
- [零样本-COT] 大型语言模型是零样本推理机 ⭐
- [few-shot COT] 思维链提示引发大型语言模型推理 ⭐
- 自洽改善了语言模型中的思维推理链
- 从最少到最多的提示可以在大型语言模型中进行复杂的推理 ⭐
- 思想之树：用大型语言模型有意识地解决问题
- 计划和解决提示：通过大型语言模型改进零样本思维链推理
- 分解提示解决复杂任务的模块化方法
- 连续提示分解复杂问题
- 验证和编辑：知识增强的思想链框架
- 超越思维链，大型语言模型中的有效思维图推理
- 混合思维树：结合快慢思维进行多跳视觉推理
- LAMBADA：自然语言自动推理的后向链接
- 思想算法：增强大型语言模型中思想的探索
- 思维图：用大型语言模型解决复杂的问题
- 渐进式提示提高了大型语言模型的推理能力
- 大型语言模型可以学习规则
- 思维多样性提高大型语言模型的推理能力
- 从复杂到简单：用小语言模型解开用于推理的认知树
- 退一步：通过大型语言模型中的抽象引发推理
- 作为优化器的大型语言模型
分领域COT [数学、代码、表格、QA]
- 用语言模型解决定量推理问题
- 展示您的作品：使用语言模型进行中间计算的暂存器
- 通过基于过程和结果的反馈解决数学应用题
- CodeRL：通过预训练模型和深度强化学习掌握代码生成
- T-SciQ：通过大型语言模型信号教授多模态思维链推理以进行科学问答
- 学习绩效提高代码编辑
- 大型语言模型是多功能分解器：分解证据和问题以进行基于表格的推理
- Tab-CoT：零样本表格思想链
- 代码链：使用语言模型增强代码模拟器进行推理
原理分析
- 理解思维链提示：对重要事项的实证研究 ⭐
- 文字和图案：为了形成有效的思维链，需要两个人去探戈
- 揭示思想链背后的奥秘：理论视角
- 大型语言模型很容易被不相关的上下文分散注意力
- 无提示的思维链推理
小模型COT尺寸
- 将较小的语言模型专门用于多步推理 ⭐
- 教授小语言模型进行推理
- 大型语言模型是推理老师
- 将推理能力提炼成更小的语言模型
- CoT Collection：通过思想链微调改进语言模型的零样本和少样本学习
COT样本自动构建/选择
- STAR：自学推理机 Bootstrapping ReasoningWith Reasoning
- AutoCOT：大型语言模型中的自动思维提示链
- 大型语言模型可以自我改进
- 大型语言模型的思想链主动提示
- 基于复杂性的多步推理提示
其他的
- OlaGPT 赋予法学硕士类似人类的解决问题的能力
- 具有挑战性的 BIG-Bench 任务以及思维链能否解决它们
- 大型语言模型是具有自我验证功能的更好推理机
- ThoughtSource 大型语言模型推理数据的中心枢纽
- LLM 多步推理中的两个自洽失败

RLHF

深脑
- 教授语言模型以支持带有经过验证的引用的答案
- 麻雀，通过有针对性的人类判断改善对话代理的一致性⭐
- 统计拒绝抽样提高偏好优化
- 语言建模的强化自训练 (ReST)
- SLiC-HF：利用人工反馈进行序列似然校准
- 校准序列似然改善条件语言生成
- 使用语言模型进行奖励设计
- 最终答案强化学习通过基于过程和结果的反馈解决数学应用题
- 通过基于过程和结果的反馈解决数学应用题
- 超越人类数据：利用语言模型扩展自我训练以解决问题
开放性
- PPO：近端策略优化算法 ⭐
- 符合人类偏好的深度强化学习
- 根据人类偏好微调语言模型
- 学习从人类反馈中总结
- InstructGPT：训练语言模型以遵循人类反馈的指令 ⭐
- 奖励模型的扩展法则过度优化 ⭐
- 从弱到强的泛化：通过弱监督激发强大的能力 ⭐
- PRM：我们一步步验证一下
- 培训验证者解决数学应用题 [PRM 的依赖依赖]
- OpenAI 超级对齐博客
人择
- 通用语言助理作为对齐者的实验室
- 减少伤害的红队语言模型方法、扩展行为和经验教训
- 通过人类反馈的强化学习来训练一个有用且无害的助手⭐
- 来自人工智能反馈的宪法人工智能无害⭐
- 根据人类偏好预训练语言模型
- 大型语言模型中的道德自我纠正能力
- 潜伏特工：通过安全培训持续培训欺骗性法学硕士
AllenAI，RL4LM：强化学习（不是）用于自然语言处理基准
改良方案
- RRHF：对将语言模型与人类反馈保持一致的响应进行排名，不流泪
- 事后诸葛亮使语言模型与反馈保持一致
- AlpacaFarm：从人类反馈中学习的方法的模拟框架
- RAFT：生成基础模型对齐的奖励排名微调
- RLAIF：通过人工智能反馈扩展人类反馈的强化学习
- 在模拟人类社会中训练社会一致的语言模型
- RAIN：您的语言模型无需微调即可自我调整
- 评估一致性的生成法官
- 深入了解偏好：揭开反馈获取的谜底，以调整大型语言模型
- 三文鱼：与遵循原则的奖励模式进行自我调整
- 大型语言模型忘却 ⭐
- 对抗偏好优化 ⭐
- 人类对齐的偏好排名优化
- 任重道远：研究 RLHF 中的长度相关性
- 使语言模型能够从数据中隐式学习自我改进
- 奖励模型集合有助于缓解过度优化
- 从偏好中学习最佳优势，并将其误认为是奖励
- ULTRAFEEDBACK：通过高质量反馈增强语言模型
- 主题：人工智能反馈的内在动机
- 通过优势模型和选择性排练稳定 RLHF
- Shepherd：语言模型生成的批评者
- 学习如何创造出比法学硕士更好的作品
- 细粒度的人类反馈为语言模型训练带来更好的回报
- 从头开始以最少的人类监督实现语言模型的原理驱动的自我调整
- 直接偏好优化：你的语言模型实际上是一个奖励模型
- HIR 事后诸葛亮让语言模型成为更好的指令追随者
- Aligner：通过弱到强校正实现高效对准
RL研究
- 了解 RLHF 对法学硕士普遍化和多样性的影响
- 任重道远：研究 RLHF 中的长度相关性
- 奖励（不）一致性对 RLHF 的涓滴影响
- 基于人类反馈的强化学习的开放问题和基本限制
- 人类反馈不是黄金标准
- 数据课程中训练后大型语言模型的对比

LLM Agent让模型使用工具（llm_agent）

基于大语言模型的自治代理综述
个人LLM代理：关于能力、效率和安全性的见解和调查
基于提示通用方案
- ReAct：在语言模型中协同推理和行动 ⭐
- 自问：测量和缩小语言模型中的组合性差距 ⭐
- MRKL Systems一种模块化的神经符号架构，结合了大型语言模型、外部知识源和离散推理
- PAL：程序辅助语言模型
- ART：大型语言模型的自动多步推理和工具使用
- ReWOO：将推理与观察解耦以实现高效的增强语言模型 ⭐
- 针对知识密集型多步骤问题的交叉检索与思维链推理
- Chameleon：使用大型语言模型进行即插即用的组合推理 ⭐
- 忠实的思维链推理
- 反思：具有言语强化学习的语言智能体 ⭐
- 验证和编辑：知识增强的思想链框架
- RestGPT：将大型语言模型与现实世界的 RESTful API 连接起来
- ChatCoT：基于聊天的大型语言模型的工具增强思想链推理
- InstructTODS：面向端到端任务的对话系统的大型语言模型
- TPTU：基于大型语言模型的人工智能代理的任务规划和工具使用
- ControlLLM：通过搜索图来使用工具增强语言模型
- 反射：具有动态记忆和自我反射的自主代理
- AutoAgents：自动代理生成框架
- GitAgent：通过工具扩展使用 GitHub 促进自治代理
- PreAct：在ReAct中预测未来增强Agent的规划能力
- TOOLLLM：促进大型语言模型掌握 16000 多个真实世界 API ⭐ -AnyTool：用于大规模 API 调用的自我反思、分层代理
- AIOS：LLM代理操作系统
- LLMCompiler 用于并行函数调用的 LLM 编译器
基于USB的通用方案
- TALM：工具增强语言模型
- Toolformer：语言模型可以自学使用工具 ⭐
- 使用基础模型进行工具学习
- Tool Maker：大语言模型作为工具Maker
- TaskMatrix.AI：通过连接基础模型和数百万个API来完成任务
- AgentTuning：为法学硕士启用通用代理能力
- SWIFTSAGE：一种针对复杂交互任务具有快速和慢速思维的生成代理
- FireAct：语言代理微调
- Pangu-Agent：具有结构化推理的可微调多面手智能体
- REST 与 REACT：多步推理的自我提升 LLM 代理
- 通过抽象链推理有效使用工具
- Agent-FLAN：大型语言模型有效代理调优的设计数据和方法
- AgentOhana：设计统一数据和训练管道以实现有效的代理学习
- Agent Lumos：开源语言代理的统一模块化培训
调用模型方案
- HuggingGPT：使用 ChatGPT 及其 HuggingFace 中的朋友解决 AI 任务
- Gorilla：连接海量API的大型语言模型⭐
- OpenAGI：当法学硕士遇到领域专家
垂直领域
- 数据分析
  - DS-Agent：通过基于案例的推理增强大型语言模型的自动化数据科学
  - InsightLens：在大语言模型支持的数据分析中从对话上下文中发现和探索见解
  - 数据副驾驶：通过自主工作流程连接数十亿数据和人类
  - InsightPilot 演示：法学硕士授权的自动化数据探索系统
- 金融
  - WeaverBird：通过大型语言模型、知识库和搜索引擎赋能财务决策
  - FinGPT：开源金融大语言模型
  - FinMem：具有分层内存和角色设计的性能增强型 LLM 交易代理
  - AlphaFin：利用搜索增强股票链框架对财务分析进行基准测试
  - 金融交易的多模式基础代理：工具增强、多样化和通才 ⭐
  - 大型语言模型能打败华尔街吗？揭示人工智能在选股方面的潜力
- 生物医疗
  - GeneGPT：使用领域工具增强大型语言模型，以改善对生物医学信息的访问
  - ChemCrow 使用化学工具增强大型语言模型
  - 通过证据的期望最大化推理生成医学问答中的解释
- 网络网
  - AutoWebGLM：引导和强化基于大型语言模型的 Web 导航代理
  - 具有规划、长上下文理解和程序综合功能的真实世界 WebAgent
  - Mind2Web：迈向网络多面手代理
  - 使用工作流引导探索在 Web 界面上进行 MiniWoB++ 强化学习
  - WEBARENA：构建自治代理的现实网络环境
  - AutoCrawler：用于生成网络爬虫的渐进式理解网络代理
  - WebLINX：具有多轮对话的真实世界网站导航
  - WebVoyager：使用大型多模式模型构建端到端 Web 代理
  - CogAgent：GUI 代理的可视化语言模型
- 其他
  - WebShop：与基础语言代理实现可扩展的现实世界网络交互
  - ToolkenGPT：通过工具嵌入使用大量工具增强冻结的语言模型
  - PointLLM：使大型语言模型能够理解点云
  - 使用检索增强大语言模型进行可解释的长格式法律问答
  - CarExpert：利用大型语言模型进行车内对话式问答
评估
- 评估生成搜索引擎的可验证性
- 用于在线决策的 Auto-GPT：基准和附加意见
- API-Bank：工具增强法学硕士的基准
- ToolLLM：促进大型语言模型掌握 16000 多个真实世界的 API
- 通过大型语言模型自动评估归因
- 检索增强生成中大型语言模型的基准测试
- ARES：检索增强生成系统的自动评估框架
多Agent
- 生成代理：人类行为的交互式模拟 ⭐
- AgentVerse：促进多智能体协作并探索智能体的紧急行为
- CAMEL：大规模语言模型社会“心灵”探索的交流代理 ⭐
- 探索交流游戏的大语言模型：《狼人杀》的实证研究
- 软件开发的通信代理 ⭐
- 元代理：通过协作生成代理模拟人类行为的交互，实现基于法学硕士的面向任务的协调
- 让模型说出密码：通过嵌入进行多智能体辩论
- MedAgents：作为零样本医学推理合作者的大型语言模型
- 战争与和平（WarAgent）：基于大型语言模型的世界大战多智能体模拟
- 您只需要更多代理
自主学习和探索的进化
- AppAgent：作为智能手机用户的多模式代理
- 调查-巩固-利用：任务间智能体自我进化的通用策略
- Imaginarium 中的法学硕士：通过模拟试错来学习工具
- 通过行动学习增强大型语言模型代理的能力
- 试错法：LLM 智能体基于探索的轨迹优化
- OS-COPILOT：走向自我完善的通用计算机代理
- 骆驼骑士：激发大型语言模型探索开放世界
其他
- LLM+P：以最佳规划能力增强大型语言模型的能力
- 参考推理：大型语言模型的无损加速
- RecallM：时间上下文理解和问答的架构
- LLaMA Rider：激发大型语言模型探索开放世界
- 法学硕士无法规划，但可以帮助在法学硕士模数框架中进行规划

抹布

WebGPT：浏览器辅助问答与人工反馈
WebGLM：迈向具有人类偏好的高效网络增强问答系统
WebCPM：中文长篇问答互动网络搜索 ⭐
REPLUG：检索增强黑盒语言模型 ⭐
检索增强大型语言模型的查询重写
RETA-LLM：检索增强型大型语言模型工具包
Atlas：使用检索增强语言模型进行小样本学习
RRAML：强化检索增强机器学习
通过检索增强研究大型语言模型的事实知识边界
PDFTriage：针对长结构化文档的问答
自我反思：学习通过自我反省来检索、生成和批评 ⭐
走过记忆迷宫：通过互动阅读超越语境限制⭐
演示-搜索-预测：为知识密集型 NLP 构建检索和语言模型
链中搜索：为知识密集型任务建立准确、可信、可追踪的大型语言模型
主动检索增强生成
kNN-LM 无法改进开放式文本生成
检索器增强语言模型可以推理吗？检索器和语言模型之间的指责游戏
Query2doc：使用大型语言模型进行查询扩展 ⭐
RLCF：通过对比反馈将大型语言模型的能力与信息检索的上下文结合起来
用于自定义检索的增强嵌入
DORIS-MAE：使用多级基于方面的查询进行科学文档检索
学习过滤上下文以进行检索增强生成
图上思考：知识图谱上大型语言模型的深度且负责任的推理
RA-DIT：检索增强双指令调优
通过提示大型语言模型来扩展查询 ⭐
注释链：增强检索增强语言模型的鲁棒性
IAG：用于回答推理问题的归纳增强生成框架
T2Ranking：大规模中文篇章排名标杆
用于开放式文本生成的事实增强语言模型
FRESHLLMS：通过搜索引擎增强刷新大型语言模型
KwaiAgents：具有大语言模型的通用信息查询代理系统
丰富的知识来源带来复杂的知识冲突：重新校准模型以反映相互矛盾的证据
使用野外检索的证据进行复杂的声明验证
大型语言模型的检索增强生成：一项调查
通过迭代检索生成协同作用增强检索增强大型语言模型
ChatQA：构建 GPT-4 级别的对话 QA 模型
RAG 与微调：管道、权衡和农业案例研究
检索增强生成中大型语言模型的基准测试
HyDE：无需相关标签的精确零样本密集检索
PROMPTAGATOR：从 8 个示例进行少量密集检索
搜索与信息检索大语言模型之间的协同相互作用
T-RAG：法学硕士的经验教训
RAT：检索增强思维在长视野生成中引发上下文感知推理
ARAGOG：高级 RAG 输出分级
ActiveRAG：通过主动学习揭示知识的宝藏
提出正确的问题：通过强化学习进行主动问题重构 [传统方案参考]
信息检索的查询扩展技术调查 [传统方案参考]
学习重写查询 [传统方案参考]
管理 Airbnb 搜索的多样性[传统方案参考]
用于召回和排名的新支持模型
- BGE M3-Embedding：通过自我知识蒸馏实现多语言、多功能、多粒度文本嵌入
- 网易为RAG设计的BCE嵌入技术报告
- BGE Landmark Embedding：一种用于检索增强长上下文大语言模型的无分块嵌入方法
Contextual.ai-RAG2.0

大模型图表理解和生成

MMC：通过大规模指令调整推进多模态图表理解
ChartLlama：用于图表理解和生成的多模式法学硕士
ChartAssistant：通过图表到表格预训练和多任务指令调整的通用图表多模态语言模型
ChartInstruct：图表理解和推理的指令调整
ChartX 和 ChartVLM：复杂图表推理的多功能基准和基础模型
MATCHA：通过数学推理和图表渲染增强视觉语言预训练
UniChart：用于图表理解和推理的通用视觉语言预训练模型

法学硕士+公斤级

综述类
- 统一大型语言模型和知识图：路线图
- 大型语言模型和知识图：机遇和挑战
- 知识图谱与大模型融合实践研究报告2023
KG用于大模型推理
- 使用大型语言模型从知识图零样本自然语言生成
- MindMap：知识图谱提示在大型语言模型中激发思维图
- 知识增强语言模型提示零样本知识图问答
- 使用逻辑编程和大型语言模型对知识图进行特定领域问答
- 自带 KG：零样本 KGQA 的自监督程序综合
- StructGPT：用于推理结构化数据的大型语言模型的通用框架
用于KG构建的大模型
- 使用大型语言模型增强知识图谱构建
- 法学硕士辅助知识图谱工程：ChatGPT 实验
- 迭代零次法学硕士提示知识图构建
- 探索大型语言模型以完成知识图谱

人形特工

HABITAT 3.0：人类、化身和机器人的共居环境
人形代理：模拟类人生成代理的平台
Voyager：具有大型语言模型的开放式实体代理
塑造先进机器人技术的未来
AUTORT：大规模机器人代理编排的具体基础模型
通过事后轨迹草图概括机器人任务
ALFWORLD：调整文本和实体环境以实现交互式学习
MINEDOJO：利用互联网规模的知识构建开放式实体代理

预训练数据(pretrain_data)

DoReMi：优化数据混合加速语言模型预训练
The Pile：用于语言建模的 800GB 不同文本数据集
CCNet：从网络爬取数据中提取高质量的单语数据集
万卷：用于推进英文和中文大模型的综合多模态数据集
CLUECorpus2020：用于预训练语言模型的大规模中文语料库
上下文预训练：超越文档边界的语言建模
数据混合定律：通过预测语言建模性能来优化数据混合

领域模型SFT(domain_llms)

金融
- BloombergGPT：大型金融语言模型
- FinVis-GPT：用于金融图表分析的多模态大语言模型
- CFGPT：大语言模型中文金融助手
- CFBenchmark：中国金融助手大语言模型基准
- InvestLM：使用金融领域指令调优的大型投资语言模型
- BBT-Fin：中文金融领域预训练语言模型、语料库和基准的全面构建
- PIXIU：金融大语言模型、指令数据和评估基准
- FinBen：大型语言模型的整体金融基准
- 轩辕2.0：千亿参数的中国大型金融聊天模型
生物医疗
- MedGPT：根据临床叙述预测医学概念
- BioGPT：用于生物医学文本生成和挖掘的生成式预训练变压器
- PubMed GPT：生物医学文本的特定领域大语言模型 ⭐
- ChatDoctor：利用医学领域知识在 LLaMA 模型上进行微调的医疗聊天模型
- Med-PaLM：大语言模型编码临床知识[V1,V2] ⭐
- SMILE：通过 ChatGPT 从单轮到多轮包容性语言扩展以提供心理健康支持
- 仲景：通过专家反馈和真实多轮对话提升中国医学大语言模型能力
其他
- Galactia：大型科学语言模型
- 具有参数化知识指导的增强型大型语言模型
- ChatLaw 开源法律大语言模型 ⭐
- MediaGPT：中文媒体大语言模型
- KITLM：将特定领域的知识集成到问答语言模型中
- EcomGPT：用于电子商务的具有任务链任务的指令调整大型语言模型
- TableGPT：将表、自然语言和命令统一到一个 GPT 中
- LLEMMA：开放的数学语言模型
- MEDITAB：通过数据整合、丰富和细化扩展医学表格数据预测
- PLLaMa：植物科学的开源大型语言模型

LLM超长文本处理 (long_input)

位置编码、注意力机制优化
- Unlimiformer：具有无限长度输入的长距离变压器
- 大型语言模型的并行上下文窗口
- 苏剑林，NBCE：使用朴素贝叶斯扩展LLM的Context处理长度⭐
- 结构化提示：将情境学习扩展到 1,000 个示例
- Vcc：通过优先考虑重要代币，将 Transformer 扩展到 128K 代币或更多
- 通过 RMT 将 Transformer 扩展到 100 万个代币甚至更多
- 训练短，测试长：线性偏差的注意力可以实现输入长度外推 ⭐
- 通过位置插值扩展大型语言模型的上下文窗口
- LongNet：将 Transformer 扩展到 1,000,000,000 个代币
- https://kaiokendev.github.io/til#extending-context-to-8k
- 苏剑林,Transformer之路升级：10、RoPE是一种β射线编码⭐
- 苏剑林,变形金刚之路升级：11、将β射线位置进行到底
- 苏剑林，变压器之路升级：12、无限外推的ReRoPE？
- 苏剑林,变形金刚之路升级：15、归一化助力助力外推
- 具有注意力接收器的高效流语言模型
- 使用 Blockwise Transformer 实现近乎无限上下文的环注意力机制
- YaRN：大型语言模型的高效上下文窗口扩展
- LM-INFINITE：大型语言模型的简单即时长度泛化
- 具有注意力接收器的高效流语言模型
高度压缩排序方案
- 迷失在中间：语言模型如何使用长上下文 ⭐
- LLMLingua：压缩大型语言模型加速推理的提示
- LongLLMLingua：通过即时压缩在长上下文场景中加速和增强法学硕士 ⭐
- 学习使用 Gist 标记压缩提示
- 解锁法学硕士的上下文约束：通过基于自我信息的内容过滤提高法学硕士的上下文效率
- LongAgent：通过多代理协作将语言模型扩展到 128k 上下文
- PCToolkit：大语言模型统一即插即用提示压缩工具包
训练和模型架构方案
- 切勿从头开始训练：长序列模型的公平比较需要数据驱动的先验
- 从 4K 飙升至 400K：通过 Activation Beacon 扩展 LLM 的背景
- 永远不会迷失在中间：通过注意力强化问答来改进大型语言模型
- Focused Transformer：上下文缩放的对比训练
- 基础模型的有效长上下文扩展
- 论变形金刚的远距离能力
- 高效的远程变压器：您需要更多关注，但不必关注每一层
- 姿势：通过位置跳跃训练有效扩展 LLMS 的上下文窗口
- LONGLORA：长上下文大型语言模型的高效微调
- LongAlign：大型语言模型长上下文对齐的秘诀
- 将语言模型扩展到 128K 上下文的数据工程
- MEGALODON：具有无限上下文长度的高效 LLM 预训练和推理
效率优化
- 高效注意力：具有线性复杂性的注意力
- Transformer 是 RNN：具有线性注意力的快速自回归 Transformer
- HyperAttention：近线性时间的长上下文注意力
- FlashAttention：具有 IO 感知功能的快速、内存高效的精确注意力
- 文本越大，必要性越大：推理时间训练有助于长文本生成

LLM长文本生成（long_output）

Re3：通过递归重新提示和修改生成更长的故事
RECURRENTGPT：（任意）长文本的交互式生成
DOC：通过详细的大纲控制提高长篇故事的连贯性
韦弗：创意写作的基础模型
使用大型语言模型协助从头开始编写类似维基百科的文章

NL2SQL

大模型方案
- DIN-SQL：具有自校正功能的文本到 SQL 的分解上下文学习 ⭐
- C3：使用 ChatGPT 进行零样本文本到 SQL ⭐
- SQL-PALM：改进的文本到 SQL 的大型语言模型适应
- BIRD LLM 可以作为数据库接口吗？用于大规模数据库的大型数据库基础文本到 SQL ⭐
- 跨域文本转 SQL 中自适应提示的基于案例的推理框架
- ChatDB：用数据库作为符号存储器来增强 LLMS
- ChatGPT 零样本 Text-to-SQL 能力综合评估
- 使用结构和内容提示学习进行少量文本到 SQL 的翻译
领域知识密集型
- 使用公式化知识进行知识密集型文本到 SQL 语义解析
- 通过架构扩展弥补文本到 SQL 解析中的泛化差距
- 针对同义词替换的文本到 SQL 模型的鲁棒性
- FinQA：财务数据数值推理数据集
其他的
- RESDSQL：解耦文本到 SQL 的模式链接和骨架解析
- MIGA：对话式文本到 SQL 的统一多任务生成框架

代码生成

使用 AlphaCodium 生成代码：从即时工程到流程工程
Codeforces 作为学习数字化编程的教育平台
使用 AlphaCode 生成竞赛级代码
代码链：通过具有代表性子模块的自我修订链实现模块化代码生成
AI 程序员就在我们中间：重新思考编程语言语法以实现高效代码生成

降低模型幻觉（可靠性）

民意调查
- 大型语言模型及其幻觉的危险
- 自然语言生成中的幻觉调查
- AI 海洋中的海妖之歌：大语言模型中的幻觉调查
- 大型基础模型中幻觉的调查
- 大语言模型中的幻觉调查：原理、分类、挑战和开放问题
- 校准后的语言模型一定会产生幻觉
- 为什么 ChatGPT 无法提供真实答案？
提示或调整
- R-Tuning：教授大型语言模型以拒绝未知问题
- 促使 GPT-3 变得可靠
- 有任何问题都可以问我：提示语言模型的简单策略 ⭐
- 关于让语言模型更好地推理的进展
- RefGPT：参考 → 由 GPT 和为 GPT 生成真实且定制的对话
- 用检索重新思考：忠实的大语言模型推理
- 生成而不是检索：大型语言模型是强大的上下文生成器
- 大型语言模型难以学习长尾知识
解码策略
- 相信你的证据：通过上下文感知解码减少幻觉⭐
- 自我完善：自我反馈迭代完善⭐
- 通过自然语言推理增强预训练语言模型的自我一致性和性能
- 推理时间干预：从语言模型中得出真实答案
- 启用大型语言模型来生成带引文的文本
- 用于开放式文本生成的事实增强语言模型
- KL-散度引导温度采样
- KCTS：具有令牌级幻觉检测的知识约束树搜索解码
- 对比解码提高大型语言模型的推理能力
- 对比解码：开放式文本生成作为优化
探测与检测
- 通过大型语言模型自动评估归因
- QAFactEval：改进的基于 QA 的事实一致性评估的摘要
- 大语言模型的零资源幻觉预防
- LLM 谎言：幻觉不是错误，而是作为对抗性示例的特征
- 语言模型（大多数）知道他们所知道的 ⭐
- LM vs LM：通过交叉检查检测事实错误
- 语言模型知道它们何时出现幻觉引用吗？
- SELFCHECKGPT：生成大语言模型的零资源黑盒幻觉检测
- LLMS 自相矛盾的幻觉：评估、检测和缓解
- 开放式世代的自我一致性
- 通过多主体辩论提高语言模型的事实性和推理能力
- Selective-LAMA：语言模型置信感知评估的选择性预测
- LLM 可以表达他们的不确定性吗？法学硕士信心激发的实证评估
检查和校准
- Truth-o-meter：与 llm 合作对抗幻觉
- RARR：使用语言模型研究和修改语言模型的内容
- 批评家：大型语言模型可以通过工具交互批评进行自我纠正
- 使用 RELM 验证大型语言模型
- PURR：通过去噪语言模型损坏来有效编辑语言模型幻觉
- 检查你的事实并再试一次：利用外部知识和自动反馈改进大型语言模型
- 自适应变色龙或顽固树懒：揭示大型语言模型在知识冲突中的行为
- 啄木鸟：多模态大语言模型的幻觉校正
- 零样本忠实事实错误纠正

大模型评估（evaluation）

事实性评估
- 值得信赖的 LLMS：评估大型语言模型一致性的调查和指南
- TrueTeacher：利用大型语言模型学习事实一致性评估
- TRUE：重新评估事实一致性评估
- FACTSCORE：长文本生成中事实精度的细粒度原子评估
- KoLA：仔细对大型语言模型的世界知识进行基准测试
- 何时不信任语言模型：研究参数和非参数记忆的有效性
- FACTOOL：生成式人工智能中的事实检测，用于多任务和多领域场景的工具增强框架
- 大型语言模型中的长形式事实性
检测任务
- 从大型语言模型中检测预训练数据
- 从（生产）语言模型中可扩展地提取训练数据
- 用改写的样本重新思考语言模型的基准和污染