2024-03-20

OpenAI嵌入报错：OpenAI Failed to embed: [failed_to_embed]: 400 This model's maximum context length is 8192 tokens

** 现象
使用OpenAI的嵌入模型text-embedding-3-large处理文件时出错：
OpenAI Failed to embed: [failed_to_embed]: 400 This model’s maximum context length is 8192 tokens

** 原因分析
AnythingLLM 的Text Chunk Size默认是8192，处理完后的文本大小超过了OpenAI嵌入模型的最大token数，导致调用失败。
至于是否启用了滑动窗口导致的过大，暂时还不明确。

** 解决方法
进入设置界面 > 文本分割调整“文本块大小”（Text Chunk Size）参数：比如使用8000

*** 设置建议：
长文本（如小说等）：建议将“文本块大小”设置为一个章节的长度，以保持上下文的完整性。例如，可以将块大小设置为 2000，重叠量设置为 200。
短文本（如技术文档）：可以选择较小的块大小，例如 1024 或 2048，以提高处理效率。
需要注意的是，文本块大小的选择应根据具体应用场景和文本长度进行调整，以在保留上下文和处理效率之间找到平衡。

又一个SE的博客

技术的点滴

OpenAI嵌入报错：OpenAI Failed to embed: [failed_to_embed]: 400 This model's maximum context length is 8192 tokens