** 现象
使用OpenAI的嵌入模型text-embedding-3-large处理文件时出错:
OpenAI Failed to embed: [failed_to_embed]: 400 This model’s maximum context length is 8192 tokens
** 原因分析
AnythingLLM 的Text Chunk Size默认是8192,处理完后的文本大小超过了OpenAI嵌入模型的最大token数,导致调用失败。
至于是否启用了滑动窗口导致的过大,暂时还不明确。
** 解决方法
进入设置界面 > 文本分割 调整“文本块大小”(Text Chunk Size) 参数: 比如使用8000
*** 设置建议:
长文本(如小说等):建议将“文本块大小”设置为一个章节的长度,以保持上下文的完整性。例如,可以将块大小设置为 2000,重叠量设置为 200。
短文本(如技术文档):可以选择较小的块大小,例如 1024 或 2048,以提高处理效率。
需要注意的是,文本块大小的选择应根据具体应用场景和文本长度进行调整,以在保留上下文和处理效率之间找到平衡。