宝玉老师,向您请教一个问题:
先说背景
我有ADHD,现在在obsidian里学习看材料,想让TTS把东西读出来,我一边看一遍听它读才能长时间集中注意力
我的场景是这样的:
数学表达式因为用了mathjax,虽然在视觉呈现上有可读性,但是TTS读不出来,它会直接挨个读字母,我希望设置一个prompt或者dify的Workflow,让md格式和mathjax混排的这些文本,先被ai处理一遍,变成纯文字的自然语言描述再交给TTS读,这样TTS就可以读包括物理、数学,还有很多包含代码块的理工科内容了
但是现在的问题是:
因为我感觉这和翻译任务比较类似,仿照您之前三步翻译的prompt,稍微改了一个dify的Workflow,还有一个结构化的提示词的版本的prompt都不能很好实现这个需求
- LLM会很容易解释其中的内容,尤其材料涉及数学的解答过程,算术步骤,它会偏离转为自然语言的指令,输出的时候解释具体的文本 (这个问题最严重)
- LLM会很容易输出mathjax格式对应的unicode下的数学符号,而不是自然语言描述,比如
,会被输出成 n+1/n, 会变成2x3,而不是n加上1除以n,2乘以3这种,这个斜划线的除法和乘法的x,最终导致TTS不可读的