织梦发布网站,app开发需要的技术,html国外网站源码,wordpress访问计数器Python方案
在上一篇文章ftfy#xff1a;修正小段乱码#xff08;Mojibake#xff09;为正常文本的Python库中#xff0c;我介绍了ftfy这个库。但随着持续的开发#xff0c;我发现它仍然有一些解决不了的转换。如下#xff1a; ftfy.fix_text(‡›‘修正小段乱码Mojibake为正常文本的Python库中我介绍了ftfy这个库。但随着持续的开发我发现它仍然有一些解决不了的转换。如下 ftfy.fix_text(è‡ªç›‘ç£ 6 自由度ä½å§¿ä¼°è®¡çš„伪关键点 RKHS å¦ä¹)
自监督 6 自由度位姿估计的伪关键点 RKHS å\xad¦ä¹ftfy.is_bad(_)
True可以看到后面的结果并没有转换成功而且 ftfy.is_bad() 也返回 True非常爽快地承认了这一点。
大语言模型LLM方案
而当使用 chatGPT 来解决时简单的提示语足以解决问题
你是一位熟悉各种语言的机器编码如Utf8ascii等等的专家你一眼就能看出一句乱码的文字实质上是哪一种编码错误导致的当我发给你一串乱码修正以下乱码è‡ªç›‘ç£ 6 自由度ä½å§¿ä¼°è®¡çš„伪关键点 RKHS å¦ä¹输出
修正后的文本应该是自监督6自由度位姿估计的伪关键点RKHS学习修正过程是通过分析该文本的语言特征结合常见编码格式和编码转换规则来判断该文本所使用的编码格式然后进行对应的编码转换将乱码转换为可读的字符。例如上述文本可能是以UTF-8编码格式进行存储但在读取和显示时使用了ISO-8859-1或其他不兼容的编码方式导致了乱码的问题。这就很妥贴。接下来只要优化一下提示词让 LLM 返回 JSON 对象就可以很方便地进行下一步处理了。