纯文本文件(txt文件)中“换行符非法意外截断文本”有关问题讨论
纯文本文件(txt文件)中“换行符非法意外截断文本”问题讨论?
有电子书的朋友知道,要想自己制作自己的电子书文件,必须要有已制作好的txt文件。从其它文件格式获得的文体文件(包括从html,Word,Pdf文件转换格式的文本文件或从Internet上下载的文本文件)存在很多问题,如比较常见的 "换行符非法截断文本 "问题,现讨论分析如下:
1.换行符之前的一个字符是逗号(全角逗号[,]和半角逗号[,])则一定是有问题的!这时处理方法应该是:删除该“换行符”,并且如果 "换行符 "后还有连续的“空格”(可能有全角,半角之分)也大于2个中文字符也应删除多余的空格。 "换行符 "与“下一行空格字符”之间可保留适当“空格”(比发2个汉字空格或由用户设定的数目空格(可选))。
2.换行符之前的一个字符如果是 [”][--][。][?][!]这些符号时,也是正常的。当然,如果是半角的句点[.] & [ "]也勉强算对。
3.如果换行符之前是一个“非标点符号的汉字”,则很可能是“换行符非法意外截断文本”!。当然这里面还有一个特例:这一行是标题行或章节行!
如何判断是章节行或标题行?我能想到的是:
a.这一行不会太长! 章节行或标题行如果超过一行哪一般是不可能的。
b.这一行中可能含有数字(0~9)或汉字数字“一,二,三.....九,十”,还有“节,章,篇”等等汉字。
判断是“章节行或标题行”大家再讨论讨论,看看哪里还有没有想到的,还可以再补充完善。欢迎大家继续讨论!!!
如果真的是“换行符非法意外截断文本”,那么该 "换行符 "应该删除!
先放100分,欢迎大家继续踊跃讨论!!!
------解决方案--------------------
貌似看懂了点,是不是可以先查找整个文件中所有的#13+#10,全部删除然后再根据需要自己来换行
------解决方案--------------------
怎么可以删除所有的 #13#10 ? 这样文章都没有分段了。
------解决方案--------------------
你所说的那两个特点不是标题和章节的充分特点,甚至连必要特点也不是,而且普通行也可能存在你所说的那两个特点
------解决方案--------------------
不过既然是自己的电子图书,那么可以给标题和段首设置普通行不具备的特点:比如标题以 ' < < < < < '开头,段首以 '> > > > > '开始(开始符之始举个例子,可以选择其它更安全的),这样可以把普通行和标题、段首区分开,可以删除其他的所有的换行符了
------解决方案--------------------
而且其他类似段首和标题的特殊情况可以设置不同或者相同的起始或者结束标志
有电子书的朋友知道,要想自己制作自己的电子书文件,必须要有已制作好的txt文件。从其它文件格式获得的文体文件(包括从html,Word,Pdf文件转换格式的文本文件或从Internet上下载的文本文件)存在很多问题,如比较常见的 "换行符非法截断文本 "问题,现讨论分析如下:
1.换行符之前的一个字符是逗号(全角逗号[,]和半角逗号[,])则一定是有问题的!这时处理方法应该是:删除该“换行符”,并且如果 "换行符 "后还有连续的“空格”(可能有全角,半角之分)也大于2个中文字符也应删除多余的空格。 "换行符 "与“下一行空格字符”之间可保留适当“空格”(比发2个汉字空格或由用户设定的数目空格(可选))。
2.换行符之前的一个字符如果是 [”][--][。][?][!]这些符号时,也是正常的。当然,如果是半角的句点[.] & [ "]也勉强算对。
3.如果换行符之前是一个“非标点符号的汉字”,则很可能是“换行符非法意外截断文本”!。当然这里面还有一个特例:这一行是标题行或章节行!
如何判断是章节行或标题行?我能想到的是:
a.这一行不会太长! 章节行或标题行如果超过一行哪一般是不可能的。
b.这一行中可能含有数字(0~9)或汉字数字“一,二,三.....九,十”,还有“节,章,篇”等等汉字。
判断是“章节行或标题行”大家再讨论讨论,看看哪里还有没有想到的,还可以再补充完善。欢迎大家继续讨论!!!
如果真的是“换行符非法意外截断文本”,那么该 "换行符 "应该删除!
先放100分,欢迎大家继续踊跃讨论!!!
------解决方案--------------------
貌似看懂了点,是不是可以先查找整个文件中所有的#13+#10,全部删除然后再根据需要自己来换行
------解决方案--------------------
怎么可以删除所有的 #13#10 ? 这样文章都没有分段了。
------解决方案--------------------
你所说的那两个特点不是标题和章节的充分特点,甚至连必要特点也不是,而且普通行也可能存在你所说的那两个特点
------解决方案--------------------
不过既然是自己的电子图书,那么可以给标题和段首设置普通行不具备的特点:比如标题以 ' < < < < < '开头,段首以 '> > > > > '开始(开始符之始举个例子,可以选择其它更安全的),这样可以把普通行和标题、段首区分开,可以删除其他的所有的换行符了
------解决方案--------------------
而且其他类似段首和标题的特殊情况可以设置不同或者相同的起始或者结束标志