txt文本怎么进行分割段落
txt文本如何进行分割段落
我在做一个项目,程序在读取txt文本的时候,需要根据文本的章节,提出出来。但是不同的txt文本的章节标识可能不一样。有的是第一章,第二章...第N章这种格式的。有的是第一回,第二回等。而且有的txt的章节可能是未知的。想了好久都没有思路。因为不能列举出所有的txt章节的格式。没有办法做区分。不知道达人们有没有好的思路和想法。
------解决方案--------------------
如果不用一一列举关键字的方法的话
你可以尝试按照换行符和每行的长度来判断
一般文章都是
第一X
XXXXXX
第二X
xxxxxxx
比如这种情况 你就找每行长度小于6个字节的那一行 然后在判断是否存在一二三这些的
方法有点笨 只是个思路
------解决方案--------------------
先判断它是那种分隔模式,在应用哪种分隔方法
------解决方案--------------------
第一遍扫描确定该文章的章节表达模式。
第二遍扫描则按该模式进行分割。
虽然表达方式比较多,但常见模式也就那么几种。如果碰到超越了的,程序认不出,可以让程序支持人工干预,更新知识库的方式来修正。
我在做一个项目,程序在读取txt文本的时候,需要根据文本的章节,提出出来。但是不同的txt文本的章节标识可能不一样。有的是第一章,第二章...第N章这种格式的。有的是第一回,第二回等。而且有的txt的章节可能是未知的。想了好久都没有思路。因为不能列举出所有的txt章节的格式。没有办法做区分。不知道达人们有没有好的思路和想法。
------解决方案--------------------
如果不用一一列举关键字的方法的话
你可以尝试按照换行符和每行的长度来判断
一般文章都是
第一X
XXXXXX
第二X
xxxxxxx
比如这种情况 你就找每行长度小于6个字节的那一行 然后在判断是否存在一二三这些的
方法有点笨 只是个思路
------解决方案--------------------
先判断它是那种分隔模式,在应用哪种分隔方法
------解决方案--------------------
第一遍扫描确定该文章的章节表达模式。
第二遍扫描则按该模式进行分割。
虽然表达方式比较多,但常见模式也就那么几种。如果碰到超越了的,程序认不出,可以让程序支持人工干预,更新知识库的方式来修正。