怎样将多级文件夹下的所有xml文件批量去掉标签,并转成txt格式?

怎样将多级文件夹下的所有xml文件批量去掉标签,并转成txt格式?

问题描述:

怎样将多级文件夹下的所有xml文件批量去掉标签,并转成txt格式?最好能都转换在同一个txt文件中。(注:该主目录下的所有子文件夹中的所有文件都是xml格式,具体如图所示)
图片说明

最近在写毕业论文,这个问题的解决关乎单语语料库的构建,时间紧迫,希望大牛们多多指教,感激不尽呢!!

python
1、os.walk() 获取对应目录及其子目录下的所有文件
2、筛选提取.xml文件,并将其重命名(os.rename()/os.replace())为对应的.txt文件

注明一下,xml转成txt不是简单地改一下扩展名,而是要删掉xml的格式和标签,变成txt纯文本文档。本人是文科生,各位大牛回复的时候,麻烦照顾一下,写的稍微详细点哈。

这里不是有现成的么...... https://blog.csdn.net/jiao_mrswang/article/details/84647372

如果不行的话 可以使用正则表达式将<>以及中间的所有字符还有空格、换行符替换为空值 然后改文件名应该就可以了