怎样将多级文件夹下的所有xml文件批量去掉标签,并转成txt格式?
问题描述:
怎样将多级文件夹下的所有xml文件批量去掉标签,并转成txt格式?最好能都转换在同一个txt文件中。(注:该主目录下的所有子文件夹中的所有文件都是xml格式,具体如图所示)
最近在写毕业论文,这个问题的解决关乎单语语料库的构建,时间紧迫,希望大牛们多多指教,感激不尽呢!!
答
python
1、os.walk() 获取对应目录及其子目录下的所有文件
2、筛选提取.xml文件,并将其重命名(os.rename()/os.replace())为对应的.txt文件
答
注明一下,xml转成txt不是简单地改一下扩展名,而是要删掉xml的格式和标签,变成txt纯文本文档。本人是文科生,各位大牛回复的时候,麻烦照顾一下,写的稍微详细点哈。
答
这里不是有现成的么...... https://blog.csdn.net/jiao_mrswang/article/details/84647372