“tokenize”相关文章

jQuery选择器代码详解（5）——实例说明tokenize的解析过程

c_a_3();jQuery选择器代码详解（五）——实例说明tokenize的解析过程原创文章，转载请写明出处，多谢！以下分析基于jQuery-1.10.2.js版本。下面将以$("div:not(.class:contain('span')):eq(3)")为例，说明tokenize和preFil...

2022-08-28 00:11:44

从输入文件逐行输入，并使用strtok（）和输出到输出文件中进行tokenize

我想做的是输入一个文件LINE BY LINE和tokenize并输出到一个输出文件。我已经能够做的是输入文件的第一行，但我的问题是，我不能输入下一行tokenize，以便它可以保存为输出文件中的第二行，这是我可以做的输入文件中的第一行。What I ...

2022-07-20 19:17:14

tokenize和tokenizer到底如何翻译

c_a_3();tokenize和tokenizer到底怎么翻译？在编写词法分析器(Lexer)或语法分析器(Parser)的时候，除了Lexer和Parser这两个词会经常使用外，tokenize和tokenizer也会经常出现，基本上所有涉及到词法解析的源码都会用到tokenize。它的命...

2022-06-06 08:36:10

nltk wordpunct_tokenize与word_tokenize

有人知道nltk的wordpunct_tokenize和word_tokenize之间的区别吗?我正在使用nltk=3.2.4，并且wordpunct_tokenize的文档字符串上没有任何内容可以解释差异.在nltk的文档中也找不到此信息(也许我没有...

2022-05-23 19:38:48

Python re.split()与nltk word_tokenize和send_tokenize

我正在经历这个问题. 我只是想知道NLTK在单词/句子标记化方面是否会比正则表达式更快. Am just wondering whether NLTK would be faster than regex in word/sentence tokenization.

2022-05-23 19:38:30

将文本拆分为段NLTK-使用nltk.tokenize.texttiling吗?

我正在寻找将文档拆分为段落的方法，并且遇到了I was looking at methods to split documents into paragraphs and I came across texttiling as one possible...

2022-05-23 19:37:00

如何在数据框中使用word_tokenize

我最近开始使用nltk模块进行文本分析.我陷入了困境.我想在数据框上使用word_tokenize，以便获取在数据框的特定行中使用的所有单词.I have recently started using the nltk module for text ...

2022-05-23 19:36:54

从nltk word_tokenize获取原始文本的索引

我正在使用nltk.word_tokenize对文本进行标记，并且我还希望将原始原始文本中的索引获取到每个标记的第一个字符，即I am tokenizing a text using nltk.word_tokenize and I would lik...

2022-05-23 19:37:18

通过Pandas数据框运行nltk sent_tokenize

我有一个由两列组成的数据框:ID和TEXT.伪装数据如下:I have a dataframe that consists of two columns: ID and TEXT. Pretend data is below:ID TEXT2...

2022-05-23 19:37:12

如何在 NLTK 中使用 word_tokenize 忽略单词之间的标点符号?

我希望使用 NLTK word_tokenize 忽略单词之间的字符.I'm looking to ignore characters in-between words using NLTK word_tokenize.如果我有一句话:test = '...

2022-05-23 19:37:06

如何在Pandas数据框上将NLTK word_tokenize库应用于Twitter数据?

这是我用于Twitter语义分析的代码:-This is the Code that I am using for semantic analysis of twitter:-import pandas as pdimport datetimeimpo...

2022-05-23 19:37:00

EXSL - 如何使用 str:tokenize()?

我刚开始使用 XSLT，我尝试在 XSLT 1.0 中使用 str:tokenize() 模板.我查了一下:http://www.exslt.org/str/functions/tokenize/index.htmlI'm just starting ...

2022-05-23 19:36:54

regexp_tokenize和阿拉伯文字

我正在使用 regexp_tokenize() 来从没有任何标点符号的阿拉伯文字:I'm using regexp_tokenize() to return tokens from an Arabic text without any punctuat...

2022-05-23 19:36:48

如何定义特殊的“不可令牌化"? nltk.word_tokenize的单词

我正在使用nltk.word_tokenize标记某些句子，这些句子包含编程语言，框架等，这些句子被错误地标记了.I'm using nltk.word_tokenize for tokenizing some sentences which cont...

2022-05-23 19:36:42

tokenize 模块中的 Python 2 换行符

我在 Python 中使用 tokenize 模块，想知道为什么有 2 个不同的换行符:I am using the tokenize module in Python and wonder why there are 2 different newl...

2022-05-23 19:36:30

删除注释... tokenize错误

在分析一个非常大的应用程序（pysol）时，我需要删除评论。删除评论所有这一行都很简单... 而不是嵌入式注释我使用了tokenize模块。令我惊讶的是分析输出与输入不同（最后一个元组元素应该完全复制输入行）错误出现在三重字符串的对应中。我不知道这是否...

2022-05-23 19:36:24

word_tokenize TypeError:预期的字符串或缓冲区

调用word_tokenize时出现以下错误:File "C:\Python34\lib\site-packages\nltk\tokenize\punkt.py", line 1322, in _slices_from_text for mat...

2022-05-23 19:36:42

python nltk.sent_tokenize错误ascii编解码器无法解码

我可以成功地将文本读取到变量中，但是在尝试对文本进行标记化时会遇到这个奇怪的错误:I could successfully read text into a variable but while trying to tokenize the texts...

2022-05-23 19:36:36

如何使用NLTK nltk.tokenize.texttiling将文本拆分为段落?

我找到了将文本拆分为NLTK段落- nltk.tokenize.texttiling的用法?解释了如何将文本输入texttiling，但是我无法真正返回由段落/主题更改标记的文本，如以下texttiling I found this Split Tex...

2022-05-23 19:36:30

修改python nltk.word_tokenize以排除“#".作为分隔符

我正在使用Python的NLTK库标记我的句子. I am using Python's NLTK library to tokenize my sentences. 如果我的代码是text = "C# billion dollars; we don'...

2022-05-23 19:36:24