MindSpore框架加载文本数据集示例

时间：2021-07-12 17:59:11 阅读：0 评论：0 收藏：0 [点我收藏+]

标签：ref hit dict loading inf 上海 tokenize ons open

代码原地址：

https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/use/load_dataset_text.html

=======================================================

完整代码：

import os

os.system("rm -f ./datasets/tokenizer.txt")

if not os.path.exists(‘./datasets‘):
    os.mkdir(‘./datasets‘)
file_handle=open(‘./datasets/tokenizer.txt‘,mode=‘w‘)
file_handle.write(‘Welcome to Beijing \n北京欢迎您！ \n我喜欢English! \n‘)
file_handle.close()





import mindspore.dataset as ds
import mindspore.dataset.text as text

DATA_FILE = ‘./datasets/tokenizer.txt‘
dataset = ds.TextFileDataset(DATA_FILE, shuffle=False)

ds.config.set_seed(58)
dataset = dataset.shuffle(buffer_size=3)
for data in dataset.create_dict_iterator(output_numpy=True):
    print(text.to_str(data[‘text‘]))


print(‘=‘*30)


replace_op1 = text.RegexReplace("Beijing", "Shanghai")
replace_op2 = text.RegexReplace("北京", "上海")
dataset = dataset.map(operations=replace_op1)
dataset = dataset.map(operations=replace_op2)
for data in dataset.create_dict_iterator(output_numpy=True):###need to mark
    print(text.to_str(data[‘text‘]))


print(‘=‘*30)


tokenizer = text.WhitespaceTokenizer()

dataset = dataset.map(operations=tokenizer)

for data in dataset.create_dict_iterator(num_epochs=1,output_numpy=True):
    print(text.to_str(data[‘text‘]).tolist())

运行结果：

技术图片

============================================================================

MindSpore框架加载文本数据集示例

标签：ref hit dict loading inf 上海 tokenize ons open

原文地址：https://www.cnblogs.com/devilmaycry812839668/p/14995582.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

MindSpore框架 加载文本数据集 示例

MindSpore框架加载文本数据集示例