Upload folder using huggingface_hub

a8639ac verified 7 months ago

21.3 kB

	import os
	import torch
	from logger import log_data, init_logger, log_img
	import torch.nn as nn
	from tqdm import tqdm, trange
	from torch.profiler import profile, record_function, ProfilerActivity
	import gc
	import numpy as np
	from eval import evaluate_topk
	from dataset import dataset
	from Levenshtein import ratio
	from enum import Enum
	import signal
	import sys

	device = "mps" if torch.backends.mps.is_available() else "cpu"


	from collections import defaultdict


	class ValueTracker:
	def __init__(self):
	self.data = {}

	def add(self, label, value):
	if label not in self.data:
	self.data[label] = []
	self.data[label].append(value)

	def average(self, label):
	values = self.data[label]
	if values:
	return sum(values) / len(values)
	else:
	return 0.0

	def reset(self, label=None):
	if label is not None:
	if label in self.data:
	self.data[label] = []
	else:
	self.data = {}

	def get_values(self, label):
	return self.data[label]

	def summary(self):
	for label in self.data:
	avg = self.average(label)
	print(f"{label} - Average: {avg:.4f}")


	class TrainingManager:
	def __init__(
	self,
	net: nn.Module,
	dir: str,
	dataloader,
	device=device,
	trainstep_checkin_interval=100,
	epochs=100,
	val_dataloader=None,
	):

	learning_rate = 0.001

	self.clip = 1.0

	self.trainstep_checkin_interval = trainstep_checkin_interval
	self.epochs = epochs

	self.dataloader = dataloader
	self.val_dataloader = val_dataloader

	self.net = net
	self.net.to(device)
	self.device = device

	self.dir = dir

	self.criterion = torch.nn.CrossEntropyLoss(label_smoothing=0.1)
	self.optimizer = torch.optim.AdamW(
	self.net.parameters(), lr=learning_rate#, weight_decay=1e-5
	)

	# No clue what this does. Maybe its good
	# initialized and never used.
	self.scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(
	optimizer=self.optimizer, factor=0.9, patience=10
	)

	self.tracker = ValueTracker()

	self.resume_epoch, self.resume_step = self.get_resume()
	if self.resume_epoch >= self.epochs - 1:
	pass
	elif self.resume_epoch != 0 or self.resume_step != 0:
	self.resume()
	else:
	if os.path.exists(self.dir) and any(
	os.path.isfile(os.path.join(self.dir, item))
	for item in os.listdir(self.dir)
	):
	raise ValueError(f"The directory '{self.dir}' contains files!")

	os.makedirs(self.dir, exist_ok=True)
	os.makedirs(os.path.join(self.dir, "ckpt"), exist_ok=True)

	print(f"{self.get_param_count()} parameters.")

	# Set up signal handler for graceful shutdown
	signal.signal(signal.SIGINT, self._signal_handler)
	self._interrupted = False

	def _signal_handler(self, signum, frame):
	"""Handle keyboard interrupt gracefully"""
	print("\nKeyboard interrupt received. Saving checkpoint...")
	self._interrupted = True

	def _save_on_interrupt(self, epoch, step):
	"""Save checkpoint and resume info on interrupt"""
	try:
	self._save("latest.pt")
	self.write_resume(epoch, step)
	print(f"Checkpoint saved at epoch {epoch}, step {step}")
	except Exception as e:
	print(f"Failed to save checkpoint: {e}")
	finally:
	print("Exiting...")
	sys.exit(0)

	def hasnan(self):
	for _, param in self.net.named_parameters():
	if torch.isnan(param).any():
	return True
	for _, param in self.net.named_parameters():
	if param.grad is not None and torch.isnan(param.grad).any():
	return True

	return False

	def _save(self, name="latest.pt"):
	with open(os.path.join(self.dir, "ckpt", name), "wb+") as f:
	torch.save(self.net.state_dict(), f)

	def _load(self, name="latest.pt"):
	self.net.load_state_dict(
	torch.load(os.path.join(self.dir, "ckpt", name), weights_only=True)
	)

	def write_resume(self, epoch, step=0):
	with open(os.path.join(self.dir, "ckpt", "resume.txt"), "w+") as f:
	f.write(f"{epoch},{step}")

	def get_resume(self):
	try:
	with open(os.path.join(self.dir, "ckpt", "resume.txt"), "r") as f:
	content = f.read().strip()
	if ',' in content:
	epoch, step = content.split(',')
	return int(epoch), int(step)
	else:
	# Backward compatibility: if only epoch is stored
	return int(content), 0
	except (FileNotFoundError, ValueError):
	return 0, 0

	def write_best_val_loss(self, loss):
	with open(os.path.join(self.dir, "ckpt", "best_val_loss.txt"), "w+") as f:
	f.write(f"{loss:.6f}")

	def get_best_val_loss(self):
	try:
	with open(os.path.join(self.dir, "ckpt", "best_val_loss.txt"), "r") as f:
	return float(f.read())
	except (FileNotFoundError, ValueError):
	return float("inf")

	def resume(self):
	self._load("latest.pt")

	def save(self, loss):
	self._save("latest.pt")

	best_val_loss = self.get_best_val_loss()
	if loss < best_val_loss:
	best_val_loss = loss
	self._save("best.pt")
	self.write_best_val_loss(best_val_loss)

	# self._save(f"{prefix}_{step}.pt")

	def on_trainloop_checkin(self, epoch, step, dataloader_len):
	if self.hasnan():
	# revert
	print("RESUMING")
	self.resume()

	self._save("latest.pt") # Just update latest checkpoint
	self.write_resume(epoch, step + 1) # Save current progress

	log_data(
	{"Loss/Trainstep": self.tracker.average("Loss/trainstep")},
	epoch * dataloader_len + step,
	)
	log_data(
	{"Acc/Trainstep": self.tracker.average("Acc/trainstep")},
	epoch * dataloader_len + step,
	)
	log_data(
	{"TopKAcc/Trainstep": self.tracker.average("TopKAcc/trainstep")},
	epoch * dataloader_len + step,
	)

	self.tracker.reset("Loss/trainstep")
	self.tracker.reset("Acc/trainstep")
	self.tracker.reset("TopKAcc/trainstep")

	def on_epoch_checkin(self, epoch):
	if self.hasnan():
	# revert
	self.resume()

	val_loss = float("inf")
	try:
	val_loss = self.tracker.average("Loss/val/epoch")
	except KeyError:
	pass

	self.save(
	val_loss if val_loss < float("inf") else self.tracker.average("Loss/epoch")
	)

	log_data(
	{
	"Loss/Epoch": self.tracker.average("Loss/epoch"),
	"Loss/Val/Epoch": val_loss,
	"Perplexity/Val/Epoch": float(np.exp(val_loss)),
	"TopKAcc/Epoch": self.tracker.average("TopKAcc/epoch"),
	},
	epoch,
	)

	self.tracker.reset("Acc/epoch")
	self.tracker.reset("Loss/epoch")
	self.tracker.reset("Loss/val/epoch")
	self.tracker.reset("TopKAcc/epoch")
	self.tracker.reset("Perplexity/val/epoch")

	self.write_resume(epoch + 1, 0) # Start next epoch at step 0

	def eval_model(self, data, compute_metrics=True):
	if type(data) == tuple or type(data) == list:
	data = tuple(d.to(self.device) for d in data)
	batch, attn_mask = data
	else:
	data = data.to(self.device)
	batch = data
	attn_mask = None

	del attn_mask # unused

	labels = batch[:, 1:].contiguous()
	batch = batch[:, :-1].contiguous()

	# Forward pass
	results = self.net(batch, transpose=True) # , padding_mask=attn_mask[:, :-1])
	results = results.transpose(0, 1) # average bug

	# Compute loss
	loss = self.criterion(results.reshape(-1, results.size(-1)), labels.reshape(-1))

	if not compute_metrics:
	return loss, None, None

	# Compute accuracy
	preds = results.reshape(-1, results.size(-1)).argmax(dim=1)
	labels_flat = labels.reshape(-1)
	acc = (preds == labels_flat).float().mean()

	# Top-k accuracy
	top_k = 5
	top_k_preds = results.reshape(-1, results.size(-1)).topk(top_k, dim=1).indices
	top_k_acc = (top_k_preds == labels_flat.unsqueeze(1)).any(dim=1).float().mean().item()

	return loss, acc, top_k_acc

	def run_generation(self, data):
	batch, attn_mask = data
	start_sequence = batch[:, :-1].contiguous()[0][:100].unsqueeze(0)
	result = evaluate_topk(
	self.net, start_sequence, amt=100, k=10, temperature=0.8, device=device
	)

	result = dataset.manager.decode(result[0])
	batch_str = dataset.manager.decode(start_sequence[0])

	result = f"<data>{batch_str}</data>{result[len(batch_str):]}"
	# print(result)

	with open(os.path.join(self.dir, "ckpt", "generated.txt"), "a+") as f:
	f.write(f"K=10,T=0.8: {result}\n")

	def epoch_gen(self, loader):
	if loader is not None:
	for data in loader:
	self.run_generation(data)
	break

	def trainstep(self, data):
	self.optimizer.zero_grad()

	loss, acc, topk_acc = self.eval_model(data)

	self.tracker.add("Loss/trainstep", loss.item())
	self.tracker.add("Loss/epoch", loss.item())

	self.tracker.add("Acc/trainstep", acc.item())
	self.tracker.add("TopKAcc/trainstep", topk_acc)
	self.tracker.add("TopKAcc/epoch", topk_acc)

	loss.backward()
	self.optimizer.step()

	return loss.detach(), acc.detach()

	@torch.no_grad() # decorator yay
	def valstep(self, data):
	loss, acc, topk_acc = self.eval_model(data)

	self.tracker.add("Loss/valstep", loss.item())
	self.tracker.add("Loss/val/epoch", loss.item())

	self.tracker.add("Perplexity/val/epoch", float(np.exp(loss.item())))

	self.tracker.add("TopKAcc/valstep", topk_acc)
	self.tracker.add("TopKAcc/val/epoch", topk_acc)

	return loss.detach(), acc.detach()

	def val_loop(self, val_loader):
	if val_loader is not None:
	for step, data in enumerate(
	test_tqdm := tqdm(
	val_loader, leave=False, dynamic_ncols=True, desc=f"valloop"
	)
	):
	self.valstep(data)
	avg_val_loss = self.tracker.average("Loss/val/epoch")
	test_tqdm.set_postfix({"Val Loss": f"{avg_val_loss:.3f}"})

	def train_loop(self, dataloader, epoch):
	start_step = self.resume_step if epoch == self.resume_epoch else 0

	for step, data in enumerate(
	train_tqdm := tqdm(
	dataloader, leave=False, dynamic_ncols=True, desc=f"trainloop"
	)
	):
	# Check for interrupt
	if self._interrupted:
	self._save_on_interrupt(epoch, step)
	raise KeyboardInterrupt("Training interrupted by user")

	# Skip steps if resuming
	if step < start_step:
	continue

	self.trainstep(data)

	avg_train_loss = self.tracker.average("Loss/trainstep")
	train_tqdm.set_postfix({"Train Loss": f"{avg_train_loss:.3f}"})

	if (
	step % self.trainstep_checkin_interval
	== self.trainstep_checkin_interval - 1
	):

	self.on_trainloop_checkin(epoch, step, len(dataloader))


	def epoch(self, epoch: int, dataloader, val_loader=None):
	if self._interrupted:
	return

	self.net.train()
	self.train_loop(dataloader, epoch)

	if self._interrupted:
	return

	tqdm.write(self.get_memory_stats(self.net, dataloader.dataset, sep=" / "))
	self.net.eval()
	self.val_loop(val_loader)

	if self._interrupted:
	return

	self.epoch_gen(val_loader)
	self.on_epoch_checkin(epoch)

	def train(self, epochs=None, dataloader=None):

	if epochs is not None:
	self.epochs = epochs

	if dataloader is not None:
	self.dataloader = dataloader

	try:
	for e in trange(
	self.resume_epoch, self.epochs, dynamic_ncols=True, unit_scale=True, unit_divisor=60
	):
	if self._interrupted:
	break

	self.epoch(e, self.dataloader, self.val_dataloader)

	except KeyboardInterrupt:
	print("\nTraining interrupted. Checkpoint saved.")
	finally:
	print("Training session ended.")
	gc.collect()
	os.system(
	"""osascript -e 'display notification "Training complete" with title "Training Complete"'"""
	)

	@staticmethod
	def get_curriculum_enum():
	return Enum(
	"Curriculum",
	[
	("NOOP", 1),
	("CURRICULUM", 2),
	("ANTICURRICULUM", 3),
	("SEQUENTIAL", 4),
	("HYBRID", 5),
	],
	)

	def train_curriculum(
	self, epochs=None, dataloader=None, curriculum_type=None, loss_based=False
	):

	print(f"Training curriculum: {curriculum_type} loss_based: {loss_based}")

	Curriculum = self.get_curriculum_enum()

	if curriculum_type is None:
	curriculum_type = Curriculum.NOOP

	if epochs is not None:
	self.epochs = epochs

	if dataloader is not None:
	self.dataloader = dataloader

	sorted_indices = sorted(
	range(len(self.dataloader.dataset)),
	key=lambda i: self.dataloader.dataset[i][1],
	reverse=(curriculum_type.value == Curriculum.ANTICURRICULUM.value),
	)

	# [min(1.0, ((i+1))/epochs) for i in range(epochs)] for normal range
	standard_schedule = [
	min(1.0, ((i + 2) - (i % 2)) / self.epochs) for i in range(self.epochs)
	] # [0.2,0.2, 0.4,0.4,0.6,0.6,0.8,0.8,1.0,1.0]
	hybrid_schedule = [
	min(1.0, (i + 2) / self.epochs) for i in range(self.epochs)
	] # [0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 1.0]
	step_size = 1 / (self.epochs / 2)

	try:
	for e in trange(
	self.resume_epoch, self.epochs, dynamic_ncols=True, unit_scale=True, unit_divisor=60
	):

	if loss_based:
	sorted_indices = self.get_loss_based_indices(
	self.dataloader,
	anti=(curriculum_type.value == Curriculum.ANTICURRICULUM.value),
	)

	subset_indices = None
	if curriculum_type.value == Curriculum.NOOP.value:
	print("No curriculum")
	subset_indices = sorted_indices # full dataset
	elif curriculum_type.value == Curriculum.SEQUENTIAL.value:
	print("Sequential curriculum")
	subset_indices = sorted_indices[
	int(
	max(len(sorted_indices) * (standard_schedule[e] - step_size), 0)
	) : int(len(sorted_indices) * standard_schedule[e])
	]
	elif curriculum_type.value == Curriculum.HYBRID.value:
	print("Hybrid curriculum")
	subset_indices = sorted_indices[
	int(
	max(len(sorted_indices) * (hybrid_schedule[e] - step_size), 0)
	) : int(len(sorted_indices) * hybrid_schedule[e])
	]
	elif curriculum_type.value == Curriculum.CURRICULUM.value:
	print("Curriculum")
	subset_indices = sorted_indices[
	: int(len(sorted_indices) * standard_schedule[e])
	]
	elif curriculum_type.value == Curriculum.ANTICURRICULUM.value:
	print("Anti curriculum")
	subset_indices = sorted_indices[
	: int(len(sorted_indices) * standard_schedule[e])
	]
	else:
	raise ValueError(f"Unknown curriculum type: {curriculum_type}")

	subset = torch.utils.data.Subset(self.dataloader.dataset, subset_indices)
	cur_dataloader = torch.utils.data.DataLoader(
	subset, batch_size=self.dataloader.batch_size, shuffle=True#, pin_memory=True
	)

	self.epoch(e, cur_dataloader, self.val_dataloader)

	except KeyboardInterrupt:
	print("\nCurriculum training interrupted. Checkpoint saved.")
	finally:
	print("Curriculum training session ended.")
	gc.collect()
	os.system(
	"""osascript -e 'display notification "Training complete" with title "Training Complete"'"""
	)

	print("All done!")
	gc.collect()
	os.system(
	"""osascript -e 'display notification "Training complete" with title "Training Complete"'"""
	)

	def get_loss_based_indices(self, dataloader, anti=False):
	losses = []
	# Create a new dataloader with the same dataset but without shuffling
	temp_dataloader = torch.utils.data.DataLoader(
	dataloader.dataset,
	batch_size=dataloader.batch_size,
	shuffle=False,
	num_workers=(
	dataloader.num_workers if hasattr(dataloader, "num_workers") else 0
	),
	)

	with torch.no_grad(): # Add this for faster inference
	for batch, _ in tqdm(
	temp_dataloader,
	dynamic_ncols=True,
	leave=False,
	desc="Loss-based sorting",
	):
	loss, _, _ = self.eval_model(batch, compute_metrics=False)

	# If the output is a single tensor, convert to list
	if isinstance(loss, torch.Tensor) and loss.dim() == 0:
	losses.extend([loss.item()] * batch.size(0))
	else:
	# If the output is already batched
	losses.extend(loss.detach().cpu().tolist())

	sorted_indices = sorted(
	range(len(dataloader.dataset)), key=lambda i: losses[i], reverse=anti
	)
	return sorted_indices

	def nan_debug(self):
	torch.autograd.set_detect_anomaly(True)

	def forward_hook(module, input, output):
	if isinstance(output, tuple):
	return
	if torch.isnan(output).any() or torch.isinf(output).any():
	print(f"NaNs/Infs detected in {module}")

	for module in self.net.modules():
	module.register_forward_hook(forward_hook)
	self.val_loop(self.val_dataloader)

	def get_param_count(self):
	return sum(p.numel() for p in self.net.parameters())

	def profile_trainstep(self):

	self.net.train()
	data = next(iter(self.dataloader))

	# https://pytorch.org/tutorials/recipes/recipes/profiler_recipe.html
	with profile(activities=[ProfilerActivity.CPU], record_shapes=True) as prof:
	with record_function("train_step"):
	self.trainstep(data)

	print(prof.key_averages().table(sort_by="cpu_time_total", row_limit=10))

	@staticmethod
	def get_memory_stats(net, trainset, sep="\n"):
	result = ""
	import datetime
	import time
	result += f"Time: {datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}" + sep
	import psutil
	if torch.backends.mps.is_available():
	result += f"MPS: {torch.mps.current_allocated_memory()/1e9:.2f} GB" + sep
	result += f"RAM: {psutil.virtual_memory().percent}% used" + sep

	# Print dataset size
	chunks = getattr(trainset, 'chunks', getattr(trainset.dataset, 'chunks', None))

	if chunks is not None:
	result += f"data: {sum(p.numel() * p.element_size() for p in [chunks]) / 1e9:.2f} GB" + sep

	# Print model size
	model_size = sum(p.numel() * p.element_size() for p in net.parameters()) / 1e9
	result += f"Params: {model_size:.2f} GB" + sep

	# Estimate optimizer size
	optimizer_size = model_size * 2
	result += f"Optim (est): {optimizer_size:.2f} GB" + sep

	return result

jblitzar
/

code-completion

TensorBoard

Model card Files Files and versions

xet

Metrics Training metrics Community

code-completion / trainingmanager.py

jblitzar

Upload folder using huggingface_hub

a8639ac verified 7 months ago

raw

history blame contribute delete

21.3 kB

	import os
	import torch
	from logger import log_data, init_logger, log_img
	import torch.nn as nn
	from tqdm import tqdm, trange
	from torch.profiler import profile, record_function, ProfilerActivity
	import gc
	import numpy as np
	from eval import evaluate_topk
	from dataset import dataset
	from Levenshtein import ratio
	from enum import Enum
	import signal
	import sys

	device = "mps" if torch.backends.mps.is_available() else "cpu"


	from collections import defaultdict


	class ValueTracker:
	def __init__(self):
	self.data = {}

	def add(self, label, value):
	if label not in self.data:
	self.data[label] = []
	self.data[label].append(value)

	def average(self, label):
	values = self.data[label]
	if values:
	return sum(values) / len(values)
	else:
	return 0.0

	def reset(self, label=None):
	if label is not None:
	if label in self.data:
	self.data[label] = []
	else:
	self.data = {}

	def get_values(self, label):
	return self.data[label]

	def summary(self):
	for label in self.data:
	avg = self.average(label)
	print(f"{label} - Average: {avg:.4f}")


	class TrainingManager:
	def __init__(
	self,
	net: nn.Module,
	dir: str,
	dataloader,
	device=device,
	trainstep_checkin_interval=100,
	epochs=100,
	val_dataloader=None,
	):

	learning_rate = 0.001

	self.clip = 1.0

	self.trainstep_checkin_interval = trainstep_checkin_interval
	self.epochs = epochs

	self.dataloader = dataloader
	self.val_dataloader = val_dataloader

	self.net = net
	self.net.to(device)
	self.device = device

	self.dir = dir

	self.criterion = torch.nn.CrossEntropyLoss(label_smoothing=0.1)
	self.optimizer = torch.optim.AdamW(
	self.net.parameters(), lr=learning_rate#, weight_decay=1e-5
	)

	# No clue what this does. Maybe its good
	# initialized and never used.
	self.scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(
	optimizer=self.optimizer, factor=0.9, patience=10
	)

	self.tracker = ValueTracker()

	self.resume_epoch, self.resume_step = self.get_resume()
	if self.resume_epoch >= self.epochs - 1:
	pass
	elif self.resume_epoch != 0 or self.resume_step != 0:
	self.resume()
	else:
	if os.path.exists(self.dir) and any(
	os.path.isfile(os.path.join(self.dir, item))
	for item in os.listdir(self.dir)
	):
	raise ValueError(f"The directory '{self.dir}' contains files!")

	os.makedirs(self.dir, exist_ok=True)
	os.makedirs(os.path.join(self.dir, "ckpt"), exist_ok=True)

	print(f"{self.get_param_count()} parameters.")

	# Set up signal handler for graceful shutdown
	signal.signal(signal.SIGINT, self._signal_handler)
	self._interrupted = False

	def _signal_handler(self, signum, frame):
	"""Handle keyboard interrupt gracefully"""
	print("\nKeyboard interrupt received. Saving checkpoint...")
	self._interrupted = True

	def _save_on_interrupt(self, epoch, step):
	"""Save checkpoint and resume info on interrupt"""
	try:
	self._save("latest.pt")
	self.write_resume(epoch, step)
	print(f"Checkpoint saved at epoch {epoch}, step {step}")
	except Exception as e:
	print(f"Failed to save checkpoint: {e}")
	finally:
	print("Exiting...")
	sys.exit(0)

	def hasnan(self):
	for _, param in self.net.named_parameters():
	if torch.isnan(param).any():
	return True
	for _, param in self.net.named_parameters():
	if param.grad is not None and torch.isnan(param.grad).any():
	return True

	return False

	def _save(self, name="latest.pt"):
	with open(os.path.join(self.dir, "ckpt", name), "wb+") as f:
	torch.save(self.net.state_dict(), f)

	def _load(self, name="latest.pt"):
	self.net.load_state_dict(
	torch.load(os.path.join(self.dir, "ckpt", name), weights_only=True)
	)

	def write_resume(self, epoch, step=0):
	with open(os.path.join(self.dir, "ckpt", "resume.txt"), "w+") as f:
	f.write(f"{epoch},{step}")

	def get_resume(self):
	try:
	with open(os.path.join(self.dir, "ckpt", "resume.txt"), "r") as f:
	content = f.read().strip()
	if ',' in content:
	epoch, step = content.split(',')
	return int(epoch), int(step)
	else:
	# Backward compatibility: if only epoch is stored
	return int(content), 0
	except (FileNotFoundError, ValueError):
	return 0, 0

	def write_best_val_loss(self, loss):
	with open(os.path.join(self.dir, "ckpt", "best_val_loss.txt"), "w+") as f:
	f.write(f"{loss:.6f}")

	def get_best_val_loss(self):
	try:
	with open(os.path.join(self.dir, "ckpt", "best_val_loss.txt"), "r") as f:
	return float(f.read())
	except (FileNotFoundError, ValueError):
	return float("inf")

	def resume(self):
	self._load("latest.pt")

	def save(self, loss):
	self._save("latest.pt")

	best_val_loss = self.get_best_val_loss()
	if loss < best_val_loss:
	best_val_loss = loss
	self._save("best.pt")
	self.write_best_val_loss(best_val_loss)

	# self._save(f"{prefix}_{step}.pt")

	def on_trainloop_checkin(self, epoch, step, dataloader_len):
	if self.hasnan():
	# revert
	print("RESUMING")
	self.resume()

	self._save("latest.pt") # Just update latest checkpoint
	self.write_resume(epoch, step + 1) # Save current progress

	log_data(
	{"Loss/Trainstep": self.tracker.average("Loss/trainstep")},
	epoch * dataloader_len + step,
	)
	log_data(
	{"Acc/Trainstep": self.tracker.average("Acc/trainstep")},
	epoch * dataloader_len + step,
	)
	log_data(
	{"TopKAcc/Trainstep": self.tracker.average("TopKAcc/trainstep")},
	epoch * dataloader_len + step,
	)

	self.tracker.reset("Loss/trainstep")
	self.tracker.reset("Acc/trainstep")
	self.tracker.reset("TopKAcc/trainstep")

	def on_epoch_checkin(self, epoch):
	if self.hasnan():
	# revert
	self.resume()

	val_loss = float("inf")
	try:
	val_loss = self.tracker.average("Loss/val/epoch")
	except KeyError:
	pass

	self.save(
	val_loss if val_loss < float("inf") else self.tracker.average("Loss/epoch")
	)

	log_data(
	{
	"Loss/Epoch": self.tracker.average("Loss/epoch"),
	"Loss/Val/Epoch": val_loss,
	"Perplexity/Val/Epoch": float(np.exp(val_loss)),
	"TopKAcc/Epoch": self.tracker.average("TopKAcc/epoch"),
	},
	epoch,
	)

	self.tracker.reset("Acc/epoch")
	self.tracker.reset("Loss/epoch")
	self.tracker.reset("Loss/val/epoch")
	self.tracker.reset("TopKAcc/epoch")
	self.tracker.reset("Perplexity/val/epoch")

	self.write_resume(epoch + 1, 0) # Start next epoch at step 0

	def eval_model(self, data, compute_metrics=True):
	if type(data) == tuple or type(data) == list:
	data = tuple(d.to(self.device) for d in data)
	batch, attn_mask = data
	else:
	data = data.to(self.device)
	batch = data
	attn_mask = None

	del attn_mask # unused

	labels = batch[:, 1:].contiguous()
	batch = batch[:, :-1].contiguous()

	# Forward pass
	results = self.net(batch, transpose=True) # , padding_mask=attn_mask[:, :-1])
	results = results.transpose(0, 1) # average bug

	# Compute loss
	loss = self.criterion(results.reshape(-1, results.size(-1)), labels.reshape(-1))

	if not compute_metrics:
	return loss, None, None

	# Compute accuracy
	preds = results.reshape(-1, results.size(-1)).argmax(dim=1)
	labels_flat = labels.reshape(-1)
	acc = (preds == labels_flat).float().mean()

	# Top-k accuracy
	top_k = 5
	top_k_preds = results.reshape(-1, results.size(-1)).topk(top_k, dim=1).indices
	top_k_acc = (top_k_preds == labels_flat.unsqueeze(1)).any(dim=1).float().mean().item()

	return loss, acc, top_k_acc

	def run_generation(self, data):
	batch, attn_mask = data
	start_sequence = batch[:, :-1].contiguous()[0][:100].unsqueeze(0)
	result = evaluate_topk(
	self.net, start_sequence, amt=100, k=10, temperature=0.8, device=device
	)

	result = dataset.manager.decode(result[0])
	batch_str = dataset.manager.decode(start_sequence[0])

	result = f"<data>{batch_str}</data>{result[len(batch_str):]}"
	# print(result)

	with open(os.path.join(self.dir, "ckpt", "generated.txt"), "a+") as f:
	f.write(f"K=10,T=0.8: {result}\n")

	def epoch_gen(self, loader):
	if loader is not None:
	for data in loader:
	self.run_generation(data)
	break

	def trainstep(self, data):
	self.optimizer.zero_grad()

	loss, acc, topk_acc = self.eval_model(data)

	self.tracker.add("Loss/trainstep", loss.item())
	self.tracker.add("Loss/epoch", loss.item())

	self.tracker.add("Acc/trainstep", acc.item())
	self.tracker.add("TopKAcc/trainstep", topk_acc)
	self.tracker.add("TopKAcc/epoch", topk_acc)

	loss.backward()
	self.optimizer.step()

	return loss.detach(), acc.detach()

	@torch.no_grad() # decorator yay
	def valstep(self, data):
	loss, acc, topk_acc = self.eval_model(data)

	self.tracker.add("Loss/valstep", loss.item())
	self.tracker.add("Loss/val/epoch", loss.item())

	self.tracker.add("Perplexity/val/epoch", float(np.exp(loss.item())))

	self.tracker.add("TopKAcc/valstep", topk_acc)
	self.tracker.add("TopKAcc/val/epoch", topk_acc)

	return loss.detach(), acc.detach()

	def val_loop(self, val_loader):
	if val_loader is not None:
	for step, data in enumerate(
	test_tqdm := tqdm(
	val_loader, leave=False, dynamic_ncols=True, desc=f"valloop"
	)
	):
	self.valstep(data)
	avg_val_loss = self.tracker.average("Loss/val/epoch")
	test_tqdm.set_postfix({"Val Loss": f"{avg_val_loss:.3f}"})

	def train_loop(self, dataloader, epoch):
	start_step = self.resume_step if epoch == self.resume_epoch else 0

	for step, data in enumerate(
	train_tqdm := tqdm(
	dataloader, leave=False, dynamic_ncols=True, desc=f"trainloop"
	)
	):
	# Check for interrupt
	if self._interrupted:
	self._save_on_interrupt(epoch, step)
	raise KeyboardInterrupt("Training interrupted by user")

	# Skip steps if resuming
	if step < start_step:
	continue

	self.trainstep(data)

	avg_train_loss = self.tracker.average("Loss/trainstep")
	train_tqdm.set_postfix({"Train Loss": f"{avg_train_loss:.3f}"})

	if (
	step % self.trainstep_checkin_interval
	== self.trainstep_checkin_interval - 1
	):

	self.on_trainloop_checkin(epoch, step, len(dataloader))


	def epoch(self, epoch: int, dataloader, val_loader=None):
	if self._interrupted:
	return

	self.net.train()
	self.train_loop(dataloader, epoch)

	if self._interrupted:
	return

	tqdm.write(self.get_memory_stats(self.net, dataloader.dataset, sep=" / "))
	self.net.eval()
	self.val_loop(val_loader)

	if self._interrupted:
	return

	self.epoch_gen(val_loader)
	self.on_epoch_checkin(epoch)

	def train(self, epochs=None, dataloader=None):

	if epochs is not None:
	self.epochs = epochs

	if dataloader is not None:
	self.dataloader = dataloader

	try:
	for e in trange(
	self.resume_epoch, self.epochs, dynamic_ncols=True, unit_scale=True, unit_divisor=60
	):
	if self._interrupted:
	break

	self.epoch(e, self.dataloader, self.val_dataloader)

	except KeyboardInterrupt:
	print("\nTraining interrupted. Checkpoint saved.")
	finally:
	print("Training session ended.")
	gc.collect()
	os.system(
	"""osascript -e 'display notification "Training complete" with title "Training Complete"'"""
	)

	@staticmethod
	def get_curriculum_enum():
	return Enum(
	"Curriculum",
	[
	("NOOP", 1),
	("CURRICULUM", 2),
	("ANTICURRICULUM", 3),
	("SEQUENTIAL", 4),
	("HYBRID", 5),
	],
	)

	def train_curriculum(
	self, epochs=None, dataloader=None, curriculum_type=None, loss_based=False
	):

	print(f"Training curriculum: {curriculum_type} loss_based: {loss_based}")

	Curriculum = self.get_curriculum_enum()

	if curriculum_type is None:
	curriculum_type = Curriculum.NOOP

	if epochs is not None:
	self.epochs = epochs

	if dataloader is not None:
	self.dataloader = dataloader

	sorted_indices = sorted(
	range(len(self.dataloader.dataset)),
	key=lambda i: self.dataloader.dataset[i][1],
	reverse=(curriculum_type.value == Curriculum.ANTICURRICULUM.value),
	)

	# [min(1.0, ((i+1))/epochs) for i in range(epochs)] for normal range
	standard_schedule = [
	min(1.0, ((i + 2) - (i % 2)) / self.epochs) for i in range(self.epochs)
	] # [0.2,0.2, 0.4,0.4,0.6,0.6,0.8,0.8,1.0,1.0]
	hybrid_schedule = [
	min(1.0, (i + 2) / self.epochs) for i in range(self.epochs)
	] # [0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 1.0]
	step_size = 1 / (self.epochs / 2)

	try:
	for e in trange(
	self.resume_epoch, self.epochs, dynamic_ncols=True, unit_scale=True, unit_divisor=60
	):

	if loss_based:
	sorted_indices = self.get_loss_based_indices(
	self.dataloader,
	anti=(curriculum_type.value == Curriculum.ANTICURRICULUM.value),
	)

	subset_indices = None
	if curriculum_type.value == Curriculum.NOOP.value:
	print("No curriculum")
	subset_indices = sorted_indices # full dataset
	elif curriculum_type.value == Curriculum.SEQUENTIAL.value:
	print("Sequential curriculum")
	subset_indices = sorted_indices[
	int(
	max(len(sorted_indices) * (standard_schedule[e] - step_size), 0)
	) : int(len(sorted_indices) * standard_schedule[e])
	]
	elif curriculum_type.value == Curriculum.HYBRID.value:
	print("Hybrid curriculum")
	subset_indices = sorted_indices[
	int(
	max(len(sorted_indices) * (hybrid_schedule[e] - step_size), 0)
	) : int(len(sorted_indices) * hybrid_schedule[e])
	]
	elif curriculum_type.value == Curriculum.CURRICULUM.value:
	print("Curriculum")
	subset_indices = sorted_indices[
	: int(len(sorted_indices) * standard_schedule[e])
	]
	elif curriculum_type.value == Curriculum.ANTICURRICULUM.value:
	print("Anti curriculum")
	subset_indices = sorted_indices[
	: int(len(sorted_indices) * standard_schedule[e])
	]
	else:
	raise ValueError(f"Unknown curriculum type: {curriculum_type}")

	subset = torch.utils.data.Subset(self.dataloader.dataset, subset_indices)
	cur_dataloader = torch.utils.data.DataLoader(
	subset, batch_size=self.dataloader.batch_size, shuffle=True#, pin_memory=True
	)

	self.epoch(e, cur_dataloader, self.val_dataloader)

	except KeyboardInterrupt:
	print("\nCurriculum training interrupted. Checkpoint saved.")
	finally:
	print("Curriculum training session ended.")
	gc.collect()
	os.system(
	"""osascript -e 'display notification "Training complete" with title "Training Complete"'"""
	)

	print("All done!")
	gc.collect()
	os.system(
	"""osascript -e 'display notification "Training complete" with title "Training Complete"'"""
	)

	def get_loss_based_indices(self, dataloader, anti=False):
	losses = []
	# Create a new dataloader with the same dataset but without shuffling
	temp_dataloader = torch.utils.data.DataLoader(
	dataloader.dataset,
	batch_size=dataloader.batch_size,
	shuffle=False,
	num_workers=(
	dataloader.num_workers if hasattr(dataloader, "num_workers") else 0
	),
	)

	with torch.no_grad(): # Add this for faster inference
	for batch, _ in tqdm(
	temp_dataloader,
	dynamic_ncols=True,
	leave=False,
	desc="Loss-based sorting",
	):
	loss, _, _ = self.eval_model(batch, compute_metrics=False)

	# If the output is a single tensor, convert to list
	if isinstance(loss, torch.Tensor) and loss.dim() == 0:
	losses.extend([loss.item()] * batch.size(0))
	else:
	# If the output is already batched
	losses.extend(loss.detach().cpu().tolist())

	sorted_indices = sorted(
	range(len(dataloader.dataset)), key=lambda i: losses[i], reverse=anti
	)
	return sorted_indices

	def nan_debug(self):
	torch.autograd.set_detect_anomaly(True)

	def forward_hook(module, input, output):
	if isinstance(output, tuple):
	return
	if torch.isnan(output).any() or torch.isinf(output).any():
	print(f"NaNs/Infs detected in {module}")

	for module in self.net.modules():
	module.register_forward_hook(forward_hook)
	self.val_loop(self.val_dataloader)

	def get_param_count(self):
	return sum(p.numel() for p in self.net.parameters())

	def profile_trainstep(self):

	self.net.train()
	data = next(iter(self.dataloader))

	# https://pytorch.org/tutorials/recipes/recipes/profiler_recipe.html
	with profile(activities=[ProfilerActivity.CPU], record_shapes=True) as prof:
	with record_function("train_step"):
	self.trainstep(data)

	print(prof.key_averages().table(sort_by="cpu_time_total", row_limit=10))

	@staticmethod
	def get_memory_stats(net, trainset, sep="\n"):
	result = ""
	import datetime
	import time
	result += f"Time: {datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}" + sep
	import psutil
	if torch.backends.mps.is_available():
	result += f"MPS: {torch.mps.current_allocated_memory()/1e9:.2f} GB" + sep
	result += f"RAM: {psutil.virtual_memory().percent}% used" + sep

	# Print dataset size
	chunks = getattr(trainset, 'chunks', getattr(trainset.dataset, 'chunks', None))

	if chunks is not None:
	result += f"data: {sum(p.numel() * p.element_size() for p in [chunks]) / 1e9:.2f} GB" + sep

	# Print model size
	model_size = sum(p.numel() * p.element_size() for p in net.parameters()) / 1e9
	result += f"Params: {model_size:.2f} GB" + sep

	# Estimate optimizer size
	optimizer_size = model_size * 2
	result += f"Optim (est): {optimizer_size:.2f} GB" + sep

	return result